banner
Maison / Nouvelles / ViralCC récupère les génomes viraux complets et les virus
Nouvelles

ViralCC récupère les génomes viraux complets et les virus

Jun 04, 2024Jun 04, 2024

Nature Communications volume 14, Numéro d'article : 502 (2023) Citer cet article

3725 Accès

20 Altmétrique

Détails des métriques

L’introduction de la capture de conformation chromosomique à haut débit (Hi-C) dans la métagénomique permet de reconstruire des génomes assemblés par métagénome (MAG) de haute qualité à partir de communautés microbiennes. Malgré les progrès récents dans la récupération des génomes eucaryotes, bactériens et archéens à l’aide de cartes de contact Hi-C, peu de méthodes basées sur Hi-C sont conçues pour récupérer les génomes viraux. Nous présentons ici ViralCC, un outil accessible au public pour récupérer des génomes viraux complets et détecter les paires virus-hôte à l'aide des données Hi-C. Comparé à d’autres méthodes basées sur Hi-C, ViralCC exploite la structure de proximité virus-hôte comme source d’informations complémentaire pour les interactions Hi-C. En utilisant des ensembles de données métagénomiques Hi-C simulés et réels provenant de plusieurs écosystèmes microbiens différents, notamment l'intestin humain, les selles de vache et les eaux usées, nous démontrons que ViralCC surpasse les méthodes de regroupement Hi-C existantes ainsi que les outils de pointe. spécifiquement dédié au binning viral métagénomique. ViralCC peut également révéler la structure taxonomique des virus et des paires virus-hôtes dans les communautés microbiennes. Lorsqu'il est appliqué à un véritable ensemble de données métagénomiques Hi-C sur les eaux usées, ViralCC construit un réseau de phages-hôtes, qui est ensuite validé à l'aide d'analyses d'espacement CRISPR. ViralCC est un pipeline open source disponible sur https://github.com/dyxstat/ViralCC.

Les virus constituent l'organisme biologique le plus divergent et le plus omniprésent sur Terre, avec une abondance mondiale estimée à 1 031 1. Les virus ont d'énormes impacts sur les écosystèmes en tant que prédateurs et/ou parasites au sein des communautés microbiennes à travers le cycle lysogène ou lytique infectant les bactéries et les archées2,3. Par exemple, les virus contribuent de manière significative au cycle biogéochimique du carbone et de l’azote dans les habitats aquatiques4,5 et sont impliqués dans certaines maladies telles que les maladies inflammatoires de l’intestin et la malnutrition aiguë sévère dans les systèmes humains6,7. Par conséquent, l’intérêt pour la viromique a augmenté de façon spectaculaire au cours des deux dernières décennies.

Le nombre de virus pouvant être traditionnellement cultivés en laboratoire étant trop limité pour évaluer la diversité virale8, la métagénomique, en tant que stratégie d'échantillonnage indépendante de la culture, a été largement exploitée pour récupérer les génomes viraux et identifier les hôtes de ces virus nouvellement découverts. l’un des aspects les plus difficiles de l’étude des virus dans les communautés microbiennes9,10,11. Le séquençage métagénomique du génome entier (WGS) extrait directement des fragments génomiques de divers échantillons environnementaux, générant un grand nombre de lectures courtes qui sont ensuite assemblées en contigs12,13,14. Les contigs viraux métagénomiques sont ensuite identifiés à partir de grands assemblages sur la base de la composition des séquences, de la similarité des séquences et/ou de la détection de protéines virales15,16,17. Cependant, l’assemblage du génome viral à partir de lectures aléatoires est un défi18 et de courts contigs viraux ne peuvent représenter que des segments de génomes viraux entiers19. Les fragments viraux incomplets ont un impact négatif significatif sur les analyses en aval, notamment la caractérisation de la diversité et de l’abondance virales sous-jacentes, la prédiction de l’hôte et la capacité fonctionnelle20,21. Par conséquent, le regroupement viral métagénomique, défini comme un processus permettant de regrouper les contigs viraux de la même espèce en génomes assemblés par métagénome viral (vMAG), est précieux, en particulier pour les virus géants22.

La plupart des outils de regroupement traditionnels basés sur des fusils de chasse sont développés pour récupérer les génomes eucaryotes, bactériens et archéens23,24,25,26 et ignorent les défis associés aux virus, tels que l'absence de gènes universels à copie unique et la taille relativement petite des génomes viraux. . De plus, les outils de regroupement exploitant l’analyse des gènes marqueurs microbiens ne sont pas applicables aux virus24,27,28. CoCoNet29 et vRhyme30 sont deux méthodes existantes spécifiquement dédiées au regroupement viral métagénomique. CoCoNet entraîne un réseau neuronal en utilisant à la fois les caractéristiques de composition et de cooccurrence des contigs viraux dans des échantillons pour prédire la probabilité que deux contigs viraux proviennent du même génome. vRhyme utilise des comparaisons de taille d'effet de couverture sur un ou plusieurs échantillons pour calculer les différences de couverture entre les contigs viraux. Pour traiter les informations sur la composition des séquences, vRhyme pré-entraîne d'abord des modèles de classification supervisés basés sur l'apprentissage automatique à l'aide de fragments de génome. Ensuite, le vecteur de similarité des caractéristiques nucléotidiques entre deux contigs viraux est entré dans les modèles de classification pour prédire la valeur de probabilité que les contigs viraux proviennent du même génome. Enfin, vRhyme construit un réseau pondéré, dans lequel chaque nœud est un contig viral et un poids de bord est calculé en divisant la différence de couverture par la valeur de probabilité. Les réseaux sont ensuite affinés en vMAG. Cependant, CoCoNet et vRhyme peuvent être gravement compromis lorsqu'il n'y a pas suffisamment d'échantillons pour construire des profils de co-abondance fiables de contigs viraux, c'est-à-dire des profils montrant quels contigs partagent des valeurs d'abondance cohérentes sur plusieurs échantillons et sont donc susceptibles de provenir du même génome. .