banner
Casa / Blog / MArVD2: uno strumento avanzato di apprendimento automatico per discriminare tra virus archaeali e batterici nei set di dati virali
Blog

MArVD2: uno strumento avanzato di apprendimento automatico per discriminare tra virus archaeali e batterici nei set di dati virali

Aug 11, 2023Aug 11, 2023

Comunicazioni ISME volume 3, articolo numero: 87 (2023) Citare questo articolo

370 accessi

10 Altmetrico

Dettagli sulle metriche

La nostra conoscenza dello spazio delle sequenze virali è esplosa con l’avanzamento delle tecnologie di sequenziamento e degli sforzi di campionamento e analisi su larga scala. Sebbene gli archaea siano procarioti importanti e abbondanti in molti sistemi, la nostra conoscenza dei virus archaea al di fuori degli ambienti estremi è limitata. Ciò deriva in gran parte dalla mancanza di un modo robusto, ad alta produttività e sistematico per distinguere tra virus batterici e archaeali nei set di dati di virus curati. Qui aggiorniamo il nostro precedente strumento basato su testo (MArVD) tramite l'addestramento e il test di un algoritmo di apprendimento automatico della foresta casuale rispetto a un set di dati di virus archaeal appena curato. Dopo l'ottimizzazione, MArVD2 ha presentato un miglioramento significativo rispetto al suo predecessore in termini di scalabilità, usabilità e flessibilità e consentirà set di dati di addestramento personalizzati definiti dall'utente man mano che la scoperta dei virus archaeal progredisce. Il benchmarking ha mostrato che un modello addestrato con sequenze virali provenienti da ambienti ipersalini, marini e termali ha classificato correttamente l'85% dei virus archeologici con un tasso di rilevamento falso inferiore al 2% utilizzando una soglia di previsione casuale della foresta dell'80% in un set di dati di benchmarking separato da gli stessi habitat.

I cicli dei nutrienti e dell'energia della Terra sono alimentati da minuscoli motori microbici [1]. Sebbene i batteri siano più comunemente studiati, vi è un crescente riconoscimento del fatto che anche gli archeobatteri sono fondamentali [2, 3]. Ad esempio, gli archaea possono comprendere quasi la metà della comunità microbica nell’oceano mesopelagico [2]. Qui, i Nitrososphaeria (ex Thaumarchaeota) sono i principali ossidanti dell’ammoniaca, contribuendo alle emissioni globali di gas serra (N2O) e rappresentando la maggior parte della perdita fissa di azoto al di sotto della zona fotica [3,4,5]. Negli ultimi decenni, un feedback tra l’espansione, guidata dai cambiamenti climatici, delle regioni a basso contenuto di ossigeno nell’oceano mesopelagico, dove prosperano i Nitrososphaeria, e il conseguente aumento delle emissioni di gas serra da queste regioni, sta mettendo in pericolo alcuni degli ambienti marini più produttivi del mondo [6,7 ,8]. Nelle zone umide e nei suoli permafrost, gli Euryarchaeota metanogeni dominanti rappresentano fino al 40% della produzione mondiale di metano, gran parte del quale viene ulteriormente ossidato da metanotrofi co-presenti [9]. Ciò è particolarmente preoccupante poiché gran parte del carbonio del suolo mondiale è immagazzinato nelle regioni del permafrost, che si stanno rapidamente trasformando in zone umide con l’aumento delle temperature globali, rappresentando quindi una potenziale importante fonte di metano atmosferico in futuro [10]. Considerata l’abbondanza e i ruoli biogeochimici critici svolti dagli archaea in questi e altri sistemi, la conoscenza dei virus che li infettano è essenziale per solide valutazioni ecologiche e modelli climatici predittivi.

Proprio come i batteri sono stati ben studiati rispetto agli archaea nella maggior parte degli ecosistemi naturali, lo stesso vale per i batteriofagi rispetto ai virus archaea. I progressi nel sequenziamento metagenomico, la pipeline ecogenomica da campione a sequenziamento, le migliori pratiche nell’identificazione virale [11,12,13,14] e piattaforme analitiche come iVirus che hanno democratizzato queste capacità [15, 16], hanno consentito la scoperta di centinaia di migliaia di virus batterici, o fagi, provenienti da ambienti di tutto il mondo [17,18,19,20]. A questi fagi viene attribuito il merito di avere un impatto sostanziale sulla mortalità dell’ospite, sul trasferimento genico orizzontale e sulla riprogrammazione metabolica [21,22,23,24,25,26,27], in modi che incidono sulle funzioni critiche dell’ecosistema come il ciclo globale del carbonio nell’oceano [28]. Pertanto, la nostra capacità di “vedere” i fagi è forte e ciò ha portato a passi da gigante nella nostra comprensione dell’impatto dei fagi sugli ecosistemi.

Al contrario, i virus archeologici, che sono stati tradizionalmente studiati in ambienti “estremi”, come sorgenti termali acide, stagni ipersalini, sedimenti anaerobici o camini idrotermali, sono gravemente sottorappresentati nella maggior parte degli studi basati sul metagenoma su scala globale [29,30,31, 32,33]. Ad esempio, ad oggi, meno di 230 virus archeologici marini sono stati identificati in modo confidenziale tra molteplici studi metagenomici abilitati o basati su colture [18, 32, 34,35,36,37,38,39,40,41,42], mentre una recente indagine sugli oceani globali ha rivelato oltre 488.000 popolazioni virali, la maggior parte delle quali si presume siano fagi [17]. In totale, stimiamo che ora siano disponibili genomi ben documentati o grandi frammenti di genoma di meno di circa 380 virus archaeali, con altri 6027 presunti virus archaeal nell'IMG/VR-db v3.0, [43] che è una piccola frazione rispetto alle centinaia di migliaia di genomi di popolazione ora disponibili per i fagi [17,18,19,20]. Una spiegazione per ciò potrebbe essere che la scoperta di nuovi virus archeologici si basa in gran parte su ricerche di omologia di sequenza rispetto a database di riferimento pubblici popolati da virus provenienti da ambienti estremi e molti virus archeologici mancano di omologia con questi riferimenti [44]. Questi virus archeologici “estremi” forse non sono buoni rappresentanti di quei virus archeologici provenienti da ambienti relativamente non estremi, indipendentemente dall’incredibile varietà di morfologie e stili di vita che esibiscono [29, 45,46,47,48]. Pertanto, distinguere il batteriofago dai virus archeologici in set di dati provenienti da ambienti relativamente non estremi, utilizzando gli approcci attuali, rimane una sfida, nonostante le chiare differenze genomiche ed evolutive tra fagi e virus archeologici [29, 45, 46, 49,50,51,52 ]. Di conseguenza, i ruoli ecologici dei virus archeologici in ambienti relativamente non estremi rimangono per lo più poco chiari, anche se le prove suggeriscono che potrebbero essere parte integrante del ciclo biogeochimico e delle dinamiche della comunità ospitante [36, 53,54,55].

10kbp (Fig. 6A and C). The exception to this was SPEC which remained high and nearly unchanged across the variable sequence size fractioned datasets (1 kb, 2.5 kb, 5 kb, 7.5 kb, 10 kb, >10 kb). Further, the FDR stayed relatively low across all fragment sizes, never exceeding 15% (Fig. 6A, C)./p>10 kbp./p>50 and evalue >0.001. These annotations are then integrated into the VirSorter “affi_contigs.csv” gene annotation file retaining the VirSorter derived Pfam [86] designations >40 bitscore and <0.00001 evalue. Using this updated per gene annotation file, MArVD functions exactly as its first inception [32]. Only MArVD category 1 and 2 putative archaeal viruses, corresponding to viruses having over 66 or 50% of their annotated genes affiliating with archaeal viruses respectively, and with bitscore >75 and higher than those for the phage affiliations, were retained as MArVD predicted archaeal viruses. This updated version of MArVD enabled the creation of the new environmental archaeal virus datasets from the ETSP and GOV2.0 datasets needed to train and test MArVD2 as well as allows for a means to compare the performance of MArVD with MArVD2./p>10 kb lengths. For the >10kbp size fraction, a second test dataset with various amounts of microbial sequences was included with equal proportions of bacteria and archaea. Genomic fragments from microbial sequences were randomly selected from the IMG/M [79] database and only included if their size was between 10 kb and 200 kb. Microbial sequences were added at 10, 25, 50, 75, and 95% of the total data. Microbial sequences were ensured not to be viral by use of VirSorter. Dataset size in terms of the number of contigs was also tested with the benchmarking dataset being broken into sets 10, 25, 50, 75, and 95% of the total number of contigs from the original validation dataset./p>