Menu Chiudi

Genomi completi Khoisan e Bantu dall’Africa meridionale

Quattro cacciatori-raccoglitori indigeni namibiani !Gubi, G/aq’o, D#kgao e !Aî (indicati qui come KB1, NB1, TK1 e MD8, rispettivamente), ciascuno il membro più anziano della sua comunità, sono stati scelti per il sequenziamento del genoma in base al loro gruppo linguistico, alla posizione geografica e alla rappresentazione dell’aplogruppo Y-chromosome (Fig. 1 e Tabella 1 supplementare). L’individuo Bantu è l’arcivescovo Desmond Tutu (ABT), che rappresenta i parlanti Sotho-Tswana e Nguni (delle lingue larghe Niger-Congo), i due più grandi gruppi Bantu dell’Africa meridionale.

Figura 1: Mappa dell’Africa meridionale.
figura1

La figura mostra il raggruppamento etnico e le località dei partecipanti allo studio, KB1, NB1, TK1, MD8 e ABT (a-e, rispettivamente), le aree di clima arido e desertico e la distribuzione geografica delle lingue Khoisan e Niger-Congo30. Le lingue khoisan sono caratterizzate da click, che denotano consonanti aggiuntive. Il ! è un click palatale; / è un click dentale; e # è un click alveolare26. Si noti che l’aplogruppo del cromosoma Y ABT è stato determinato utilizzando sia la genotipizzazione che i dati di sequenziamento generati da questo studio.

Diapositiva PowerPoint

Come i genomi dei nostri partecipanti allo studio si prevedeva di divergere più dal genoma umano di riferimento rispetto ai genomi pubblicamente accessibili Yoruban, europei e asiatici4,5,6,7,8, abbiamo mirato a generare una sequenza del genoma che avrebbe fornito qualità sufficiente per entrambi mappatura rispetto al riferimento umano e de novo assembly. Pertanto, il genoma di KB1 è stato sequenziato a 10.2-fold copertura utilizzando la piattaforma Roche/454 GS FLX con chimica Titanium, dando una lunghezza media letto di 350 coppie di basi (bp). Per affrontare gli aspetti della struttura del genoma, sono state sequenziate ulteriori librerie di inserti lunghi per KB1 utilizzando la tecnologia Roche/454 Titanium paired-end, con dimensioni degli inserti fino a 17 kilobasi (kb) e una copertura del clone non ridondante di 12,3 volte. Il genoma di NB1 è stato sequenziato utilizzando la stessa piattaforma con una copertura doppia. Il genoma di ABT è stato sequenziato con una copertura di oltre 30 volte utilizzando la tecnologia short-read di Applied Biosystems, SOLiD 3.0. Inoltre, tutti e cinque i genomi dei partecipanti allo studio sono stati sequenziati con una copertura di almeno 16 volte nelle regioni codificanti le proteine (esomi) che sono state arricchite da Nimblegen sequence capture (array 2.1 M) e successivamente sequenziate sulla piattaforma Roche/454 Titanium (1.5-1.9 gigabases (Gb) di sequenza per individuo). La tabella supplementare 2 riporta il volume dei dati ottenuti, mentre la tabella supplementare 3 fornisce le statistiche dell’esoma.

I dati di sequenza sono stati convalidati da una varietà di tecniche, compreso il confronto delle sequenze dell’intero genoma e dell’esoma, il sequenziamento dell’intero genoma con un’altra piattaforma (Illumina, 23.2 volte per KB1 e 7.2 volte per ABT), genotipizzazione ad alta densità (Illumina 1 milione di SNPs), confronto delle informazioni di profondità di lettura con i dati di ibridazione genomica comparativa, così come la convalida di varianti selezionate usando la discriminazione allelica TaqMan e/o il sequenziamento Sanger. Stimiamo il tasso di falso positivo delle nostre chiamate finali di polimorfismo a singolo nucleotide (SNP) per KB1 come 0,0009, e il tasso di falso negativo come 0,09 (vedi informazioni supplementari per i dettagli).

Abbiamo creato un assemblaggio de novo del genoma KB1, utilizzando il Phusion assembler9. I contigs assemblato totale 2,79 Gb, con una dimensione N50 contig di 5,5 kb. La dimensione totale scaffold, comprese le lacune stimate, è 3,09 Gb, con una dimensione N50 scaffold di 156 kb. Lo scaffold più grande assemblato si estende per 3,2 Mb. Spesso, i dati di sequenza Roche GS FLX hanno prodotto contigs e scaffold che non mappano rispetto al genoma umano di riferimento. Molti di questi scaffold corrispondevano a lacune nell’attuale assemblaggio di riferimento umano, comprese le lacune oltre 200.000 bp di lunghezza (vedi Informazioni supplementari).

Le differenze mononucleotidiche dall’assemblaggio del genoma umano di riferimento (NCBI Build 36, noto anche come hg18) sono state identificate per i cinque genomi dell’Africa meridionale e confrontate con quelle di otto genomi personali disponibili4,5,6,7,8. In quanto segue, il termine “SNP” indica una differenza di un singolo nucleotide rispetto all’assemblaggio umano di riferimento, non includendo inserzioni/delezioni di una base, e senza restrizioni sulla frequenza allelica in una popolazione. Gli SNP sono stati chiamati utilizzando il software Newbler (per Roche/454), Corona Lite (per SOLiD) e MAQ10 (per Illumina).

Consistente con l’opinione che gli africani meridionali sono tra le popolazioni umane più divergenti, abbiamo identificato più SNP in KB1, e in misura minore in ABT, che sono stati riportati in altri singoli genomi umani (Fig. 2 e Tabella 1), anche se una parte della variazione nel numero di SNP può derivare da differenze nella tecnologia e livelli di copertura. Il numero di SNPs che sono nuovi (cioè, non precedentemente visti in altri individui) è molto più alto per KB1 e ABT che per altri singoli genomi interi (Tabella 1). KB1 e ABT hanno circa 1 milione di SNPs ciascuno che non sono condivisi tra loro o con i genomi completi pubblicati Yoruban, asiatici o europei4,5,6,7,8 (Fig. 2). Nei 117 megabasi (Mb) di intervalli sequenziati contenenti esomi, il tasso medio di differenze nucleotidiche tra una coppia di Boscimani era di 1,2 per chilobase, rispetto a una media di 1,0 per chilobase di differenza tra un individuo europeo e asiatico. Il più alto tasso di SNP nei Boscimani si riflette nell’offset delle linee rosse e nere in Fig. 3b. La diversità autosomica dei partecipanti allo studio è rispecchiata dalla diversità dei genomi mitocondriali. Mentre gli europei in media mostrano circa 20 differenze dalla sequenza di riferimento di Cambridge (CRS)11, i nostri partecipanti dell’Africa meridionale mostrano fino a 100 SNPs mitocondriali rispetto alla CRS (Tabelle supplementari 4 e 5 e Figure supplementari 1 e 2). Ancora più importante, nonostante tutte le sequenze mitocondriali appartengano allo stesso aplogruppo L0, si osservano fino a 84 differenze tra le coppie di genomi mitocondriali dei partecipanti (Tabella supplementare 4).

Figura 2: Relazioni a tre vie tra SNPs.
figura2

SNPs da KB1 sono confrontati con quelli dello Yoruban NA19240 e ABT (pannello di sinistra), e con un americano di origine europea (J. C. Venter) e un individuo cinese (YH) (pannello di destra). I numeri sono dati in migliaia. Le posizioni delle varianti che appaiono in tutti gli otto genomi precedenti sono state ignorate, portando a un numero leggermente inferiore di SNPs totali (per esempio, 3.761.019 differenze dall’assemblea di riferimento per KB1, rispetto a 4.053.781 se sono inclusi) e meno SNPs in ogni intersezione a tre vie. Relazioni simili si trovano quando si esaminano altri individui dei gruppi geografici.

Diapositiva PowerPoint

Tabella 1 Numero di SNPs nel genoma e nelle regioni contenenti esoma sequenziatecontenente regioni
Figura 3: Variazione della densità degli SNP.
figura3

a, Un hotspot SNP per KB1 e J. Watson sul cromosoma 17; entrambi gli individui sono eterozigoti per l’aplotipo 17q21.3 H2. Su entrambi i lati ci sono regioni ripetitive dove gli SNP non possono essere chiamati (grigio). I tassi SNP locali sono divisi per il tasso autosomico dell’individuo, quindi i tassi attesi sono 1,0 (linea tratteggiata orizzontale). KB1 ha un arricchimento di quasi 2,5 volte di SNPs per 650.000 basi. b, Distribuzione di SNPs da genomi Boscimani (linea rossa) e genomi non Boscimani (linea nera), rispetto alle posizioni del nucleosoma (grafico grigio pieno), indicando la regione senza nucleosoma (NFR) e i nucleosomi -1 e +1. TSS, transcription start site.

PowerPoint slide

Per determinare se i nuovi SNP rappresentano alleli ancestrali o sono sorti dopo la separazione dei Boscimani da altre popolazioni, abbiamo esaminato il nucleotide omologo nel genoma dello scimpanzé. Gli SNP che corrispondono al genoma dello scimpanzé indicano che la differenza è ancestrale, mentre le differenze dallo scimpanzé indicano un allele derivato. Dei 743.714 SNPs nuovi in KB1, il genoma umano di riferimento corrisponde al genoma dello scimpanzé per l’87% di questi, mentre il genoma KB1 corrisponde allo scimpanzé solo per il 6%. Per il restante 7%, il nucleotide dello scimpanzé non poteva essere determinato (6%) o differiva sia dal Bushman che dal riferimento (1%). Queste frazioni sono essenzialmente invariate se teniamo conto delle 3.600 chiamate SNP false-positive stimate (cioè 0,0009 su 4 milioni), che possono essere considerate come nuove varianti. Quindi, pochissime delle nuove differenze nel genoma di KB1 sono nucleotidi ancestrali conservati nei Boscimani; invece, la stragrande maggioranza sono cambiamenti che si sono accumulati da quando la stirpe dei Boscimani si è differenziata da altre popolazioni umane.

Il gran numero di SNPs nuovi solleva preoccupazioni riguardo alla capacità degli attuali array di genotipizzazione di catturare efficacemente la vera estensione della diversità genetica e della struttura aplotipica rappresentata in Africa meridionale. Valutando l’eterozigosi percentuale per 1.105.569 SNP autosomici utilizzando gli array Illumina a contenuto corrente, siamo stati sorpresi di trovare un’eterozigosi inferiore in KB1 rispetto a un controllo europeo abbinato alla regione (dati supplementari e fig. 3a, b), perché è ben noto che la diversità genetica è più alta in Africa. Tuttavia, l’analisi dei dati di sequenziamento dell’intero genoma per KB1 e ABT ha rivelato alte percentuali di SNPs eterozigoti (59% e 60%, rispettivamente), come previsto. Questa discrepanza sottolinea l’inadeguatezza degli attuali array SNP per l’analisi delle popolazioni dell’Africa meridionale.

La densità locale di SNPs identificati in KB1 varia considerevolmente attraverso il genoma (Fig. 4 supplementare), e questa variazione di densità è vista anche in altri singoli genomi (dati non mostrati). Alcuni degli hotspot sono comuni a tutti gli individui esaminati, mentre altri mostrano sorprendenti differenze locali tra gli individui, come il statisticamente significativo (P < 10-5; vedi Informazioni supplementari) KB1 hotspot mostrato in Fig. 3a. Questa regione corrisponde al 17q21.3 inversione12, che contiene diversi geni, compresi quelli che codificano CRHR1 (un recettore dell’ormone corticotropina-rilassante) e MAPT (microtubulo-associato proteina tau). L’analisi delle varianti di sequenza diagnostica e la tipizzazione diretta di un indel di 238 bp13 (Fig. 5 supplementare) confermano che KB1 è eterozigote per l’aplotipo 17q21.3 H2, una scoperta sorprendente perché l’allele H2 si trova a basse frequenze nelle popolazioni non europee12. Profondità di lettura e array-CGH indicano che l’allele H2 portato da KB1 non contiene la duplicazione 75-kb presente su tutti gli alleli H2 europei analizzati14,15,16 (Fig. 6a, b). L’aplotipo H2 di KB1 può rappresentare la sequenza ancestrale e la struttura dell’aplotipo H2 che era presente nelle popolazioni africane prima della sua maggiore frequenza nelle popolazioni europee e mediorientali12.

Abbiamo anche osservato una tendenza a livello genomico per elevati livelli di SNP nelle regioni promotrici (Fig. 3b). Elementi regolatori promotore tendono ad essere arricchito vicino ai confini nucleosoma, che sono dove abbiamo osservato livelli di SNP picco, in particolare nei genomi composito Bushmen. È possibile che l’aumento della frequenza SNP in queste regioni genomiche potrebbe guidare i cambiamenti fenotipici negli esseri umani.

Abbiamo identificato 27.641 sostituzioni di aminoacidi distinte tra i nostri cinque partecipanti, rispetto alla sequenza umana di riferimento, molte delle quali si verificano in più di un individuo. Di questi, 10.929 appaiono in uno o più dei genomi personali precedentemente sequenziati qui considerati, altri 3.566 si trovano nei database pubblici (vedi Informazioni supplementari) e i restanti 13.146 sono nuovi e distribuiti tra 7.720 geni distinti. La seguente discussione dei fenotipi putativi per i genotipi trovati nei Boscimani ha lo scopo di illustrare come la presenza di SNPs osservati e la loro precedente associazione con fenotipi può portare a ipotesi testabili. Questi sono solo candidati per le funzioni suggerite, e test sperimentali devono essere condotti per indagarli ulteriormente.

Dei 14.495 (cioè 10.929 + 3.566) SNPs aminoacidici precedentemente identificati, 621 sono stati trovati in banche dati che forniscono associazioni di malattie o altre informazioni fenotipiche. Alcuni di questi sono facilmente collegabili allo stile di vita dei Boscimani, come la mancanza dell’allele di persistenza della lattasi di derivazione europea (una variante promotore funzionale nel gene LCT) e dell’allele SLC24A5 associato alla pelle chiara. In altri casi, l’accordo con la sequenza umana di riferimento è informativo, come la mancanza dell’allele di resistenza alla malaria Duffy null (DARC) specifico dell’Africa17. La mancanza di alleli di resistenza alla malaria nelle popolazioni boscimane potrebbe avere conseguenze significative su una popolazione già in declino di foraggiatori ben adattati, quando costretti a uno stile di vita agricolo che porta maggiori carichi di patogeni17. Pertanto, questi marcatori genetici possono consentire di tracciare il tasso di adattamento umano in ambienti mutevoli18 (vedi Informazioni supplementari).

Anche se un certo numero di SNPs osservati nei Boscimani sono stati correlati a fenotipi in altri gruppi etnici nella letteratura e nei database online, si dovrebbe rimanere scettici sulla validità delle associazioni non verificate. Nelle informazioni supplementari, illustriamo questo punto con la voce dbSNP rs1051339 per il gene LIPA, che è annotato in un database pubblico come associato alla ‘sindrome di Wolman’, un fallimento devastante nel metabolismo dei lipidi (Fig. supplementare 7).

Abbiamo osservato SNPs segnalati per essere associati con una fisiologia migliorata (Tabella supplementare 6). KB1, MD8, TK1 e ABT sono omozigoti per un allele di VDR associato a una maggiore densità minerale ossea; KB1 è omozigote per un allele di UGT1A3 associato a un maggiore metabolismo di endo- e xenobiotici; KB1, NB1 e ABT sono omozigoti per un allele di ACTN3 associato a una maggiore prestazione di sprint e potenza; KB1 è eterozigote per un allele di CLCNKB che codifica un canale di cloruro che ha una maggiore capacità di riassorbire ioni cloruro dal glomerulo renale, una proprietà che probabilmente sarebbe vantaggioso nel deserto. Altri SNPs interessanti includono uno che mantiene la funzione del gene CYP2G (Fig. 8a, b), e due in posizioni nel gene del recettore del gusto TAS2R38 che conferisce la capacità di gustare un composto amaro (feniltiocarbammide), che può riflettere un bisogno nei cacciatori-raccoglitori di evitare piante tossiche (vedi Informazioni supplementari per una discussione dettagliata).

I 13.146 nuovi SNPs aminoacidici qui riportati saranno una ricca risorsa per il lavoro futuro, fornendo molti nuovi siti funzionali candidati che non sono stati inclusi negli studi di associazione whole-genome finora. Circa il 25% di questi SNPs sono previsti per avere implicazioni funzionali da una suite di metodi computazionali (vedi Informazioni supplementari). Le categorie della Gene Ontology che sono rappresentate in modo prominente nei 6.623 geni con uno o più nuovi SNP Bushmen (cioè, escludendo dai 7.720 geni con nuovi SNP quelli unici per ABT) includono molte funzioni che sono note per evolvere rapidamente negli esseri umani, come la risposta immunitaria, la riproduzione e la percezione sensoriale (Tabella supplementare 7). Vedere le informazioni supplementari per le descrizioni dettagliate delle analisi computazionali dei geni relativi al metabolismo dei lipidi e la percezione sensoriale.

Come tutti i nostri partecipanti allo studio sono di età avanzata (∼80 anni) e apparentemente in buona salute, le varianti di codifica romanzo descritto in questo studio può essere correlato allo stato di salute e fenotipi per tutta la durata della vita umana. I partecipanti Boscimani hanno raggiunto la loro età avanzata pur vivendo in condizioni difficili a causa di carestie periodiche e malattie non trattate. Come alcuni degli alleli codificanti Boscimani sono stati associati nella letteratura pubblicata con la malattia, i nostri risultati possono aiutare a rivalutare quei rapporti precedenti, così come aiutare a identificare potenziali incompatibilità farmacogenetica specifica della popolazione di alcuni farmaci che sono globalmente prescritti.

Segmentale duplicazioni sono stati rilevati in 17.601 geni autosomici distinti nel genoma KB1 e numeri di copia stimato seguendo procedure descritte in precedenza19 (Supplementary Fig. 6a, b). Numeri di copia stimati dalla profondità di lettura sono più affidabili per i segmenti più lunghi, così abbiamo specificamente mirato regioni più grandi di 20 kb. In totale, abbiamo rilevato 886 intervalli (ciascuno >20 kb) di duplicazione segmentale autosomica (93,5 Mb), che comprende 100 intervalli (3,9 Mb) che non sono previsti per essere duplicati nel campione NA18507 (un campione HapMap da Yoruba, Nigeria)19. Utilizzando l’array-CGH, 58 di questi intervalli (2,6 Mb) avevano un numero di copie aumentato in KB1 rispetto a NA18507, l’unico altro genoma africano pubblicato. L’insieme delle duplicazioni convalidate include un intervallo di 140 kb sul cromosoma 10 che abbraccia il gene CYP2E1, che codifica una proteina del citocromo P450 che è indotta dall’etanolo e metabolizza molti substrati tossicologici20 (Fig. 6a supplementare).

In seguito, abbiamo specificamente stimato i numeri di copia per tutti i geni RefSeq autosomici e progettato un array di oligonucleotidi personalizzato che mira ai geni in cui KB1 e NA18507 sono previsti differire di almeno una copia. Questo ha convalidato 193 geni che differiscono nel numero di copie tra KB1 e NA18507 (53 dove NA18507 ha più copie e 140 dove KB1 ha più copie; Tabella supplementare 8). Per 26 di questi geni, KB1 è stimato per avere almeno due copie più che in NA18507, Han cinese YH e europeo-descente J. Watson. Questo set di geni include l’amilasi salivare (AMY1A, stima del numero di copie KB1 = 15; questo può essere coerente con uno stile di vita forager21), le defensine alfa (DEFA1, stima del numero di copie KB1 = 12,5) e γ-glutamiltransferasi 1 (GGT1, stima del numero di copie KB1 = 13,2).

Sequencing e vasta genotipizzazione rivelato relazioni genetiche tra i nostri partecipanti e altri gruppi umani. Il posizionamento dei genomi mitocondriali completi (Tabella 9 supplementare), comprese le femmine Tuu (KB2) e Juu (NB8) aggiuntive sull’albero materno di rif. 1 (Fig. 1a-c supplementare) ha posizionato i nostri partecipanti all’interno del ramo basale della clade L0. Sorprendentemente, ABT è stato collocato nella clade L0d, un lignaggio mitocondriale specifico dei Boscimani. Abbiamo identificato 75 (di 1.220) SNPs Bushmen-informativi sul cromosoma Y (Fig. 9 supplementare). In contrasto con gli altri Boscimani, MD8 ha mostrato un lineage del cromosoma Y Bantu coerente con ABT. L’analisi dei marcatori Y della clade A (Tabella supplementare 10), B (Tabella supplementare 11) ed E (Tabella supplementare 12) ha permesso la validazione dell’aplogruppo e la classificazione E1b1a8a di ABT (http://ycc.biosci.arizona.edu/)22.

Abbiamo eseguito l’analisi delle componenti principali (PCA) utilizzando il software EIGENSTRAT23 su 174.272 SNPs autosome-wide comuni in tutti i set di dati (generati utilizzando 1M o 610K Illumina, o Affymetrix SNP6.0 arrays). I dati su 10 Boscimani e 20 Xhosa24 sono stati proiettati con 20 Yoruba e 20 europei dai dati disponibili (HapMap e Coriell), e 5 Boscimani (SAN) dai dati dello Human Genome Diversity Panel (HGDP). La PCA a livello di popolazione definisce i Boscimani come distinti dalle popolazioni Niger-Congo come dagli europei (Fig. 4a). L’analisi Within-Africa separa i Boscimani dalle divergenti popolazioni dell’Africa occidentale e meridionale (Fig. 4b), mentre l’ABT rientra chiaramente nel cluster Bantu meridionale. La parentela variabile degli Xhosa con gli Yoruba può suggerire una commistione passata e/o una diversità storica all’interno di questa popolazione ampiamente definita24. All’interno del gruppo dei Boscimani, prevediamo che i Ju/’hoansi e gli HGDP San siano essenzialmente la stessa popolazione. La divergenza di KB1 e MD8 può essere spiegata dalla recente commistione Bantu (ipotizzata per MD8) o da sottopopolazioni uniche con una piccola percentuale di antica commistione Bantu. Anche se limitato dalla dimensione del campione, un test di quattro popolazioni17 suggerisce una commistione debole e/o inconcludente in KB1 e nei nostri partecipanti Ju/’hoansi. Un diverso test (vedi Tabella supplementare 14) mostra un flusso genico tra gli antenati di KB1 e ABT, confermando i risultati mitocondriali, ma senza determinare la direzione del flusso. In contrasto con KB1, NB1 e TK1, il flusso genico tra Boscimani e Bantu dell’Africa meridionale potrebbe essere confermato attraverso i mitocondri di tipo L0 di ABT e i marcatori Y-cromosomici specifici dei Bantu in MD8. Se le migrazioni alla base di queste istanze seguissero un modello generale di patri- o matrilocalità25 dovrà attendere un’analisi dettagliata della struttura della popolazione basata su array di nuovi contenuti che includano gli 1,3 milioni di nuovi marcatori genetici di questo studio.

Figura 4: Struttura della popolazione a tre vie basata su 174.272 SNP autosomici utilizzando la PCA.
figura4

a, b, La PCA di europei, africani (Niger-Congo) e boscimani (a) e delle sole popolazioni africane (b) distingue i boscimani dagli Yorubani e dai Bantu. La frazione della varianza spiegata in a è 0,09 per l’autovettore 1 e 0,04 per l’autovettore 2, mentre in PCA b è 0,06 e 0,02, rispettivamente, con un valore Tracy-Widom P <10-12. ABT, Bantu sequenziato; CEU, HapMap europeo; JHO, parlanti Juu (compresi NB1 e TK1); MD8, Kung sequenziato; NOH, parlanti Tuu (compreso KB1); SAE, europeo sudafricano; SAN, HGDP San; XHO, Xhosa sudafricano; YRI, HapMap Yoruba.

Diapositiva PowerPoint

Come i cacciatori-raccoglitori Boscimani non hanno mai adottato pratiche agricole nel corso della loro storia culturale26, le varianti di sequenza trovate nei loro genomi possono riflettere un antico adattamento a uno stile di vita di foraggiamento. Nel caso dei Boscimani del Kalahari, l’adattamento alla vita in climi aridi deve essersi verificato anche, come diversi tratti fenotipici sono stati notati che sono assenti in altri gruppi umani, come la capacità di immagazzinare acqua e metaboliti lipidici nei tessuti del corpo26. Queste differenze fisiologiche e genetiche potrebbero guidare gli studi futuri sulla questione molto dibattuta se la sostituzione della popolazione, piuttosto che lo scambio culturale, abbia guidato l’espansione dell’agricoltura nelle regioni meridionali dell’Africa27, come è stato osservato per le popolazioni della tarda età della pietra in Europa28,29.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *