Meny Stäng

Kompletta khoisan- och bantu-genom från södra Afrika

Fyra inhemska namibiska jägarsamlare – Gubi, G/aq’o, D#kgao och !Aî (här kallade KB1, NB1, TK1 respektive MD8), som var och en var den äldsta medlemmen i sitt samhälle, valdes ut för genomsekvensering baserat på deras språkgrupp, geografiska läge och Y-kromosomala haplogrupprepresentation (fig. 1 och kompletterande tabell 1). Bantuindividen är ärkebiskop Desmond Tutu (ABT), som representerar sotho-tswana- och nguni-talare (från de breda niger-kongospråken), de två största bantugrupperna i södra Afrika.

Figur 1: Karta över södra Afrika.
figure1

Figuren visar etniska grupperingar och orter för studiedeltagarna, KB1, NB1, TK1, MD8 och ABT (a-e respektive), områden med torrt klimat och ökenklimat samt den geografiska utbredningen av khoisan- och niger-kongo språken30. Khoisanspråken kännetecknas av klick, som betecknar ytterligare konsonanter. ! är en palatal klick, / är en dental klick och # är en alveolär klick26. Observera att ABT Y-kromosom haplogrupp bestämdes med hjälp av både genotypnings- och sekvenseringsdata som genererades i den här studien.

PowerPoint-slide

Då genomet hos våra studiedeltagare förväntades avvika mer från det mänskliga referensgenomet än vad de offentligt tillgängliga yorubiska, europeiska och asiatiska genomerna4,5,6,7,8 gör, syftade vi till att generera en genomexekvens som skulle ge tillräcklig kvalitet för både kartläggning mot det mänskliga referensgenomet och för de novo-sammansättning. Därför sekvenserades KB1:s genom till 10,2-faldig täckning med hjälp av Roche/454 GS FLX-plattformen med Titanium-kemi, vilket gav en genomsnittlig avläsningslängd på 350 baspar (bp). För att ta upp aspekter av genomets struktur sekvenserades ytterligare långa insertbibliotek för KB1 med hjälp av Roche/454 Titanium-teknik med parvisa ändar, med insertstorlekar på upp till 17 kilobaser (kb) och 12,3-faldig icke-redundant klontäckning. Genomet för NB1 sekvenserades med hjälp av samma plattform med tvåfaldig täckning. ABT:s arvsmassa sekvenserades med över 30-faldig täckning med hjälp av Applied Biosystems short-read-teknik, SOLiD 3.0. Dessutom sekvenserades alla fem undersökningsdeltagarnas genomer med minst 16-faldig täckning i proteinkodande regioner (exomer) som anrikades genom Nimblegen-sekvensfångst (2,1 M array) och därefter sekvenserades på Roche/454 Titanium-plattformen (1,5-1,9 gigabaser (Gb) sekvenser per individ). I tilläggstabell 2 redovisas den erhållna datamängden, medan tilläggstabell 3 innehåller exomstatistik.

Sekvensuppgifterna validerades med hjälp av en rad olika tekniker, bland annat genom att jämföra helgenom- och exomsekvenser, helgenomsekvensering med en annan plattform (Illumina, 23.2-faldigt för KB1 och 7,2-faldigt för ABT), genotypning med hög densitet (Illumina 1 miljon SNPs), jämförelse av information om läsdjup med data från komparativ genomisk hybridisering samt validering av utvalda varianter med hjälp av TaqMan-allelisk diskriminering och/eller Sanger-sekvensering. Vi uppskattar den falskt positiva frekvensen för våra slutliga SNP-utrop för KB1 till 0,0009 och den falskt negativa frekvensen till 0,09 (se tilläggsinformation för mer information).

Vi skapade en de novo-assemblering av KB1-genomet med hjälp av Phusion-assembler9. De sammansatta contigs uppgår till totalt 2,79 Gb, med en N50 contig-storlek på 5,5 kb. Den totala scaffoldstorleken, inklusive uppskattade luckor, är 3,09 Gb, med en N50 scaffoldstorlek på 156 kb. Den största samlade ställningen omfattar 3,2 Mb. Ofta resulterade Roche GS FLX-sekvensdata i contigs och scaffolds som inte kartläggs mot det mänskliga referensgenomet. Många av dessa scaffolds motsvarade luckor i det nuvarande mänskliga referensgenomet, inklusive luckor med en längd på över 200 000 bp (se kompletterande information).

Enkelnukleotidskillnader från det mänskliga referensgenomet (NCBI Build 36, även känt som hg18) identifierades för de fem sydafrikanska genomerna och jämfördes med skillnaderna från åtta tillgängliga personliga genomer4,5,6,7,8. I det följande avses med SNP en skillnad i en enskild nukleotid från den mänskliga referenssammansättningen, som inte omfattar insättningar/släckningar av en bas och som inte begränsar allelfrekvensen i en population. SNP:erna kallades med hjälp av programvaran Newbler (för Roche/454), Corona Lite (för SOLiD) och MAQ10 (för Illumina).

Sammanhängande med uppfattningen att sydafrikaner hör till de mest divergerande människopopopulationerna identifierade vi fler SNP:er i KB1, och i mindre utsträckning i ABT, än vad som har rapporterats i andra enskilda mänskliga genomer (fig. 2 och tabell 1), även om en del av variationen i antalet SNP:er kan härröra från skillnader i teknik och täckningsnivåer. Antalet SNP:er som är nya (dvs. som inte tidigare setts hos andra individer) är mycket högre för KB1 och ABT än för andra enskilda hela genomer (tabell 1). KB1 och ABT har vardera cirka 1 miljon SNPs som inte delas med varandra eller med de publicerade yorubiska, asiatiska eller europeiska kompletta genomerna4,5,6,7,8 (fig. 2). I de 117 megabaser (Mb) av sekvenserade exominnehållande intervallen var den genomsnittliga frekvensen av nukleotidskillnader mellan ett par bushmän 1,2 per kilobas, jämfört med ett genomsnitt på 1,0 per kilobas som skiljer sig mellan en europeisk och asiatisk individ. Den högre SNP-frekvensen hos bushmännen återspeglas av förskjutningen av de röda och svarta linjerna i figur 3b. Den autosomala mångfalden hos undersökningsdeltagarna återspeglas av mångfalden i de mitokondriella genomerna. Medan européer i genomsnitt uppvisar cirka 20 skillnader från Cambridge-referenssekvensen (CRS)11 , uppvisar våra deltagare i södra Afrika upp till 100 mitokondriella SNP:er i förhållande till CRS (kompletterande tabeller 4 och 5 och kompletterande figurer 1 och 2). Ännu viktigare är att trots att alla mitokondriella sekvenser tillhör samma haplogrupp L0 observeras upp till 84 skillnader mellan par av deltagarnas mitokondriella genomer (kompletterande tabell 4).

Figur 2: Trevägsrelationer mellan SNPs.
figure2

SNPs från KB1 jämförs med SNPs från yorubanerna NA19240 och ABT (vänster panel) och med en amerikan av europeisk härkomst (J. C. Venter) och en kinesisk individ (YH) (höger panel). Siffrorna anges i tusen. Variantpositioner som förekommer i alla åtta tidigare genomer ignorerades, vilket leder till ett något mindre antal totala SNP (t.ex. 3 761 019 skillnader från referenssamlingen för KB1, jämfört med 4 053 781 om de inkluderas) och färre SNP i varje trevägskorsning. Liknande förhållanden konstateras när andra individer från de geografiska grupperna undersöks.

PowerPoint-slide

Tabell 1 Antal SNP:er i genomet och i det sekvenserade exomet.innehållande regioner
Figur 3: Variation i SNP-täthet.
figure3

a, En SNP-hotspot för KB1 och J. Watson på kromosom 17; båda individerna är heterozygota för haplotypen 17q21.3 H2. På vardera sidan finns repetitiva områden där SNP:er inte kan kallas (grått). Lokala SNP-frekvenser divideras med individens autosomövergripande frekvens, så de förväntade frekvenserna är 1,0 (horisontell streckad linje). KB1 har en nästan 2,5-faldig anrikning av SNP för 650 000 baser. b, Fördelning av SNP från genom av bushmän (röd linje) och genom av icke-bushmän (svart linje), jämfört med nukleosomernas positioner (fylld grå plott), vilket anger den nukleosomfria regionen (NFR) och -1- och +1-nukleosomerna. TSS, transcription start site.

PowerPoint slide

För att avgöra om de nya SNP:erna representerar förfäders alleler eller om de har uppstått sedan bushmännen skiljdes från andra populationer, undersökte vi den homologa nukleotiden i schimpansens genom. SNPs som stämmer överens med schimpansens genom indikerar att skillnaden är förfädernas, medan skillnader från schimpansens genom indikerar en härledd allel. Av de 743 714 nya SNP:erna i KB1 stämmer det mänskliga referensgenomet med schimpansens genom för 87 % av dessa, medan KB1-genomet stämmer med schimpansens genom för endast 6 %. För de återstående 7 % kunde schimpansens nukleotid inte bestämmas (6 %) eller skilde sig från både bushman- och referensgenomet (1 %). Dessa andelar är i huvudsak oförändrade om vi tar hänsyn till de uppskattningsvis 3 600 falskt positiva SNP-anropningarna (dvs. 0,0009 av 4 miljoner), som kan antas uppträda som nya varianter. Således är mycket få av de nya skillnaderna i KB1:s genom förfäders nukleotider som bibehålls hos bushmännen; i stället är den stora majoriteten förändringar som ackumulerats sedan bushmännen skiljde sig från andra mänskliga populationer.

Det stora antalet nya SNP:er ger upphov till farhågor om förmågan hos de nuvarande arrayer för genotypning att på ett effektivt sätt fånga upp den verkliga omfattningen av den genetiska mångfalden och haplotypsstrukturen som finns representerad i södra Afrika. När vi bedömde procentuell heterozygositet för 1 105 569 autosomala SNP:er med hjälp av Illumina-arrayer med nuvarande innehåll blev vi förvånade över att hitta lägre heterozygositet i KB1 jämfört med en regionmatchad europeisk kontroll (Supplementary Data och Supplementary Fig. 3a, b), eftersom det är välkänt att den genetiska mångfalden är störst i Afrika. Analysen av helgenomsekvenseringsdata för KB1 och ABT visade dock på höga andelar heterozygota SNP:er (59 % respektive 60 %), vilket var förväntat. Denna diskrepans understryker att nuvarande SNP-arrays är otillräckliga för att analysera populationer i södra Afrika.

Den lokala tätheten av SNP:er som identifierats i KB1 varierar avsevärt över hela genomet (kompletterande figur 4), och denna variation i täthet ses även i andra enskilda genomer (data visas inte). Vissa av hotspots är gemensamma för alla undersökta individer, medan andra visar på slående lokala skillnader mellan individer, såsom den statistiskt signifikanta (P < 10-5; se kompletterande information) KB1-hotspot som visas i fig. 3a. Denna region motsvarar inversionen 17q21.312, som innehåller flera gener, bland annat de som kodar för CRHR1 (en receptor för kortikotropinfrisättande hormon) och MAPT (mikrotubuliassocierat protein tau). Analys av diagnostiska sekvensvarianter samt direkt typning av en 238 bp indel13 (kompletterande figur 5) bekräftar att KB1 är heterozygot för 17q21.3 H2 haplotypen, vilket är ett överraskande resultat eftersom H2-allelen finns i låga frekvenser i icke-europeiska populationer12. Läsdjup och array-CGH visar att den H2-allel som bärs av KB1 inte innehåller den 75-kb-duplikation som finns i alla analyserade europeiska H2-alleler14,15,16 (kompletterande fig. 6a, b). KB1 H2-haplotypen kan representera den ancestrala sekvensen och strukturen hos H2-haplotypen som fanns i afrikanska populationer innan den ökade frekvensen hos europeiska och mellanösterns populationer12.

Vi observerade också en genomomfattande trend för förhöjda SNP-nivåer i promotorregioner (fig. 3b). Promotorreglerande element tenderar att vara berikade nära nukleosomgränser, vilket är där vi observerade toppnivåer av SNP-nivåer, särskilt i de sammansatta genomerna för bushmännen. Det är möjligt att en ökad SNP-frekvens i dessa genomiska regioner skulle kunna driva fenotypiska förändringar hos människor.

Vi identifierade 27 641 distinkta aminosyrasubstitutioner bland våra fem deltagare, jämfört med den mänskliga referenssekvensen, varav många förekom hos mer än en individ. Av dessa förekommer 10 929 i en eller flera av de tidigare sekvenserade personliga genomer som beaktas här, ytterligare 3 566 finns i offentliga databaser (se tilläggsinformation) och de återstående 13 146 är nya och fördelade på 7 720 olika gener. Följande diskussion om förmodade fenotyper för de genotyper som hittats hos bushmän är avsedd att illustrera hur förekomsten av observerade SNPs och deras tidigare koppling till fenotyper kan leda till testbara hypoteser. Dessa är endast kandidater för de föreslagna funktionerna, och experimentella tester måste genomföras för att undersöka dem ytterligare.

Av de 14 495 (dvs. 10 929 + 3 566) tidigare identifierade aminosyra-SNP:erna hittades 621 i databaser som tillhandahåller sjukdomsassociationer eller annan fenotypisk information. En del av dessa är lätt relaterade till bushmännens livsstil, t.ex. avsaknad av den europeiskt härledda laktaspersistensallelen (en funktionell promotorvariant i LCT-genen) och av SLC24A5-allelen som förknippas med ljus hudfärg. I andra fall är överensstämmelsen med den mänskliga referenssekvensen informativ, t.ex. avsaknaden av den Afrika-specifika Duffy null-allelen (DARC) för malariaresistens17. Avsaknaden av malariaresistensalleler hos bushmännens populationer kan få betydande konsekvenser för en redan minskande population av välanpassade födosökare, när de tvingas in i ett jordbruk som medför en ökad belastning av patogener17. Därför kan dessa genetiska markörer göra det möjligt att spåra hur snabbt människan anpassar sig i föränderliga miljöer18 (se kompletterande information).

Och även om ett antal SNP:er som observerats hos bushmännen har relaterats till fenotyper i andra etniska grupper i litteratur och onlinedatabaser, bör man förbli skeptisk till giltigheten av otestade associationer. I den kompletterande informationen illustrerar vi denna punkt med dbSNP-post rs1051339 för LIPA-genen, som i en offentlig databas annoteras som förknippad med ”Wolmans syndrom”, ett förödande misslyckande i lipidmetabolismen (kompletterande figur 7).

Vi observerade SNP:er som rapporterats vara förknippade med förbättrad fysiologi (kompletterande tabell 6). KB1, MD8, TK1 och ABT är homozygota för en allel av VDR som förknippas med högre benmineraltäthet; KB1 är homozygot för en allel av UGT1A3 som förknippas med ökad ämnesomsättning av endo- och xenobiotika; KB1, NB1 och ABT är homozygota för en allel av ACTN3 som förknippas med ökad sprint- och kraftprestation; KB1 är heterozygot för en allel av CLCNKB som kodar för en kloridkanal som har större förmåga att återabsorbera kloridjoner från njurglomerulus – en egenskap som förmodligen skulle vara fördelaktig i öknen. Andra intressanta SNP:er är bland annat en som behåller CYP2G-genens funktion (kompletterande figur 8a, b) och två på positioner i smakreceptorgenen TAS2R38 som ger förmågan att smaka på en bitter förening (fenyltiokarbamid), vilket kan återspegla ett behov hos jägar-samlare att undvika giftiga växter (se kompletterande information för en detaljerad diskussion).

De 13 146 nya aminosyra-SNP:er som rapporterats här kommer att vara en rik resurs för framtida arbete, eftersom de ger många nya funktionella kandidatplatser som hittills inte har inkluderats i föreningsstudier av hela arvsmassan. Ungefär 25 % av dessa SNPs förutspås ha funktionella implikationer genom en uppsättning beräkningsmetoder (se tilläggsinformation). De Gene Ontology-kategorier som är tydligt representerade i de 6 6 623 generna med en eller flera nya Bushmen-SNP (dvs. om man från de 7 720 generna med nya SNP:er utesluter de gener som är unika för ABT) omfattar många funktioner som är kända för att utvecklas snabbt hos människor, t.ex. immunförsvar, reproduktion och sinnesuppfattning (kompletterande tabell 7). Se den kompletterande informationen för detaljerade beskrivningar av beräkningsanalyser av gener relaterade till lipidmetabolism och sensorisk perception.

Då alla våra studiedeltagare är gamla (∼80 år) och till synes vid god hälsa kan de nya kodningsvarianter som beskrivs i den här studien korreleras till hälsostatus och fenotyper över hela människans livslängd. Bushmännens deltagare har uppnått sin höga ålder trots att de levt under svåra förhållanden på grund av periodisk hungersnöd och obehandlade sjukdomar. Eftersom vissa av bushmännens kodande alleler i den publicerade litteraturen har förknippats med sjukdom, kan våra resultat bidra till att omvärdera dessa tidigare rapporter samt bidra till att identifiera potentiella befolkningsspecifika farmakogenetiska inkompatibiliteter för vissa läkemedel som förskrivs globalt.

Segmentala duplikationer påvisades i 17 601 distinkta autosomala gener i KB1-genomet och kopieringsantalet uppskattades enligt de förfaranden som beskrivits tidigare19 (kompletterande fig. 6a, b). Kopieringsnummer som uppskattas från läsdjup är mer tillförlitliga för längre segment, så vi riktade oss specifikt mot regioner som är större än 20 kb. Totalt upptäckte vi 886 intervaller (varje >20 kb) av autosomal segmentell duplicering (93,5 Mb), vilket inkluderar 100 intervaller (3,9 Mb) som inte förutspås vara duplicerade i prov NA18507 (ett HapMap-prov från Yoruba, Nigeria)19. Med hjälp av array-CGH hade 58 av dessa intervaller (2,6 Mb) ökat antalet kopior i KB1 jämfört med NA18507, det enda andra publicerade afrikanska genomet. Uppsättningen av validerade duplikationer omfattar ett 140-kb-intervall på kromosom 10 som spänner över CYP2E1-genen, som kodar för ett cytokrom P450-protein som induceras av etanol och metaboliserar många toxikologiska substrat20 (kompletterande figur 6a).

Nästan skattade vi specifikt kopieringsantalet för alla autosomala RefSeq-gener och utformade en anpassad oligonukleotidarray som är inriktad på gener där KB1 och NA18507 förutspås skilja sig åt med minst en kopia. Detta validerade 193 gener som skiljer sig i kopianummer mellan KB1 och NA18507 (53 där NA18507 har fler kopior och 140 där KB1 har fler kopior; kompletterande tabell 8). För 26 av dessa gener uppskattas KB1 ha minst två kopior mer än NA18507, Han-kinesiska YH och europeiskt härstammande J. Watson. Denna genuppsättning omfattar salivamylas (AMY1A, KB1-kopieringsuppskattning = 15; detta kan stämma överens med en livsstil som forager21), alfa-defensinerna (DEFA1, KB1-kopieringsuppskattning = 12,5) och γ-glutamyltransferas 1 (GGT1, KB1-kopieringsuppskattning = 13,2).

Sekvensering och omfattande genotypning avslöjade genetiska släktskap bland våra deltagare och andra människogrupper. Placering av fullständiga mitokondriella genomer (kompletterande tabell 9), inklusive ytterligare Tuu (KB2) och Juu (NB8) honor på moderträdet i ref. 1 (kompletterande fig. 1a-c) placerade våra deltagare inom den basala grenen av kladen L0. Överraskande nog placerades ABT i klad L0d, en bushmanspecifik mitokondriell linje. Vi identifierade 75 (av 1 220) Bushmen-informativa SNPs på Y-kromosomen (kompletterande figur 9). I motsats till de andra bushmännen uppvisade MD8 en Bantu Y-kromosomlinje som stämmer överens med ABT. Analyser av Y-markörer i klad A (kompletterande tabell 10), B (kompletterande tabell 11) och E (kompletterande tabell 12) möjliggjorde validering av haplogrupper och ABT:s E1b1a8a-klassificering (http://ycc.biosci.arizona.edu/)22.

Vi utförde en huvudkomponentanalys (PCA) med hjälp av programvaran EIGENSTRAT23 på 174 272 autosomövergripande SNP:er som var gemensamma för datamängderna (genererade med hjälp av 1M eller 610K Illumina- eller Affymetrix SNP6.0-arrayer). Uppgifter om 10 bushmän och 20 Xhosa24 projicerades med 20 Yoruba och 20 européer från tillgängliga uppgifter (HapMap och Coriell) och 5 bushmän (SAN) från uppgifter från Human Genome Diversity Panel (HGDP). PCA för hela populationen definierar bushmännen lika tydligt från Niger-Congo-populationerna som från européerna (fig. 4a). Analyser inom Afrika skiljer bushmännen från de divergerande populationerna i västra och södra Afrika (fig. 4b), medan ABT tydligt faller inom det södra bantu-klustret. Xhosas varierande släktskap med Yoruba kan tyda på tidigare blandning och/eller historisk mångfald inom denna brett definierade population24. Inom gruppen bushmän förutspår vi att Ju/’hoansi och HGDP San i huvudsak är samma population. Skillnaden mellan KB1 och MD8 kan förklaras av nyligen inträffad Bantu-blandning (vilket antas för MD8) eller av unika subpopulationer med en liten andel gammal Bantu-blandning. Även om det är begränsat på grund av urvalets storlek tyder ett test med fyra populationer17 på svag och/eller otydlig blandning i KB1 och våra Ju/’hoansi-deltagare. Ett annat test (se kompletterande tabell 14) visar genflöde mellan KB1:s och ABT:s förfäder, vilket bekräftar de mitokondriella resultaten, men utan att fastställa flödets riktning. I motsats till KB1, NB1 och TK1 kunde genflödet mellan bushmän och bantu i södra Afrika bekräftas genom ABT:s mitokondrier av L0-typ och de bantuspecifika Y-kromosomala markörerna i MD8. Huruvida de migrationer som ligger till grund för dessa fall följde ett allmänt mönster av antingen patri- eller matrilokalitet25 måste avvakta en detaljerad analys av befolkningsstrukturen baserad på arrayer med nytt innehåll som inkluderar de 1,3 miljoner nya genetiska markörerna från den här studien.

Figur 4: Trevägspopulationsstruktur baserad på 174 272 autosomala SNP:er med hjälp av PCA.
figure4

a, b, PCA av européer, afrikaner (Niger-Congo) och bushmän (a) och enbart afrikanska populationer (b) skiljer bushmännen från yorubaner och bantus. Den del av variansen som förklaras i a är 0,09 för egenvektor 1 och 0,04 för egenvektor 2, medan den i PCA b är 0,06 respektive 0,02, med ett Tracy-Widom P-värde <10-12. ABT, sekvenserad Bantu; CEU, European HapMap; JHO, Juu-talare (inklusive NB1 och TK1); MD8, sekvenserad !Kung; NOH, Tuu-talare (inklusive KB1); SAE, sydafrikansk europé; SAN, HGDP San; XHO, sydafrikansk Xhosa; YRI, Yoruba HapMap.

PowerPoint-slide

Då bushmännens jägar-samlare aldrig har antagit jordbruksmetoder under hela sin kulturhistoria26 , kan de sekvensvarianter som hittats i deras genomer avspegla en gammal anpassning till en livssituation med födosök. När det gäller Kalahari-bushmännen måste det också ha skett en anpassning till ett liv i torrt klimat, eftersom flera fenotypiska drag har noterats som saknas hos andra människogrupper, t.ex. förmågan att lagra vatten och lipidmetaboliter i kroppsvävnader26. Dessa fysiologiska och genetiska skillnader kan vägleda framtida studier av den mycket omdiskuterade frågan om huruvida befolkningsutbyte, snarare än kulturellt utbyte, har drivit jordbrukets expansion i de södra delarna av Afrika27 , vilket observerades för sen stenålderspopulationer i Europa28,29.

Lämna ett svar

Din e-postadress kommer inte publiceras. Obligatoriska fält är märkta *