Menu Zavřeno

Kompletní genomy Khoisanů a Bantuů z jižní Afriky

Čtyři domorodí namibijští lovci-sběrači !Gubi, G/aq’o, D#kgao a !Aî (zde označováni jako KB1, NB1, TK1 a MD8), každý z nich nejstarší člen své komunity, byli vybráni pro sekvenování genomu na základě své jazykové skupiny, zeměpisné polohy a zastoupení haploskupiny chromozomu Y (obr. 1 a doplňková tabulka 1). Bantuovským jedincem je arcibiskup Desmond Tutu (ABT), který zastupuje mluvčí jazyků Sotho-Tswana a Nguni (z široké skupiny jazyků Niger-Congo), dvou největších jihoafrických bantuovských skupin.

Obr. 1: Mapa jižní Afriky.
obrázek1

Obrázek ukazuje etnické skupiny a lokality účastníků studie, KB1, NB1, TK1, MD8 a ABT (a-e, v tomto pořadí), oblasti suchého a pouštního klimatu a geografické rozšíření jazyků Khoisan a Niger-Congo30. Khoisanské jazyky se vyznačují klikyháky, označujícími další souhlásky. ! je palatální klik, / je dentální klik a # je alveolární klik26. Všimněte si, že haploskupina chromozomu Y ABT byla určena na základě genotypizačních i sekvenačních dat získaných v rámci této studie.

Prezentace PowerPoint

Jelikož se očekávalo, že genomy účastníků naší studie se budou od lidského referenčního genomu lišit více než veřejně přístupné jorubské, evropské a asijské genomy4,5,6,7,8, naším cílem bylo vytvořit sekvenci genomu, která by poskytovala dostatečnou kvalitu jak pro mapování vůči lidskému referenčnímu genomu, tak pro sestavení de novo. Proto byl genom KB1 sekvenován s 10,2násobným pokrytím pomocí platformy Roche/454 GS FLX s chemií Titanium, což dává průměrnou délku čtení 350 párů bází (bp). Pro řešení aspektů struktury genomu byly sekvenovány další knihovny s dlouhými inzerty pro KB1 pomocí technologie Roche/454 Titanium paired-end s velikostí inzertu až 17 kilobází (kb) a 12,3násobným neredundantním pokrytím klonu. Genom NB1 byl sekvenován pomocí stejné platformy s dvojnásobným pokrytím. Genom ABT byl sekvenován s více než 30násobným pokrytím pomocí technologie krátkých čtení SOLiD 3.0 společnosti Applied Biosystems. Kromě toho byly genomy všech pěti účastníků studie sekvenovány s minimálně 16násobným pokrytím v oblastech kódujících proteiny (exomech), které byly obohaceny pomocí sekvenčního záchytu Nimblegen (2,1 M pole) a následně sekvenovány na platformě Roche/454 Titanium (1,5-1,9 gigabází (Gb) sekvence na jedince). Objem získaných dat uvádí doplňková tabulka 2, statistiky exomu pak doplňková tabulka 3.

Sekvenční data byla ověřena různými technikami, včetně porovnání celogenomových a exomových sekvencí, celogenomového sekvenování na jiné platformě (Illumina, 23. 10. 2013) a sekvenování na jiné platformě (Illumina, 23. 10. 2013).2krát pro KB1 a 7,2krát pro ABT), genotypování s vysokou hustotou (Illumina 1 Million SNPs), porovnání informací o hloubce čtení s daty srovnávací genomové hybridizace a také validace vybraných variant pomocí alelické diskriminace TaqMan a/nebo Sangerova sekvenování. Míru falešné pozitivity našich konečných volání jednonukleotidových polymorfismů (SNP) pro KB1 odhadujeme na 0,0009 a míru falešné negativity na 0,09 (podrobnosti viz doplňkové informace).

Vytvořili jsme de novo sestavu genomu KB1 pomocí assembleru Phusion9. Sestavené kontigy mají celkovou velikost 2,79 Gb, přičemž velikost kontigu N50 je 5,5 kb. Celková velikost scaffoldů včetně odhadovaných mezer je 3,09 Gb, přičemž velikost N50 scaffoldů je 156 kb. Největší sestavený scaffold má velikost 3,2 Mb. Výsledkem sekvenčních dat Roche GS FLX jsou často kontigy a scaffoldy, které se nemapují proti lidskému referenčnímu genomu. Mnohé z těchto scaffoldů odpovídaly mezerám v současném referenčním sestavení lidského genomu, včetně mezer o délce více než 200 000 bp (viz doplňkové informace).

U pěti jihoafrických genomů byly identifikovány jednonukleotidové rozdíly oproti referenčnímu sestavení lidského genomu (NCBI Build 36, známé také jako hg18) a porovnány s rozdíly z osmi dostupných osobních genomů4,5,6,7,8 . V dalším textu se termínem „SNP“ rozumí jednonukleotidový rozdíl oproti referenční sestavě lidského genomu, bez zahrnutí inzerce/delece báze a bez omezení frekvence alel v populaci. SNP byly vyvolány pomocí softwaru Newbler (pro Roche/454), Corona Lite (pro SOLiD) a MAQ10 (pro Illumina).

V souladu s názorem, že obyvatelé jižní Afriky patří mezi nejodlišnější lidské populace, jsme v KB1 a v menší míře v ABT identifikovali více SNP, než bylo zaznamenáno v jiných jednotlivých lidských genomech (obr. 2 a tab. 1), i když část rozdílů v počtu SNP může pramenit z rozdílů v technologii a úrovni pokrytí. Počet SNP, které jsou nové (tj. nebyly dříve zaznamenány u jiných jedinců), je u KB1 a ABT mnohem vyšší než u jiných jednotlivých celých genomů (tab. 1). KB1 a ABT mají každý přibližně 1 milion SNP, které nejsou společné ani mezi sebou, ani s publikovanými jorubskými, asijskými nebo evropskými kompletními genomy4,5,6,7,8 (obr. 2). Ve 117 megabázích (Mb) sekvenovaných intervalů obsahujících exomy byla průměrná míra nukleotidových rozdílů mezi dvojicí Křováků 1,2 na kilobázi ve srovnání s průměrnou mírou 1,0 na kilobázi lišící se mezi evropským a asijským jedincem. Vyšší míra SNP u Křováků se odráží v posunu červené a černé linie na obr. 3b. Autozomální rozmanitost účastníků studie se odráží v rozmanitosti mitochondriálních genomů. Zatímco Evropané vykazují v průměru přibližně 20 rozdílů oproti cambridgeské referenční sekvenci (CRS)11 , naši účastníci z jižní Afriky vykazují až 100 mitochondriálních SNP oproti CRS (doplňkové tabulky 4 a 5 a doplňkové obr. 1 a 2). Ještě důležitější je, že přestože všechny mitochondriální sekvence patří do stejné haploskupiny L0, mezi dvojicemi mitochondriálních genomů účastníků je pozorováno až 84 rozdílů (Doplňková tabulka 4).

Obrázek 2: Třístranné vztahy mezi SNP.
figure2

SNP z KB1 jsou porovnány se SNP jorubského NA19240 a ABT (levý panel) a s Američanem evropského původu (J. C. Venter) a čínským jedincem (YH) (pravý panel). Čísla jsou uvedena v tisících. Variantní pozice, které se objevují ve všech osmi předchozích genomech, byly ignorovány, což vedlo k o něco menšímu počtu celkových SNP (například 3 761 019 rozdílů oproti referenční sestavě pro KB1 ve srovnání s 4 053 781, pokud jsou zahrnuty) a menšímu počtu SNP v každém třícestném průsečíku. Podobné vztahy jsou zjištěny i při zkoumání dalších jedinců z geografických skupin.

Prezentace PowerPoint

Tabulka 1 Počet SNP v genomu a sekvenovaných exome-obsahující oblasti
Obrázek 3: Rozdíly v hustotě SNP.
figure3

a, Horký bod SNP pro KB1 a J. Watsona na chromozomu 17; oba jedinci jsou heterozygoti pro haplotyp 17q21.3 H2. Na obou stranách jsou repetitivní oblasti, kde nelze SNP vyvolat (šedě). Míra lokálních SNP je vydělena mírou celého autozomu jedince, takže očekávaná míra je 1,0 (vodorovná tečkovaná čára). KB1 má téměř 2,5násobné obohacení SNP na 650 000 bází. b, Distribuce SNP z genomů Křováků (červená čára) a genomů jiných než Křováků (černá čára) v porovnání s pozicemi nukleozomů (vyplněný šedý graf), označující oblast bez nukleozomů (NFR) a nukleozomy -1 a +1. TSS, místo začátku transkripce.

Prezentace PowerPoint

Abychom zjistili, zda nové SNP představují alely předků, nebo vznikly po oddělení Křováků od jiných populací, zkoumali jsme homologní nukleotidy v genomu šimpanzů. SNP, které se shodují se šimpanzím genomem, naznačují, že se jedná o předky, zatímco rozdíly oproti šimpanzům ukazují na odvozenou alelu. Ze 743 714 nových SNP v KB1 se lidský referenční genom shoduje s genomem šimpanze v 87 % z nich, zatímco genom KB1 se shoduje se šimpanzem pouze v 6 %. U zbývajících 7 % se nepodařilo určit šimpanzí nukleotid (6 %) nebo se lišil jak od Bushmanova, tak od referenčního (1 %). Tyto podíly se v podstatě nemění, pokud zohledníme odhadovaných 3 600 falešně pozitivních volání SNP (tj. 0,0009 ze 4 milionů), u nichž lze předpokládat, že se objevují jako nové varianty. Velmi málo z nových rozdílů v genomu KB1 jsou tedy nukleotidy předků zachované u Křováků; místo toho se v naprosté většině jedná o změny, které se nahromadily od doby, kdy se linie Křováků oddělila od ostatních lidských populací.

Velký počet nových SNP vyvolává obavy ohledně schopnosti současných genotypovacích matic účinně zachytit skutečný rozsah genetické rozmanitosti a haplotypové struktury zastoupené v jižní Africe. Při hodnocení procentuální heterozygotnosti pro 1 105 569 autozomálních SNP pomocí aktuálních matic Illumina jsme s překvapením zjistili nižší heterozygotnost u KB1 ve srovnání s regionálně odpovídající evropskou kontrolou (doplňková data a doplňkový obr. 3a, b), protože je dobře známo, že genetická diverzita je v Africe nejvyšší. Analýza dat celogenomového sekvenování pro KB1 a ABT však odhalila vysoké procento heterozygotních SNP (59 %, resp. 60 %), jak se očekávalo. Tento rozpor podtrhuje nedostatečnost současných SNP arrayí pro analýzu jihoafrických populací.

Lokální hustota SNP identifikovaných v KB1 se napříč genomem značně liší (doplňkový obr. 4) a tato variabilita v hustotě je patrná i v dalších jednotlivých genomech (data nejsou uvedena). Některé z hotspotů jsou společné všem zkoumaným jedincům, zatímco jiné vykazují nápadné lokální rozdíly mezi jedinci, jako například statisticky významný (P < 10-5; viz Doplňkové informace) hotspot KB1 zobrazený na obr. 3a. Tato oblast odpovídá inverzi 17q21.312, která obsahuje několik genů, včetně genů kódujících CRHR1 (receptor pro kortikotropin uvolňující hormon) a MAPT (mikrotubuly asociovaný protein tau). Analýza diagnostických sekvenčních variant i přímá typizace 238-bp indelu13 (doplňkový obr. 5) potvrzují, že KB1 je heterozygotem pro haplotyp 17q21.3 H2, což je překvapivé zjištění, protože alela H2 se v mimoevropských populacích vyskytuje s nízkou frekvencí12. Hloubka čtení a array-CGH ukazují, že alela H2, kterou nese KB1, neobsahuje 75-kb duplikaci přítomnou u všech analyzovaných evropských alel H214,15,16 (doplňkový obr. 6a, b). Haplotyp H2 u KB1 může představovat ancestrální sekvenci a strukturu haplotypu H2, který byl přítomen v afrických populacích před jeho zvýšenou frekvencí v evropských a blízkovýchodních populacích12.

Zaznamenali jsme také celogenomový trend zvýšených hladin SNP v promotorových oblastech (obr. 3b). Promotorové regulační elementy bývají obohaceny v blízkosti hranic nukleozomů, kde jsme pozorovali nejvyšší hladiny SNP, zejména ve složených genomech Křováků. Je možné, že zvýšená frekvence SNP v těchto genomových oblastech by mohla být příčinou fenotypových změn u lidí.

U našich pěti účastníků jsme identifikovali 27 641 odlišných aminokyselinových záměn ve srovnání s lidskou referenční sekvencí, přičemž mnohé z nich se vyskytovaly u více než jednoho jedince. Z nich se 10 929 objevuje v jednom nebo více dříve sekvenovaných osobních genomech, které jsme zde zvažovali, dalších 3 566 se nachází ve veřejných databázích (viz doplňkové informace) a zbývajících 13 146 je nových a je rozděleno mezi 7 720 různých genů. Následující diskuse o předpokládaných fenotypech pro genotypy nalezené u Křováků má ilustrovat, jak přítomnost pozorovaných SNP a jejich předchozí asociace s fenotypy může vést k testovatelným hypotézám. Jedná se pouze o kandidáty na předpokládané funkce a pro jejich další zkoumání je třeba provést experimentální testy.

Z 14 495 (tj. 10 929 + 3 566) dříve identifikovaných aminokyselinových SNP bylo 621 nalezeno v databázích poskytujících asociace s nemocemi nebo jiné fenotypové informace. Některé z nich snadno souvisejí s životním stylem Křováků, například nedostatek alely perzistence laktázy evropského původu (funkční promotorová varianta v genu LCT) a alely SLC24A5 spojené se světlou barvou kůže. V jiných případech je informativní shoda s lidskou referenční sekvencí, například absence africky specifické Duffyho nulové alely (DARC) rezistence vůči malárii17. Nedostatek alel rezistence vůči malárii v populacích Křováků by mohl mít významné důsledky pro již tak se zmenšující populaci dobře adaptovaných sběračů, pokud by byli nuceni začít žít zemědělským způsobem života, který přináší zvýšenou zátěž patogeny17. Tyto genetické markery proto mohou umožnit sledovat míru adaptace člověka v měnícím se prostředí18 (viz doplňující informace).

Ačkoli řada SNP pozorovaných u Křováků byla v literatuře a online databázích spojena s fenotypy u jiných etnických skupin, je třeba zůstat skeptický k platnosti neověřených asociací. V doplňkových informacích to ilustrujeme na záznamu dbSNP rs1051339 pro gen LIPA, který je v jedné veřejné databázi anotován jako spojený s „Wolmanovým syndromem“, devastující poruchou metabolismu lipidů (doplňkový obr. 7).

Pozorovali jsme SNP, o nichž se uvádí, že jsou spojeny se zvýšenou fyziologií (doplňková tabulka 6). KB1, MD8, TK1 a ABT jsou homozygotní pro alelu VDR spojenou s vyšší hustotou kostních minerálů; KB1 je homozygotní pro alelu UGT1A3 spojenou se zvýšeným metabolismem endo- a xenobiotik; KB1, NB1 a ABT jsou homozygotní pro alelu ACTN3 spojenou se zvýšenou sprinterskou a silovou výkonností; KB1 je heterozygot pro alelu CLCNKB kódující chloridový kanál, který má větší schopnost reabsorbovat chloridové ionty z ledvinového glomerulu – vlastnost, která by byla pravděpodobně výhodná v poušti. Mezi další zajímavé SNP patří jeden, který zachovává funkci genu CYP2G (doplňkový obr. 8a, b), a dva na pozicích v genu pro chuťové receptory TAS2R38 propůjčující schopnost ochutnat hořkou sloučeninu (fenylthiokarbamid), což může odrážet potřebu lovců-sběračů vyhnout se toxickým rostlinám (podrobná diskuse viz doplňkové informace).

Zde uvedených 13 146 nových aminokyselinových SNP bude bohatým zdrojem pro budoucí práci a poskytne mnoho nových kandidátních funkčních míst, která dosud nebyla zahrnuta do celogenomových asociačních studií. Přibližně u 25 % těchto SNP se na základě souboru výpočetních metod předpokládá funkční význam (viz doplňkové informace). Kategorie genové ontologie, které jsou významně zastoupeny v 6 623 genech s jedním nebo více novými SNP Křováků (to znamená, že ze 7 720 genů s novými SNP vyloučíme ty, které jsou jedinečné pro ABT), zahrnují mnoho funkcí, o nichž je známo, že se u lidí rychle vyvíjejí, jako je imunitní odpověď, reprodukce a smyslové vnímání (doplňková tabulka 7). Podrobný popis výpočetních analýz genů souvisejících s metabolismem lipidů a smyslovým vnímáním naleznete v Doplňkových informacích.

Jelikož jsou všichni účastníci naší studie ve vysokém věku (∼80 let) a zdánlivě v dobrém zdravotním stavu, lze nové varianty kódování popsané v této studii korelovat se zdravotním stavem a fenotypy v průběhu celého lidského života. Účastníci z řad Křováků dosáhli vysokého věku navzdory tomu, že žijí v drsných podmínkách kvůli periodickému hladomoru a neléčeným nemocem. Vzhledem k tomu, že některé z kódujících alel Křováků byly v publikované literatuře spojeny s nemocemi, mohou naše výsledky pomoci přehodnotit tyto dřívější zprávy a také pomoci identifikovat potenciální populačně specifické farmakogenetické inkompatibility některých celosvětově předepisovaných léků.

Segmentální duplikace byly detekovány v 17 601 různých autozomálních genech v genomu KB1 a počty kopií byly odhadnuty podle postupů popsaných dříve19 (doplňkový obr. 6a, b). Počty kopií odhadnuté z hloubky čtení jsou spolehlivější pro delší segmenty, proto jsme se cíleně zaměřili na oblasti větší než 20 kb. Celkem jsme zjistili 886 intervalů (každý >20 kb) autozomální segmentální duplikace (93,5 Mb), což zahrnuje 100 intervalů (3,9 Mb), u nichž se nepředpokládá duplikace ve vzorku NA18507 (vzorek HapMap z Joruby v Nigérii)19 . Pomocí array-CGH byl u 58 z těchto intervalů (2,6 Mb) zjištěn zvýšený počet kopií v KB1 oproti NA18507, jedinému dalšímu publikovanému africkému genomu. Soubor ověřených duplikací zahrnuje 140kb interval na chromozomu 10 zahrnující gen CYP2E1, který kóduje protein cytochromu P450, jenž je indukován etanolem a metabolizuje mnoho toxikologických substrátů20 (doplňkový obr. 6a).

Dále jsme konkrétně odhadli počty kopií pro všechny autozomální geny RefSeq a navrhli vlastní oligonukleotidové pole zaměřené na geny, u nichž se předpokládá, že se KB1 a NA18507 liší alespoň o jednu kopii. Tím jsme potvrdili, že 193 genů se liší počtem kopií mezi KB1 a NA18507 (53, kde má NA18507 více kopií, a 140, kde má KB1 více kopií; doplňková tabulka 8). U 26 z těchto genů se odhaduje, že KB1 má alespoň o dvě kopie více než NA18507, Han Chinese YH a European-descent J. Watson. Tato sada genů zahrnuje slinnou amylázu (AMY1A, odhad počtu kopií KB1 = 15; to může odpovídat způsobu života sběračů21), alfa defenziny (DEFA1, odhad počtu kopií KB1 = 12,5) a γ-glutamyltransferázu 1 (GGT1, odhad počtu kopií KB1 = 13,2).

Sekvenování a rozsáhlé genotypování odhalilo genetické vztahy mezi našimi účastníky a dalšími skupinami lidí. Umístění kompletních mitochondriálních genomů (doplňková tabulka 9), včetně dalších žen Tuu (KB2) a Juu (NB8) na mateřském stromu ref. 1 (Doplňkový obr. 1a-c) umístilo naše účastníky do bazální větve klade L0. Překvapivě byla ABT zařazena do klad L0d, tedy do mitochondriální linie specifické pro Křováky. Na chromozomu Y jsme identifikovali 75 (z 1220) křovácky informativních SNP (doplňkový obr. 9). Na rozdíl od ostatních Křováků vykazoval MD8 bantuskou linii chromozomu Y odpovídající ABT. Analýza Y-markerů kladů A (Doplňková tabulka 10), B (Doplňková tabulka 11) a E (Doplňková tabulka 12) umožnila ověření haploskupiny a klasifikaci ABT E1b1a8a (http://ycc.biosci.arizona.edu/)22 .

Provedli jsme analýzu hlavních komponent (PCA) pomocí softwaru EIGENSTRAT23 na 174 272 autosomových SNP společných pro všechny soubory dat (vytvořených pomocí 1M nebo 610K matic Illumina, nebo Affymetrix SNP6.0). Data o 10 Křovácích a 20 Xhosech24 byla promítnuta s 20 Joruby a 20 Evropany z dostupných dat (HapMap a Coriell) a 5 Křováky (SAN) z dat Human Genome Diversity Panel (HGDP). Celopopulační PCA definuje Křováky stejně odlišné od nigerokonžských populací jako od Evropanů (obr. 4a). Analýza v rámci Afriky odděluje Křováky od divergentních západoafrických a jihoafrických populací (obr. 4b), zatímco ABT jasně spadá do shluku jižních Bantuů. Proměnlivá příbuznost Xhosů s Joruby může naznačovat minulou příměs a/nebo historickou rozmanitost v rámci této široce vymezené populace24. V rámci skupiny Křováků předpokládáme, že Ju/’hoansi a HGDP San jsou v podstatě stejnou populací. Divergenci KB1 a MD8 lze vysvětlit nedávnou příměsí Bantu (předpokládanou u MD8) nebo jedinečnými subpopulacemi s malým procentem starobylé příměsi Bantu. Ačkoli je velikost vzorku omezená, test čtyř populací17 naznačuje slabou a/nebo neprůkaznou příměs u KB1 a našich účastníků Ju/’hoansi. Jiný test (viz doplňková tabulka 14) ukazuje genový tok mezi předky KB1 a ABT, což potvrzuje mitochondriální výsledky, ale bez určení směru toku. Na rozdíl od KB1, NB1 a TK1 bylo možné potvrdit tok genů mezi Křováky a jihoafrickými Bantuy prostřednictvím mitochondrií typu L0 u ABT a bantuovských specifických Y-chromozomálních markerů u MD8. Na to, zda migrace, které stály v pozadí těchto případů, sledovaly obecný vzorec patri- nebo matrilokality25, si budeme muset počkat na podrobnou analýzu populační struktury založenou na matricích s novým obsahem, které zahrnují 1,3 milionu nových genetických markerů z této studie.

Obr. 4: Třícestná populační struktura založená na 174 272 autozomálních SNP s využitím PCA.
figure4

a, b, PCA Evropanů, Afričanů (Niger-Kongo) a Křováků (a) a pouze afrických populací (b) odlišuje Křováky od Jorubů a Bantů. Podíl vysvětleného rozptylu v a je 0,09 pro vlastní vektor 1 a 0,04 pro vlastní vektor 2, zatímco v PCA b je 0,06 a 0,02, přičemž hodnota P podle Tracyho-Widoma <10-12. ABT, sekvenční Bantu; CEU, evropská HapMap; JHO, mluvčí Juu (včetně NB1 a TK1); MD8, sekvenční !Kung; NOH, mluvčí Tuu (včetně KB1); SAE, jihoafrická evropská; SAN, HGDP San; XHO, jihoafrická Xhosa; YRI, jorubská HapMap.

Prezentace PowerPoint

Jelikož křováčtí lovci a sběrači v průběhu své kulturní historie26 nikdy nepřijali zemědělské postupy, mohou sekvenční varianty nalezené v jejich genomech odrážet dávnou adaptaci na způsob života založený na shánění potravy. V případě Křováků z Kalahari muselo dojít také k adaptaci na život v suchém podnebí, protože bylo zaznamenáno několik fenotypových znaků, které se u jiných lidských skupin nevyskytují, například schopnost uchovávat vodu a lipidové metabolity v tělesných tkáních26. Tyto fyziologické a genetické rozdíly mohou být vodítkem pro budoucí studie tolik diskutované otázky, zda k rozšíření zemědělství v jižních oblastech Afriky27 vedla spíše výměna obyvatelstva než kulturní výměna, jak bylo pozorováno u populací pozdní doby kamenné v Evropě28,29.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *