メニュー 閉じる

アフリカ南部のコイサンとバンツーゲノムが完成

ナミビア先住民の狩猟採集民であるグビ、G/アクオ、D#kgao、!の4人が、狩猟採集を行った。Aî(ここではそれぞれKB1、NB1、TK1、MD8と呼ぶ)、それぞれ自分のコミュニティの最長老であり、言語グループ、地理的位置、Y染色体ハプログループ表現に基づいてゲノム配列決定のために選ばれた(図1、補足表1)。 バンツー族の個人はArchbishop Desmond Tutu(ABT)で、南部アフリカの2大バンツー族であるソト-ツワナとングニの話者(広いニジェール-コンゴ語から)を代表しています

Figure 1: Map of southern Africa.
figure1

図は研究参加者の民族グループと地域、KB1, NB1, TK1, MD8, ABT(それぞれa-e)、乾燥・砂漠気候の地域とホイスン語とニジェールコンゴ語の地理分布30を示しています。 コイサン系言語の特徴は、付加子音を表すクリック音である。 は口蓋クリック、/は歯牙クリック、#は歯槽クリックである26。 なお、ABTのY染色体ハプログループは、本研究で作成したジェノタイピングとシークエンスの両方のデータを用いて決定された。

パワーポイントスライド

我々の研究参加者のゲノムは、一般にアクセスできるヨルバ、ヨーロッパ、アジアのゲノムよりもヒト参照ゲノムからの分岐が多いと予想されるので4、5、6、7、8、我々はヒト参照に対するマッピングとde novoアセンブリの両方に十分な品質を提供するゲノムシーケンスを生成することを目指していました。 そこで、KB1のゲノム配列は、Roche/454 GS FLXプラットフォームとTitaniumケミストリーを用いて、平均350塩基対(bp)のリード長で、10.2倍のカバレッジで配列決定されました。 ゲノム構造を調べるため、KB1のロングインサートライブラリーをRoche/454 Titanium paired-end technologyで配列決定し、最大17キロベース(kb)のインサートサイズと12.3倍の非冗長クローンカバレッジを得た。 NB1のゲノムも同じプラットフォームで2倍のカバレッジで配列決定されました。 ABT のゲノムは、Applied Biosystems のショートリード テクノロジーである SOLiD 3.0 を使用して、30 倍以上のカバレッジで配列が決定されました。 さらに、研究参加者5人全員のゲノムは、Nimblegenシーケンスキャプチャー(2.1Mアレイ)で濃縮され、その後Roche/454 Titaniumプラットフォームで配列決定されたタンパク質コード領域(エクソーム)において、少なくとも16倍のカバレッジで配列決定された(個人あたり1.5~1.9ギガベース(Gb)配列)。 補足表2は得られたデータ量を報告し、補足表3はエクソームの統計を示す。

配列データは、全ゲノムとエクソーム配列の比較、別のプラットフォームによる全ゲノム配列決定(イルミナ、23.2倍、ABTは7.2倍)、高密度ジェノタイピング(Illumina 1 Million SNPs)、比較ゲノムハイブリダイゼーションデータとの読み取り深さ情報の比較、さらにTaqMan対立遺伝子識別および/またはサンガーシーケンスを用いた選択した変異体の検証など、様々な手法で配列データを検証しました。

KB1ゲノムのde novoアセンブリをPhusionアセンブラ9を使用して作成しました。 その結果、コンティグサイズは5.5kbで、合計2.79Gbのコンティグが組み立てられた。 推定ギャップを含む総スカフォールドサイズは3.09Gbで、N50スカフォールドサイズは156kbでした。 最大のスキャフォールドは3.2 Mbに及びます。 Roche GS FLXの配列データからは、ヒトの参照ゲノムにマッピングされないコンティグやスキャフォールドがしばしば検出されました。

ヒト参照ゲノムアセンブリ (NCBI Build 36、別名 hg18) からの一塩基の違いを、5つのアフリカ南部ゲノムについて特定し、8つの個人ゲノム4、5、6、7、8からのものと比較しました。 以下では、「SNP」という用語は、塩基の挿入/欠失を含まず、集団における対立遺伝子頻度に制限を受けない、ヒト参照アセンブリからの一塩基の違いを意味する。 SNPはソフトウェアNewbler(Roche/454用)、Corona Lite(SOLiD用)、MAQ10(Illumina用)を用いて呼び出した。

アフリカ南部が最も多様なヒト集団の一つであるという見解と一致して、KB1では他の個々のヒトゲノムで報告されているよりも多くのSNPが、ABTではより少ない程度だが特定できた(図2および表1)、SNP数の変化の一部は技術やカバーレベルの違いから生じたものと思われる。 新規SNP(他の個体では見られなかったSNP)の数は、KB1とABTでは他の個体全ゲノムよりもはるかに多い(表1)。 KB1とABTはそれぞれ約100万個のSNPを持ち、それらは互いに、あるいは公表されているヨルバ人、アジア人、ヨーロッパ人の全ゲノム4,5,6,7,8と共通しない(図2)。 エクソームを含む117メガベース(Mb)の配列決定において、ブッシュマンのペア間の塩基の違いの割合は平均1.2/キロベースであるのに対し、ヨーロッパ人とアジア人のペアの間では平均1.0/キロベースであった。 ブッシュマンのSNP率が高いことは、図3bの赤線と黒線のオフセットに反映されている。 常染色体の多様性は、ミトコンドリアゲノムの多様性にも反映されている。 ヨーロッパ人は平均してCambridge reference sequence(CRS)11から約20の違いを示すのに対し、今回の南部アフリカの参加者はCRSに対して最大100のミトコンドリアSNPを示す(補足表4、5、補足図1、2)。 さらに重要なことは、すべてのミトコンドリア配列が同じハプログループL0に属するにもかかわらず、参加者のミトコンドリアゲノムのペアの間で最大84の違いが観察されることである(補足表4)。

Figure 2: SNPs間の3方向の関係。
figure2

KB1のSNPsをヨルバ人のNA19240とABT(左図)、ヨーロッパ系のアメリカ人(J・C・ベンター)と中国人(YH)(右図)と比較しました。 数値は千単位で表示されている。 過去8つのゲノムすべてに現れる変異位置は無視したため、SNPの総数が若干少なくなり(例えば、KB1では参照アセンブリとの差が3,761,019、これを含むと4,053,781)、各3方向交差点におけるSNPの数も少なくなっています。 地理的なグループから他の個体を調べた場合にも、同様の関係が見出される。

パワーポイントスライド

Table 1 ゲノムおよび配列決定したエクソーム中のSNP数
Table 2 ゲノム中のSNP数
Table 3 ゲノム中のSNP数
Delicious!
Figure 3.図3: SNP密度のばらつき。
figure3

a、17番染色体上のKB1とJ・ワトソンのSNPホットスポット;2人とも17q21.3のH2ハプロタイプでヘテロ接合体である。 両側にはSNPを呼び出せない反復領域がある(灰色)。 局所的なSNP率を個人の常染色体全体の率で割っているので、期待される率は1.0(水平点線)となる。 KB1では65万塩基のSNPが2.5倍近く濃縮されている。 b, ブッシュマンゲノム(赤線)と非ブッシュマンゲノム(黒線)のSNP分布とヌクレオソーム位置(灰色の塗りつぶし線)を比較し、NFR(核酸なし領域)と-1、+1核酸の位置を示している。 TSS、転写開始点

パワーポイントスライド

新規SNPが祖先の対立遺伝子なのかブッシュマンが他の集団から分離してから生じたのかを判断するために、チンパンジーゲノム中の相同核酸を調査しました。 チンパンジーゲノムと一致するSNPはその違いが祖先的なものであることを示し、チンパンジーとの違いは派生した対立遺伝子であることを示す。 KB1の新規SNP743,714個のうち、ヒト参照ゲノムがチンパンジーゲノムと一致するのは87%であるのに対し、KB1ゲノムはわずか6%でチンパンジーゲノムと一致した。 残りの7%については、チンパンジーのヌクレオチドが決定できないか(6%)、ブッシュマンとリファレンスの両方と異なる(1%)。 これらの割合は、新規変異として現れると仮定できる推定3,600の偽陽性SNPコール(つまり、400万件の0.0009)を考慮しても、本質的に変わらない。

多数の新規SNPは、現在のジェノタイピングアレイが、アフリカ南部に見られる遺伝的多様性とハプロタイプ構造の真の範囲を効果的に捉えることができるのかについて、懸念を抱かせるものである。 現在のコンテンツのイルミナアレイを使用して1,105,569の常染色体SNPsのヘテロ接合性の割合を評価すると、遺伝的多様性がアフリカで最も高いことがよく知られているため、地域を一致させたヨーロッパの対照と比較してKB1で低いヘテロ接合性を見つけたことは意外だった(補足データおよび補足図3a、b)。 しかし、KB1とABTの全ゲノム配列データを解析したところ、予想通りヘテロ接合型SNPの割合が高い(それぞれ59%と60%)ことがわかった。 この不一致は、南部アフリカの集団を分析するための現在のSNPアレイの不十分さを強調している。

KB1で同定されたSNPの局所密度は、ゲノム全体でかなり異なり(補足図4)、この密度の変動は他の個々のゲノムでも見られる(データは示していない)。 ホットスポットの中には、調べた個体に共通するものもあれば、図3aに示した統計的に有意な(P < 10-5;補足情報参照)KB1ホットスポットのように、個人間で著しい局所差を示すものもある。 この領域は17q21.3逆位12に相当し、CRHR1(コルチコトロピン放出ホルモン受容体)やMAPT(微小管関連タンパク質タウ)をコードする遺伝子など、いくつかの遺伝子を含んでいる。 診断用配列変異の解析と238bpのインデルの直接タイピング13(補足図5)により、KB1は17q21.3 H2ハプロタイプをヘテロ接合で持つことが確認されたが、H2対立遺伝子は非ヨーロッパの集団では低い頻度で見られるので驚くべき所見であった12。 Read depthとアレイCGHは、KB1が持つH2対立遺伝子は、分析されたすべてのヨーロッパのH2対立遺伝子に存在する75kbの重複を含まないことを示している14、15、16 (Supplementary Fig. 6a, b)。 KB1のH2ハプロタイプは、ヨーロッパや中東の集団で頻度が高まる前にアフリカの集団に存在したH2ハプロタイプの祖先の配列と構造を表しているのかもしれない12。

また、プロモーター領域でSNPレベルが上昇する傾向がゲノム全体で見られた(図3b)。 プロモーター制御要素はヌクレオソーム境界付近に濃縮される傾向があり、これは特に複合ブッシュマンゲノムでSNPレベルのピークが観測された場所である。

今回、5人の参加者の間で、ヒトの参照配列と比較して、27,641個の異なるアミノ酸置換が確認され、多くは複数の個体で発生した。 このうち、10,929個は、ここで検討した過去に配列決定された個人ゲノムの1つ以上に存在し、さらに3,566個が公的データベース(補足情報参照)に存在し、残りの13,146個は新規で7,720個の異なる遺伝子に分散しています。 以下の考察は、ブッシュマンに見られる遺伝子型の推定表現型について、観察されたSNPの存在とその表現型との過去の関連から、検証可能な仮説が導かれることを説明するためのものである。

過去に同定された14,495(つまり、10,929+3,566)のアミノ酸SNPのうち、621が疾患関連または他の表現型情報を提供するデータベースで発見されたものである。 これらの中には、ヨーロッパ由来のラクターゼ持続性対立遺伝子(LCT遺伝子の機能的プロモーター変異)の欠如や、明るい色の皮膚と関連するSLC24A5対立遺伝子など、ブッシュマンのライフスタイルと容易に関連するものがある。 また、アフリカ特有のマラリア抵抗性対立遺伝子Duffy null (DARC)の欠如17など、ヒトの参照配列との一致が参考になる例もある。 ブッシュマンの集団にマラリア抵抗性対立遺伝子がないことは、すでに減少している適応力の高い採集民が、病原体の増加をもたらす農耕生活を強いられた場合、重大な影響を及ぼす可能性がある17。

ブッシュマンで観察された多くのSNPは、文献やオンラインデータベースで他の民族の表現型と関連しているが、検証されていない関連性の有効性には懐疑的であるべきである。 補足情報では、LIPA遺伝子のdbSNPエントリrs1051339でこの点を説明します。これは、ある公開データベースで、脂質代謝における破壊的な障害である「ウォルマン症候群」に関連すると注釈されています(補足図7)

我々は、生理学の向上に関連していると報告されたSNPを観察しました(補足表6)。 KB1、MD8、TK1、ABTは高い骨密度に関連するVDRの対立遺伝子に対してホモ接合体であり、KB1はエンドおよびゼノバイオティクス代謝の増加に関連するUGT1A3の対立遺伝子に対してホモ接合体であり、KB1、NB1、ABTはスプリントおよびパワー性能の増加に関連するACTN3の対立遺伝子に対してホモ接合体である。 KB1は、腎糸球体から塩化物イオンを再吸収する能力が高い塩化物チャネルをコードするCLCNKBの対立遺伝子をヘテロ接合で持っている-おそらく砂漠で有利な特性である。 その他の興味深いSNPとしては、CYP2G遺伝子の機能を保持するもの(補足図8a、b)、味覚受容体遺伝子TAS2R38の位置で苦味化合物(フェニルチオカルバミド)を味わう能力を付与する2つがあり、狩猟採集民が有毒植物を避ける必要性を反映していると考えられる(詳しい議論は補足情報参照)。

今回報告された13,146の新規アミノ酸SNPは、これまでの全ゲノム関連研究に含まれていなかった多くの新しい機能部位候補を提供し、今後の研究にとって豊富なリソースとなるだろう。 これらのSNPの約25%は,一連の計算手法によって機能的な意味を持つと予測されている(補足情報参照)。 新規ブッシュマンSNPを1つ以上持つ6,623の遺伝子に顕著に表れるGene Ontologyカテゴリには、免疫反応、生殖、感覚知覚など、ヒトで急速に進化することが知られている機能が多く含まれている(補足表7)。

本研究参加者は全員高齢(約80歳)であり、一見健康に見えるため、本研究で記載した新規コーディングバリアントは、人間の全寿命にわたる健康状態や表現型と相関させることができる。 ブッシュマンの参加者は、定期的な飢餓や未治療の病気による過酷な環境下で生活しながらも、高齢に達している。

KB1ゲノムの17,601個の常染色体遺伝子に断片的重複が検出され、先に述べた手順でコピー数を推定した19(補足図6a,b)。 コピー数はリードの深さから推定した方がより信頼できるため、20kb以上の領域を特に対象とした。 合計で886区間(各>20 kb)の常染色体セグメント重複を検出し、その中にはNA18507サンプル(ナイジェリア、YorubaからのHapMapサンプル)19では重複が予測されない100区間(3.9 Mb)が含まれている。 アレイCGHを用いると、これらの区間のうち58区間(2.6 Mb)が、唯一公表されている他のアフリカのゲノムであるNA18507と比較してKB1ではコピー数が増加していた。 検証された重複のセットには、エタノールによって誘導され、多くの毒性基質を代謝するシトクロムP450タンパク質をコードする、CYP2E1遺伝子にまたがる第10染色体上の140kbの区間が含まれている20(補足図6a)。

次に、すべての常染色体RefSeq遺伝子についてコピー数を特に推定して、KB1とNA18507が少なくとも1コピー違うと予測される遺伝子をターゲットに、カスタム・オリゴヌクレオチド・アレイを設計しました。 その結果、193の遺伝子がKB1とNA18507の間でコピー数が異なることが検証された(NA18507の方がコピー数が多い場合は53、KB1の方がコピー数が多い場合は140、補足表8)。 このうち26の遺伝子について、KB1はNA18507、漢民族YH、ヨーロッパ系J. Watsonよりも少なくとも2コピー多く持っていると推定された。 この遺伝子セットには、唾液アミラーゼ(AMY1A、KB1推定コピー数=15、これは採集者のライフスタイルと一致するかもしれない21)、αディフェンシン(DEFA1、KB1推定コピー数=12.5)、γ-グルタミルトランスフェラーゼ1(GGT1、KB1推定コピー数=13.2)などがある。

配列決定と広範囲の遺伝子タイピングにより、我々の参加者と他のヒトグループの遺伝関係が判明した。 ミトコンドリアゲノム(補足表9)には、参考文献の母系樹にTuu(KB2)およびJuu(NB8)女性を追加して配置した。 1(補足図1a-c)の母樹に、Tuu(KB2)とJuu(NB8)の女性を追加した完全なミトコンドリアゲノムを配置すると、我々の参加者はクレードL0基部枝内に位置することがわかった。 意外なことに、ABTはブッシュマン特有のミトコンドリア系統であるクレードL0dに位置づけられた。 Y染色体上のブッシュマン情報提供SNPは75個(1,220個中)同定された(補足図9)。 MD8は他のブッシュマンとは対照的に、ABTと一致するバンツー族のY染色体系統を示した。 クレードA(補足表10)、B(補足表11)、E(補足表12)のYマーカー解析により、ハプログループの検証とABTのE1b1a8a分類(http://ycc.biosci.arizona.edu/)22 が可能であることがわかった。

データセット(1Mまたは610Kイルミナ、またはアフィメトリクスSNP6.0アレイを使用して生成)全体に共通する174,272のオートソームワイドSNPについてEIGENSTRATソフトウェア23を使用して主成分分析(PCA)を実行しました。 10人のBushmanと20人のXhosa24のデータは、入手可能な(HapMapとCoriell)データから20人のYorubaと20人のヨーロッパ人、そしてHuman Genome Diversity Panel(HGDP)データから5人のBushman(SAN)と投影された。 集団全体のPCAでは、ブッシュマンはニジェール・コンゴ人集団ともヨーロッパ人とも異なることが定義された(図4a)。 アフリカ大陸内の分析では、ブッシュマンは西アフリカと南アフリ カの分岐した集団から分離され(図4b)、ABTは明らかに南バンツーのクラスターに属することがわかった。 XhosaとYorubaの近縁性は、この広義の集団における過去の混血や歴史的多様性を示唆しているのかもしれない24。 ブッシュマン・グループ内では、Ju/’hoansiとHGDP Sanは本質的に同じ集団であると予測される。 KB1とMD8の乖離は、最近のバントゥー混血(MD8で想定)か、古代のバントゥー混血の割合が少ない独自の亜集団で説明できるかもしれない。 サンプル数には限りがあるが、4集団検定17では、KB1とJu/’hoansi参加者の混血が弱いか、結論が出ていないことが示唆された。 別の検定(補足表14参照)では、KB1とABTの祖先の間で遺伝子流動が見られ、ミトコンドリアの結果を確認したが、流動の方向は決定していない。 KB1、NB1、TK1とは対照的に、ABTのL0型ミトコンドリアとMD8のバンツー特異的Y染色体マーカーによってブッシュマンとアフリカ南部のバンツー間の遺伝子フローを確認することができた。

図4:PCAによる174,272の常染色体SNPに基づく3方向の集団構造。
figure4

a, b, ヨーロッパ人、アフリカ人(ニジェールコンゴ)、ブッシュマン(a)、アフリカ人集団のみ(b)のPCAではブッシュマンがヨルバ人やバントゥスと識別されています。 aで説明される分散の割合は固有ベクトル1が0.09、固有ベクトル2が0.04であるのに対し、PCA bではそれぞれ0.06、0.02で、Tracy-Widom P値 <10-12. ABT, sequenced Bantu; CEU, European HapMap; JHO, Juu speaker (including NB1 and TK1); MD8, sequenced !Kung; NOH, Tuu speakers (including KB1); SAE, South African European; SAN, HGDP San; XHO, South African Xhosa; YRI, Yoruba HapMap.JP.

パワーポイントスライド

ブッシュマンの狩猟採集民は彼らの文化史を通じて農耕行為を採用しなかったので26、彼らのゲノムで見つかった配列変異は採集生活への古代からの適応を反映しているかもしれない。 カラハリ・ブッシュマンの場合、体組織に水や脂質の代謝物を蓄える能力など、他の人類集団にはない表現形質がいくつか指摘されていることから、乾燥した気候での生活への適応も起こったのだろう26。 これらの生理学的・遺伝学的差異は、ヨーロッパにおける石器時代後期の集団で観察されたように、文化交流ではなく、集団置換がアフリカの南部地域における農業の拡大を推進したかどうか27という大いに議論されている問題についての今後の研究の指針となるかもしれない28,29。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です