Menu Fechar

Genomas Khoisan e Bantu completos da África Austral

Quatro caçadores-colectores indígenas namibianos !Gubi, G/aq’o, D#kgao e !Aî (referidos aqui como KB1, NB1, TK1 e MD8, respectivamente), cada um dos membros mais velhos da sua comunidade, foram escolhidos para sequenciamento genético com base no seu grupo linguístico, localização geográfica e representação do haplogrupo de cromossomas Y (Fig. 1 e Tabela Complementar 1). O indivíduo Bantu é o Arcebispo Desmond Tutu (ABT), que representa os falantes de Sotho-Tswana e Nguni (das grandes línguas Níger-Congo), os dois maiores grupos Bantu da África Austral.

Figure 1: Mapa da África Austral.
figure1figure1

p>A figura mostra os grupos étnicos e localidades dos participantes no estudo, KB1, NB1, TK1, MD8 e ABT (a-e, respectivamente), áreas de climas áridos e desérticos e a distribuição geográfica das línguas Khoisan e Niger-Congo30. As línguas Khoisan são caracterizadas por cliques, denotando consoantes adicionais. O ! é um clique palatal; / é um clique dentário; e # é um clique alveolar26. Note que o haplogrupo de cromossomas ABT Y foi determinado utilizando dados de genotipagem e sequenciação gerados por este estudo.

slide PowerPoint

Como se esperava que os genomas dos participantes do nosso estudo divergissem mais do genoma humano de referência do que os genomas Yoruban, europeus e asiáticos acessíveis ao público4,5,6,7,8, objetivamos gerar uma seqüência genômica que fornecesse qualidade suficiente para o mapeamento tanto contra a referência humana quanto contra o conjunto de novo. Assim, o genoma do KB1 foi sequenciado para uma cobertura 10,2 vezes utilizando a plataforma Roche/454 GS FLX com química Titanium, dando um comprimento médio de leitura de 350 pares de bases (bp). Para abordar aspectos da estrutura do genoma, bibliotecas adicionais de inertes longos para KB1 foram sequenciadas usando a tecnologia Roche/454 Titanium paired-end, com tamanhos de inserção de até 17 kilobases (kb) e 12,3 vezes a cobertura não redundante de clones. O genoma do NB1 foi sequenciado utilizando a mesma plataforma para uma cobertura dupla. O genoma de ABT foi sequenciado para uma cobertura de mais de 30 vezes usando a tecnologia de leitura curta da Applied Biosystems, SOLiD 3.0. Além disso, todos os cinco genomas dos participantes do estudo foram sequenciados a pelo menos 16 vezes a cobertura em regiões codificadoras de proteínas (exomes) que foram enriquecidas pela captura de sequência de Nimblegen (matriz 2.1 M) e subsequentemente sequenciadas na plataforma Roche/454 Titanium (1.5-1.9 gigabases (Gb) de sequência por indivíduo). A Tabela Complementar 2 relata o volume de dados obtidos, enquanto a Tabela Complementar 3 fornece estatísticas de exoma.

Os dados da sequência foram validados por uma variedade de técnicas, incluindo a comparação das sequências de todo o genoma e exoma, sequenciação de todo o genoma por outra plataforma (Illumina, 23.2 vezes para KB1 e 7,2 vezes para ABT), genotipagem de alta densidade (Illumina 1 Milhão de SNPs), comparação de informação de leitura profunda com dados comparativos de hibridização genômica, bem como validação de variantes selecionadas usando discriminação alélica TaqMan e/ou seqüenciamento de Sanger. Estimamos a taxa de falso-positivo do nosso polimorfismo final de nucleotídeo único (SNP) para KB1 como 0,0009, e a taxa de falso-negativo como 0,09 (ver Informações Suplementares para detalhes).

Criamos um conjunto de novo do genoma KB1, usando o Phusion assembler9. Os contigs montados totalizam 2,79 Gb, com um contig tamanho N50 de 5,5 kb. O tamanho total do andaime, incluindo lacunas estimadas, é de 3.09 Gb, com um tamanho de andaime N50 de 156 kb. O maior vão do andaime montado é de 3.2 Mb. Frequentemente, os dados da sequência Roche GS FLX resultaram em contíguos e andaimes que não são mapeados contra o genoma de referência humano. Muitos destes andaimes corresponderam a lacunas na actual montagem de referência humana, incluindo lacunas com mais de 200,000 bp de comprimento (ver Informação Suplementar).

Diferenças de nucleótidos individuais da montagem do genoma de referência humana (NCBI Build 36, também conhecido como hg18) foram identificadas para os cinco genomas da África Austral e comparados com os de oito genomas pessoais disponíveis4,5,6,7,8. No que se segue, o termo “SNP” significa uma diferença de um único nucleótido em relação à montagem humana de referência, não incluindo as inserções/deleções de uma base, e sem restrições sobre a frequência dos alelos numa população. Os SNPs foram chamados usando o software Newbler (para Roche/454), Corona Lite (para SOLiD) e MAQ10 (para Illumina).

Consistente com a visão de que os sul-africanos estão entre as populações humanas mais divergentes, identificamos mais SNPs em KB1, e em menor grau em ABT, do que foram relatados em outros genomas humanos individuais (Fig. 2 e Tabela 1), embora uma parte da variação nos números de SNPs possa derivar de diferenças na tecnologia e níveis de cobertura. O número de SNPs que são novos (ou seja, não vistos anteriormente em outros indivíduos) é muito maior para KB1 e ABT do que para outros genomas individuais inteiros (Tabela 1). KB1 e ABT têm aproximadamente 1 milhão de SNPs cada um que não são compartilhados entre si ou com os genomas completos Yoruban, asiáticos ou europeus publicados4,5,6,7,8 (Fig. 2). Nas 117 megabases (Mb) de intervalos sequenciais contendo exômeros, a taxa média de diferenças de nucleotídeos entre um par de bosquímanos foi de 1,2 por quilobase, comparado a uma média de 1,0 por quilobase que difere entre um indivíduo europeu e asiático. A maior taxa de SNP dos bosquímanos é reflectida pela compensação das linhas vermelha e preta na Fig. 3b. A diversidade autossômica dos participantes do estudo é refletida pela diversidade dos genomas mitocondriais. Enquanto os europeus em média mostram aproximadamente 20 diferenças em relação à sequência de referência de Cambridge (CRS)11, os nossos participantes da África Austral mostram até 100 SNPs mitocondriais em relação ao CRS (Tabelas Suplementares 4 e 5 e Figuras Suplementares 1 e 2). Mais importante, apesar de todas as seqüências mitocondriais pertencentes ao mesmo grupo haplogrupo L0, são observadas até 84 diferenças entre os pares de genomas mitocondriais dos participantes (Tabela Suplementar 4).

Figure 2: Relações de três vias entre os SNPs.
figure2

SNPs da KB1 são comparados com os da Yoruban NA19240 e ABT (painel esquerdo), e com um americano de ascendência europeia (J. C. Venter) e um indivíduo chinês (YH) (painel direito). Os números são dados em milhares. As posições das variantes que aparecem em todos os oito genomas anteriores foram ignoradas, levando a um número ligeiramente menor de SNPs totais (por exemplo, 3.761.019 diferenças em relação ao conjunto de referência para KB1, comparado com 4.053.781 se forem incluídos) e menos SNPs em cada cruzamento de três vias. Relações semelhantes são encontradas quando outros indivíduos dos grupos geográficos são examinados.

slide PowerPoint

Table 1 Número de SNPs no genoma e no exômen sequenciado.contendo regiões
Figure 3: Variação nas densidades de SNP.
figure3figure3

a, An SNP hotspot for KB1 and J. Watson on cromosome 17; ambos os indivíduos são heterozigotos para o haplótipo 17q21.3 H2. Em ambos os lados são regiões repetitivas onde os SNPs não podem ser chamados (cinzentos). As taxas locais de SNP são divididas pela taxa autossômica do indivíduo, portanto as taxas esperadas são de 1,0 (linha pontilhada horizontal). O KB1 tem um enriquecimento de quase 2,5 vezes os SNPs para 650.000 bases. b, Distribuição dos SNPs dos genomas bosquímanos (linha vermelha) e dos genomas não bosquímanos (linha preta), em comparação com as posições dos nucleossomas (parcela cinzenta preenchida), indicando a região sem nucleossomas (NFR) e os nucleossomas -1 e +1. TSS, transcrição local de início.

PowerPoint slide

Para determinar se os novos SNPs representam alelos ancestrais ou surgiram desde que os bosquímanos se separaram de outras populações, examinamos o nucleotídeo homólogo no genoma do chimpanzé. Os SNPs que correspondem ao genoma do chimpanzé indicam que a diferença é ancestral, enquanto as diferenças do chimpanzé indicam um alelo derivado. Dos 743.714 novos SNPs em KB1, o genoma humano de referência coincide com o genoma do chimpanzé para 87% destes, enquanto o genoma KB1 coincide com o chimpanzé para apenas 6%. Para os restantes 7%, o nucleotídeo chimpanzé não pôde ser determinado (6%) ou diferiu tanto do Bushman como do de referência (1%). Estas frações não se alteram essencialmente se contabilizarmos as 3.600 chamadas falso-positivas SNP (ou seja, 0,0009 de 4 milhões), que podem ser assumidas como novas variantes. Assim, muito poucas das novas diferenças no genoma do KB1 são nucleotídeos ancestrais retidos nos bosquímanos; em vez disso, a grande maioria são mudanças que se acumularam desde que a linhagem dos bosquímanos divergiu de outras populações humanas.

O grande número de SNPs novos levanta preocupações quanto à capacidade das actuais matrizes de genotipagem para capturar eficazmente a verdadeira extensão da diversidade genética e da estrutura de haplótipos representada na África Austral. Avaliando a heterozigosidade percentual para 1.105.569 SNPs autossômicos usando matrizes Illumina de conteúdo atual, ficamos surpresos ao encontrar uma heterozigosidade menor em KB1 em comparação com um controle europeu de região (Dados Suplementares e Fig. 3a, b), porque é bem conhecido que a diversidade genética é maior na África. No entanto, a análise dos dados de sequenciação do genoma inteiro para KB1 e ABT revelou percentagens elevadas de SNPs heterozigóticos (59% e 60%, respectivamente), como esperado. Esta discrepância sublinha a inadequação das actuais arrays de SNP para a análise das populações da África Austral.

A densidade local dos SNP identificados em KB1 varia consideravelmente no genoma (Figura Suplementar 4), e esta variação na densidade é também observada noutros genomas individuais (dados não mostrados). Alguns dos hotspots são comuns a todos os indivíduos examinados, enquanto outros mostram diferenças locais marcantes entre os indivíduos, como o estatisticamente significativo (P < 10-5; ver Informação Suplementar) KB1 hotspot mostrado na Fig. 3a. Esta região corresponde à inversão 17q21.312, que contém vários genes, incluindo aqueles que codificam CRHR1 (um receptor hormonal liberador de corticotropina) e MAPT (proteína tau associada ao microtubo). A análise das variantes da sequência de diagnóstico, assim como a tipagem directa de um indel13 de 238-bp (Figura Complementar 5) confirmam que o KB1 é heterozigoto para o haplótipo 17q21.3 H2, um achado surpreendente porque o alelo H2 é encontrado em baixas frequências em populações não europeias12. A leitura de profundidade e matriz-CGH indica que o alelo H2 transportado por KB1 não contém a duplicação de 75-kb presente em todos os alelos H2 europeus analisados14,15,16 (Suplemento Fig. 6a, b). O haplótipo KB1 H2 pode representar a sequência e estrutura ancestral do haplótipo H2 que estava presente nas populações africanas antes do seu aumento de frequência nas populações europeias e do Médio Oriente12,

Observamos também uma tendência genómica para níveis elevados de PNS nas regiões promotoras (Fig. 3b). Os elementos reguladores dos promotores tendem a ser enriquecidos perto das fronteiras dos nucleossomas, que são onde observamos níveis máximos de PNS, particularmente nos genomas compostos dos bosquímanos. É possível que o aumento da frequência do SNP nestas regiões genómicas possa conduzir a alterações fenotípicas em humanos.

Identificámos 27.641 substituições distintas de aminoácidos entre os nossos cinco participantes, em comparação com a sequência de referência humana, muitas ocorrendo em mais do que um indivíduo. Destes, 10.929 aparecem em um ou mais dos genomas pessoais previamente sequenciados aqui considerados, outros 3.566 são encontrados em bancos de dados públicos (ver Informações Suplementares) e os 13.146 restantes são novos e distribuídos entre 7.720 genes distintos. A seguinte discussão de fenótipos putativos para os genótipos encontrados nos bosquímanos pretende ilustrar como a presença de SNPs observados e sua associação prévia com fenótipos pode levar a hipóteses testáveis. Estes são apenas candidatos para as funções sugeridas, e testes experimentais devem ser conduzidos para investigá-los mais a fundo.

Dos 14.495 (ou seja, 10.929 + 3.566) SNPs de aminoácidos previamente identificados, 621 foram encontrados em bancos de dados fornecendo associações de doenças ou outras informações fenotípicas. Alguns destes estão facilmente relacionados com o estilo de vida dos bosquímanos, como a falta do alelo de persistência da lactase derivado da Europa (uma variante promotora funcional do gene LCT) e do alelo SLC24A5 associado à pele de cor clara. Em outros casos, a concordância com a sequência de referência humana é informativa, como a falta do alelo de resistência à malária Duffy null (DARC), específico de África17. A falta de alelos de resistência à malária nas populações bosquímanas pode ter consequências significativas sobre uma população já em declínio de forrageiros bem adaptados, quando forçada a um estilo de vida agrícola que traga consigo um aumento da carga de agentes patogénicos17. Portanto, estes marcadores genéticos podem permitir o rastreamento da taxa de adaptação humana em ambientes em mudança18 (ver Informação Suplementar).

Embora vários SNPs observados nos bosquímanos tenham sido relacionados a fenótipos de outros grupos étnicos na literatura e bases de dados online, deve-se permanecer céptico quanto à validade de associações não testadas. Nas Informações Suplementares, ilustramos este ponto com a entrada rs1051339 do dbSNP para o gene LIPA, que é anotado em uma base de dados pública como associado à “síndrome de Wolman”, uma falha devastadora no metabolismo lipídico (Figura Suplementar 7).

Nós observamos SNPs relatados como associados à fisiologia melhorada (Tabela Suplementar 6). KB1, MD8, TK1 e ABT são homozigotos para um alelo de VDR associado a maior densidade mineral óssea; KB1 é homozigoto para um alelo de UGT1A3 associado a maior metabolismo de endo e xenobióticos; KB1, NB1 e ABT são homozigotos para um alelo de ACTN3 associado a maior rendimento em sprint e potência; KB1 é heterozigoto para um alelo do CLCNKB que codifica um canal de cloreto que tem uma maior capacidade de reabsorver iões cloreto do glomérulo renal – uma propriedade que provavelmente seria vantajosa no deserto. Outros SNPs interessantes incluem um que mantém a função do gene CYP2G (Suplemento Fig. 8a, b), e dois em posições no gene receptor do sabor TAS2R38 conferindo a capacidade de provar um composto amargo (feniltiocarbamida), que pode refletir uma necessidade nos caçadores-colectores de evitar plantas tóxicas (ver Informações Suplementares para discussão detalhada).

Os 13.146 novos SNPs de aminoácidos aqui relatados serão um rico recurso para trabalhos futuros, fornecendo muitos novos locais funcionais candidatos que não foram incluídos em estudos de associação de genoma inteiro até agora. Aproximadamente 25% destes SNPs deverão ter implicações funcionais através de um conjunto de métodos computacionais (ver Informações Suplementares). As categorias de Ontologia Genética que são proeminentemente representadas nos 6.623 genes com um ou mais novos SNP de Bushmen (ou seja, excluindo dos 7.720 genes com novos SNPs aqueles exclusivos do ABT) incluem muitas funções que são conhecidas por evoluir rapidamente em humanos, tais como resposta imune, reprodução e percepção sensorial (Tabela Suplementar 7). Veja a Informação Suplementar para descrições detalhadas das análises computacionais dos genes relacionados ao metabolismo lipídico e à percepção sensorial.

Como todos os participantes do nosso estudo são de idade avançada (∼80 anos) e aparentemente em boa saúde, as novas variantes de codificação descritas neste estudo podem ser correlacionadas ao estado de saúde e aos fenótipos ao longo de toda a vida humana. Os participantes do Bushmen atingiram a sua idade avançada apesar de viverem em condições difíceis devido à fome periódica e a doenças não tratadas. Como alguns dos alelos codificadores dos bosquímanos foram associados na literatura publicada com doenças, nossos resultados podem ajudar a reavaliar esses relatos anteriores, bem como ajudar a identificar potenciais incompatibilidades farmacogenéticas específicas da população de certos medicamentos que são globalmente prescritos.

Duplicações segmentais foram detectadas em 17.601 genes autossômicos distintos no genoma KB1 e números de cópias estimados de acordo com os procedimentos descritos anteriormente19 (Fig. 6a, b). Os números de cópias estimados a partir da profundidade de leitura são mais fiáveis para segmentos mais longos, pelo que visamos especificamente regiões maiores do que 20 kb. No total, detectamos 886 intervalos (cada >20 kb) de duplicação autossômica segmentar (93,5 Mb), o que inclui 100 intervalos (3,9 Mb) que não estão previstos para serem duplicados na amostra NA18507 (uma amostra HapMap de Yoruba, Nigéria)19. Usando o array-CGH, 58 desses intervalos (2.6 Mb) tinham aumentado o número de cópias em KB1 em relação a NA18507, o único outro genoma africano publicado. O conjunto de duplicações validadas inclui um intervalo de 140kb no cromossoma 10 abrangendo o gene CYP2E1, que codifica uma proteína de citocromo P450 que é induzida pelo etanol e metaboliza muitos substratos toxicológicos20 (Suplemento Fig. 6a).

Next, nós estimamos especificamente os números de cópias para todos os genes autossômicos RefSeq e projetamos um array personalizado de oligonucleotídeos visando genes onde KB1 e NA18507 são preditos a diferir por pelo menos uma cópia. Isto validou 193 genes como diferindo no número de cópias entre KB1 e NA18507 (53 onde NA18507 tem mais cópias e 140 onde KB1 tem mais cópias; Tabela suplementar 8). Para 26 destes genes, estima-se que KB1 tenha pelo menos duas cópias a mais do que em NA18507, Han YH chinês, e J. Watson descendente europeu. Este conjunto de genes inclui a amilase salivar (AMY1A, KB1 copy number estimate = 15; isto pode ser consistente com um estilo de vida forager21), as defensinas alfa (DEFA1, KB1 copy number estimate = 12.5) e γ-glutamiltransferase 1 (GGT1, KB1 copy number estimate = 13.2).

Sequenciação e genotipagem extensiva revelaram relações genéticas entre os nossos participantes e outros grupos humanos. Colocação de genomas mitocondriais completos (Tabela Suplementar 9), incluindo fêmeas adicionais Tuu (KB2) e Juu (NB8) na árvore materna de ref. 1 (Fig. 1a-c suplementar) posicionou os nossos participantes dentro do ramo basal L0 do clade. Surpreendentemente, o ABT foi colocado no clade L0d, uma linhagem mitocondrial específica do bosquímano. Identificamos 75 (de 1.220) SNPs de bosquímanos no cromossomo Y (Suplemento Fig. 9). Em contraste com os outros bosquímanos, o MD8 mostrou uma linhagem do cromossomo Y Bantu consistente com o ABT. Clade A (Tabela Suplementar 10), B (Tabela Suplementar 11) e E (Tabela Suplementar 12) Análise do marcador Y permitida para validação do haplogroup e classificação E1b1a8a da ABT (http://ycc.biosci.arizona.edu/)22.

Fizemos análise de componentes principais (PCA) usando o software EIGENSTRAT23 em 174.272 SNPs autossômicos comuns a todos os conjuntos de dados (gerados usando matrizes 1M ou 610K Illumina, ou Affymetrix SNP6.0). Os dados sobre 10 bosquímanos e 20 Xhosa24 foram projectados com 20 iorubás e 20 europeus a partir dos dados disponíveis (HapMap e Coriell), e 5 bosquímanos (SAN) a partir dos dados do Painel de Diversidade do Genoma Humano (HGDP). O PCA define os bosquímanos como distintos das populações do Níger-Congo e dos europeus (Fig. 4a). Dentro de África a análise separa os bosquímanos das populações divergentes da África ocidental e austral (Fig. 4b), enquanto que a ABT se enquadra claramente no grupo dos bosquímanos do sul. A relação variável entre os Xhosa e os Yorubás pode sugerir uma mistura passada e/ou diversidade histórica dentro desta população amplamente definida24. Dentro do grupo dos bosquímanos, prevemos que o Ju/’hoansi e o HGDP San são essencialmente a mesma população. A divergência de KB1 e MD8 pode ser explicada pela recente mistura Bantu (assumida para MD8) ou por sub-populações únicas com uma pequena percentagem de mistura Bantu antiga. Embora limitado pelo tamanho da amostra, um teste de quatro populações17 sugere uma mistura fraca e/ou inconclusiva em KB1 e nos nossos participantes Ju/’hoansi. Um teste diferente (ver Tabela Complementar 14) mostra o fluxo gênico entre ancestrais do KB1 e do ABT, confirmando os resultados mitocondriais, mas sem determinar a direção do fluxo. Em contraste com KB1, NB1 e TK1, o fluxo gênico entre os bosquímanos e os bantu da África Austral poderia ser confirmado através das mitocôndrias do tipo L0 da ABT e dos marcadores cromossômicos Y específicos dos bantu no MD8. Se as migrações subjacentes a estas instâncias seguiram um padrão geral de patri- ou matrilocalidade25 terá que aguardar uma análise detalhada da estrutura da população baseada em matrizes de novos conteúdos que incluem os 1,3 milhões de novos marcadores genéticos deste estudo.

Figure 4: Threee-way population structure based on 174,272 autosomal SNPs using PCA.
figure4

a, b, O PCA dos europeus, africanos (Níger-Congo) e bosquímanos (a) e apenas das populações africanas (b) distingue os bosquímanos dos Yorubans e Bantus. A fração da variância explicada em a é 0,09 para o setor próprio 1 e 0,04 para o setor próprio 2, enquanto no PCA b é 0,06 e 0,02, respectivamente, com um valor Tracy-Widom P<10-12. ABT, sequenciado Bantu; CEU, European HapMap; JHO, Juu speakers (incluindo NB1 e TK1); MD8, sequenciado !Kung; NOH, Tuu speakers (incluindo KB1); SAE, South African European; SAN, HGDP San; XHO, South African Xhosa; YRI, Yoruba HapMap.

PowerPoint slide

Como os caçadores-colectores de bosquímanos nunca adoptaram práticas agrícolas ao longo da sua história cultural26, as variantes da sequência encontradas nos seus genomas podem reflectir uma adaptação antiga a um estilo de vida forrageiro. No caso dos bosquímanos do Kalahari, a adaptação à vida em climas áridos também deve ter ocorrido, pois vários traços fenotípicos têm sido notados que estão ausentes em outros grupos humanos, como a capacidade de armazenar água e metabólitos lipídicos nos tecidos do corpo26. Essas diferenças fisiológicas e genéticas podem orientar futuros estudos sobre a muito debatida questão de se a substituição da população, ao invés do intercâmbio cultural, tem impulsionado a expansão da agricultura nas regiões do sul da África27, como foi observado para as populações do final da Idade da Pedra na Europa28,29,

Deixe uma resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *