Menú Cerrar

Genomas completos khoisan y bantú del sur de África

Cuatro indígenas cazadores-recolectores namibios !Gubi, G/aq’o, D#kgao y !Aî (denominados aquí KB1, NB1, TK1 y MD8, respectivamente), cada uno de ellos el miembro más anciano de su comunidad, fueron elegidos para la secuenciación del genoma en función de su grupo lingüístico, ubicación geográfica y representación del haplogrupo del cromosoma Y (Fig. 1 y Tabla Suplementaria 1). El individuo bantú es el arzobispo Desmond Tutu (ABT), que representa a los hablantes de Sotho-Tswana y Nguni (de las lenguas amplias del Níger-Congo), los dos mayores grupos bantúes del sur de África.

Figura 1: Mapa del sur de África.
figura1
La figura muestra la agrupación étnica y las localidades de los participantes en el estudio, KB1, NB1, TK1, MD8 y ABT (a-e, respectivamente), las zonas de clima árido y desértico y la distribución geográfica de las lenguas khoisan y níger-congo30. Las lenguas khoisan se caracterizan por sus chasquidos, que denotan consonantes adicionales. El ! es un clic palatal; / es un clic dental; y # es un clic alveolar26. Nótese que el haplogrupo del cromosoma Y ABT se determinó utilizando tanto los datos de genotipificación como de secuenciación generados por este estudio.

Diapositiva de PowerPoint

Como se esperaba que los genomas de nuestros participantes en el estudio divergieran más del genoma de referencia humano que los genomas yorubanos, europeos y asiáticos accesibles al público4,5,6,7,8, nos propusimos generar una secuencia genómica que proporcionara suficiente calidad tanto para el mapeo contra la referencia humana como para el montaje de novo. Por lo tanto, el genoma de KB1 se secuenció con una cobertura de 10,2 veces utilizando la plataforma Roche/454 GS FLX con química Titanium, dando una longitud de lectura media de 350 pares de bases (pb). Para abordar aspectos de la estructura del genoma, se secuenciaron bibliotecas adicionales de inserción larga para KB1 utilizando la tecnología Roche/454 Titanium paired-end, con tamaños de inserción de hasta 17 kilobases (kb) y una cobertura de clones no redundante de 12,3 veces. El genoma de NB1 se secuenció utilizando la misma plataforma con una cobertura doble. El genoma de ABT se secuenció con una cobertura de más de 30 veces utilizando la tecnología de lectura corta de Applied Biosystems, SOLiD 3.0. Además, los genomas de los cinco participantes en el estudio se secuenciaron con una cobertura de al menos 16 veces en las regiones codificadoras de proteínas (exomas) que se enriquecieron mediante la captura de secuencias de Nimblegen (matriz de 2,1 M) y posteriormente se secuenciaron en la plataforma Titanium de Roche/454 (1,5-1,9 gigabases (Gb) de secuencia por individuo). La Tabla Suplementaria 2 informa del volumen de datos obtenidos, mientras que la Tabla Suplementaria 3 ofrece las estadísticas del exoma.

Los datos de la secuencia fueron validados por una variedad de técnicas, incluyendo la comparación de las secuencias del genoma completo y del exoma, la secuenciación del genoma completo por otra plataforma (Illumina, 23.2 veces para KB1 y 7,2 veces para ABT), genotipado de alta densidad (Illumina 1 millón de SNPs), comparación de la información de profundidad de lectura con los datos de hibridación genómica comparativa, así como validación de variantes seleccionadas mediante discriminación alélica TaqMan y/o secuenciación Sanger. Estimamos que la tasa de falsos positivos de nuestras llamadas finales de polimorfismo de un solo nucleótido (SNP) para KB1 es de 0,0009, y la tasa de falsos negativos es de 0,09 (véase la información suplementaria para más detalles).

Creamos un ensamblaje de novo del genoma de KB1, utilizando el ensamblador Phusion9. Los contigs ensamblados tienen un total de 2,79 Gb, con un tamaño de contig N50 de 5,5 kb. El tamaño total del andamio, incluyendo los huecos estimados, es de 3,09 Gb, con un tamaño de andamio N50 de 156 kb. El andamio más grande ensamblado abarca 3,2 Mb. Con frecuencia, los datos de la secuencia Roche GS FLX dieron lugar a contigs y andamios que no se corresponden con el genoma humano de referencia. Muchos de estos andamios correspondían a huecos en el actual ensamblaje de referencia humano, incluyendo huecos de más de 200.000 pb de longitud (véase la información suplementaria).

Se identificaron diferencias de un solo nucleótido del ensamblaje del genoma de referencia humano (NCBI Build 36, también conocido como hg18) para los cinco genomas del sur de África y se compararon con los de ocho genomas personales disponibles4,5,6,7,8. En lo que sigue, el término «SNP» significa una diferencia de un solo nucleótido con respecto al ensamblaje de referencia humano, sin incluir inserciones/deleciones de una base, y sin restricciones en la frecuencia alélica en una población. Los SNP se llamaron utilizando el software Newbler (para Roche/454), Corona Lite (para SOLiD) y MAQ10 (para Illumina).

Consistente con la opinión de que los africanos del sur se encuentran entre las poblaciones humanas más divergentes, identificamos más SNP en KB1, y en menor medida en ABT, que los que se han reportado en otros genomas humanos individuales (Fig. 2 y Tabla 1), aunque una parte de la variación en los números de SNP puede provenir de las diferencias en la tecnología y los niveles de cobertura. El número de SNP que son nuevos (es decir, que no se han visto previamente en otros individuos) es mucho mayor en KB1 y ABT que en otros genomas completos individuales (Tabla 1). KB1 y ABT tienen cada uno aproximadamente 1 millón de SNPs que no se comparten entre sí ni con los genomas completos yorubanos, asiáticos o europeos publicados4,5,6,7,8 (Fig. 2). En las 117 megabases (Mb) de intervalos secuenciados que contienen exomas, la tasa media de diferencias de nucleótidos entre una pareja de bosquimanos fue de 1,2 por kilobase, en comparación con una media de 1,0 por kilobase de diferencia entre un individuo europeo y uno asiático. La mayor tasa de SNP en los bosquimanos se refleja en el desplazamiento de las líneas rojas y negras en la Fig. 3b. La diversidad autosómica de los participantes en el estudio se refleja en la diversidad de los genomas mitocondriales. Mientras que los europeos muestran una media de aproximadamente 20 diferencias respecto a la secuencia de referencia de Cambridge (CRS)11 , nuestros participantes del sur de África muestran hasta 100 SNPs mitocondriales respecto a la CRS (Tablas Suplementarias 4 y 5 y Figs. Suplementarias 1 y 2). Y lo que es más importante, a pesar de que todas las secuencias mitocondriales pertenecen al mismo haplogrupo L0, se observan hasta 84 diferencias entre los pares de genomas mitocondriales de los participantes (Tabla Suplementaria 4).

Figura 2: Relaciones triangulares entre SNPs.
figure2
Los SNPs de KB1 se comparan con los de los yorubanos NA19240 y ABT (panel izquierdo), y con un estadounidense de ascendencia europea (J. C. Venter) y un individuo chino (YH) (panel derecho). Los números se indican en miles. Se ignoraron las posiciones de las variantes que aparecen en los ocho genomas anteriores, lo que dio lugar a un número ligeramente menor de SNP totales (por ejemplo, 3.761.019 diferencias con respecto al ensamblaje de referencia para KB1, en comparación con 4.053.781 si se incluyen) y menos SNP en cada intersección de tres vías. Se encuentran relaciones similares cuando se examinan otros individuos de los grupos geográficos.

Diapositiva de PowerPoint

Tabla 1 Número de SNPs en el genoma y el exoma secuenciado-que contienen regiones
Figura 3: Variación de las densidades de SNP.
figure3

a, Un punto caliente de SNP para KB1 y J. Watson en el cromosoma 17; ambos individuos son heterocigotos para el haplotipo 17q21.3 H2. A ambos lados hay regiones repetitivas en las que no se pueden llamar SNPs (gris). Las tasas de SNP locales se dividen por la tasa de todo el autosoma del individuo, por lo que las tasas esperadas son de 1,0 (línea punteada horizontal). KB1 tiene un enriquecimiento de casi 2,5 veces de SNPs para 650.000 bases. b, Distribución de SNPs de genomas bosquimanos (línea roja) y no bosquimanos (línea negra), comparados con las posiciones de los nucleosomas (gráfico gris relleno), indicando la región libre de nucleosomas (NFR) y los nucleosomas -1 y +1. TSS, sitio de inicio de la transcripción.

Diapositiva de PowerPoint

Para determinar si los nuevos SNPs representan alelos ancestrales o surgieron desde que los bosquimanos se separaron de otras poblaciones, examinamos el nucleótido homólogo en el genoma del chimpancé. Los SNPs que coinciden con el genoma del chimpancé indican que la diferencia es ancestral, mientras que las diferencias con el chimpancé indican un alelo derivado. De los 743.714 nuevos SNPs en KB1, el genoma humano de referencia coincide con el genoma del chimpancé en el 87% de ellos, mientras que el genoma de KB1 sólo coincide con el del chimpancé en el 6%. Para el 7% restante, el nucleótido del chimpancé no pudo determinarse (6%) o difirió tanto del bosquimano como de la referencia (1%). Estas fracciones no cambian esencialmente si tenemos en cuenta las 3.600 llamadas de SNP falsas positivas estimadas (es decir, 0,0009 de 4 millones), que se puede suponer que aparecen como variantes nuevas. Por lo tanto, muy pocas de las diferencias novedosas en el genoma de KB1 son nucleótidos ancestrales retenidos en los bosquimanos; en cambio, la gran mayoría son cambios que se acumularon desde que el linaje de los bosquimanos divergió de otras poblaciones humanas.

El gran número de SNP novedosos plantea preocupaciones con respecto a la capacidad de las matrices de genotipado actuales para capturar efectivamente la verdadera extensión de la diversidad genética y la estructura de haplotipos representada en el sur de África. Al evaluar el porcentaje de heterocigosidad para 1.105.569 SNPs autosómicos utilizando las actuales matrices de Illumina, nos sorprendió encontrar una menor heterocigosidad en KB1 en comparación con un control europeo emparejado por regiones (Datos Suplementarios y Fig. Suplementaria 3a, b), porque es bien sabido que la diversidad genética es mayor en África. Sin embargo, el análisis de los datos de secuenciación del genoma completo para KB1 y ABT reveló altos porcentajes de SNPs heterocigotos (59% y 60%, respectivamente), como se esperaba. Esta discrepancia subraya la insuficiencia de las actuales matrices de SNP para analizar las poblaciones del sur de África.

La densidad local de SNPs identificados en KB1 varía considerablemente a lo largo del genoma (Fig. Suplementaria 4), y esta variación en la densidad también se observa en otros genomas individuales (datos no mostrados). Algunos de los puntos calientes son comunes a todos los individuos examinados, mientras que otros muestran sorprendentes diferencias locales entre los individuos, como el punto caliente de KB1 estadísticamente significativo (P < 10-5; véase la información suplementaria) mostrado en la Fig. 3a. Esta región corresponde a la inversión 17q21.312, que contiene varios genes, incluidos los que codifican CRHR1 (un receptor de la hormona liberadora de corticotropina) y MAPT (proteína tau asociada a microtúbulos). El análisis de las variantes de la secuencia de diagnóstico, así como la tipificación directa de un indel de 238 pb13 (Fig. 5 suplementaria), confirman que KB1 es heterocigoto para el haplotipo 17q21.3 H2, un hallazgo sorprendente porque el alelo H2 se encuentra en bajas frecuencias en poblaciones no europeas12. La profundidad de lectura y el array-CGH indican que el alelo H2 de KB1 no contiene la duplicación de 75 kb presente en todos los alelos H2 europeos analizados14,15,16 (Fig. suplementaria 6a, b). El haplotipo H2 de KB1 puede representar la secuencia y la estructura ancestrales del haplotipo H2 que estaba presente en las poblaciones africanas antes de que aumentara su frecuencia en las poblaciones europeas y de Oriente Medio12.

También observamos una tendencia en todo el genoma de niveles elevados de SNP en las regiones promotoras (Fig. 3b). Los elementos reguladores de los promotores tienden a enriquecerse cerca de los bordes de los nucleosomas, que es donde observamos los niveles máximos de SNP, particularmente en los genomas compuestos de los bosquimanos. Es posible que el aumento de la frecuencia de SNP en estas regiones genómicas pueda conducir a cambios fenotípicos en los seres humanos.

Identificamos 27.641 sustituciones de aminoácidos distintas entre nuestros cinco participantes, en comparación con la secuencia de referencia humana, muchas de las cuales ocurren en más de un individuo. De éstas, 10.929 aparecen en uno o más de los genomas personales previamente secuenciados considerados aquí, otras 3.566 se encuentran en bases de datos públicas (véase la información suplementaria) y las 13.146 restantes son nuevas y están distribuidas entre 7.720 genes distintos. La siguiente discusión de los fenotipos putativos para los genotipos encontrados en los bosquimanos pretende ilustrar cómo la presencia de SNPs observados y su asociación previa con los fenotipos puede conducir a hipótesis comprobables. Estas son sólo candidatas a las funciones sugeridas, y deben realizarse pruebas experimentales para investigarlas más a fondo.

De los 14.495 (es decir, 10.929 + 3.566) SNPs de aminoácidos previamente identificados, 621 se encontraron en bases de datos que proporcionan asociaciones de enfermedades u otra información fenotípica. Algunos de ellos se relacionan fácilmente con el estilo de vida de los bosquimanos, como la falta del alelo de persistencia de la lactasa de origen europeo (una variante funcional del promotor en el gen LCT) y del alelo SLC24A5 asociado a la piel clara. En otros casos, la concordancia con la secuencia de referencia humana es informativa, como la falta del alelo de resistencia a la malaria Duffy null (DARC) específico de África17. La falta de alelos de resistencia a la malaria en las poblaciones de bosquimanos podría tener consecuencias importantes en una población de forrajeadores bien adaptados, ya de por sí menguante, al verse obligada a adoptar un estilo de vida agrícola que conlleva una mayor carga de patógenos17. Por lo tanto, estos marcadores genéticos pueden permitir el rastreo de la tasa de adaptación humana en ambientes cambiantes18 (ver Información Suplementaria).

Aunque un número de SNPs observados en los bosquimanos han sido relacionados con fenotipos en otros grupos étnicos en la literatura y bases de datos en línea, uno debe permanecer escéptico sobre la validez de las asociaciones no probadas. En la Información Suplementaria, ilustramos este punto con la entrada dbSNP rs1051339 para el gen LIPA, que está anotado en una base de datos pública como asociado con el «síndrome de Wolman», un fallo devastador en el metabolismo de los lípidos (Fig. Suplementaria 7).

Observamos SNPs de los que se ha informado que están asociados con una fisiología mejorada (Tabla Suplementaria 6). KB1, MD8, TK1 y ABT son homocigotos para un alelo de VDR asociado a una mayor densidad mineral ósea; KB1 es homocigoto para un alelo de UGT1A3 asociado a un mayor metabolismo de endo y xenobióticos; KB1, NB1 y ABT son homocigotos para un alelo de ACTN3 asociado a un mayor rendimiento de sprint y potencia; KB1 es heterocigoto para un alelo de CLCNKB que codifica un canal de cloruro que tiene una mayor capacidad para reabsorber iones de cloruro del glomérulo renal, una propiedad que probablemente sería ventajosa en el desierto. Otros SNP interesantes incluyen uno que conserva la función del gen CYP2G (Fig. suplementaria 8a, b), y dos en posiciones del gen del receptor del gusto TAS2R38 que confieren la capacidad de saborear un compuesto amargo (feniltiocarbamida), lo que puede reflejar una necesidad en los cazadores-recolectores de evitar las plantas tóxicas (véase la información suplementaria para una discusión detallada).

Los 13.146 nuevos SNPs de aminoácidos reportados aquí serán un rico recurso para el trabajo futuro, proporcionando muchos nuevos sitios funcionales candidatos que no han sido incluidos en los estudios de asociación del genoma completo hasta ahora. Aproximadamente el 25% de estos SNPs se predice que tienen implicaciones funcionales por un conjunto de métodos computacionales (ver Información Suplementaria). Las categorías de la Ontología Genética que están prominentemente representadas en los 6.623 genes con uno o más SNP novedosos de los bosquimanos (es decir, excluyendo de los 7.720 genes con SNPs novedosos los exclusivos del ABT) incluyen muchas funciones que se sabe que evolucionan rápidamente en los humanos, como la respuesta inmune, la reproducción y la percepción sensorial (Tabla Suplementaria 7). Véase la Información Suplementaria para las descripciones detalladas de los análisis computacionales de los genes relacionados con el metabolismo de los lípidos y la percepción sensorial.

Como todos los participantes de nuestro estudio son de edad avanzada (∼80 años) y aparentemente gozan de buena salud, las variantes de codificación novedosas descritas en este estudio pueden correlacionarse con el estado de salud y los fenotipos a lo largo de toda la vida humana. Los participantes bosquimanos han alcanzado su avanzada edad a pesar de vivir en duras condiciones debido a la hambruna periódica y a las enfermedades no tratadas. Como algunos de los alelos codificantes de los bosquimanos se han asociado en la literatura publicada con enfermedades, nuestros resultados pueden ayudar a reevaluar esos informes anteriores, así como ayudar a identificar posibles incompatibilidades farmacogenéticas específicas de la población de ciertos medicamentos que se prescriben a nivel mundial.

Se detectaron duplicaciones segmentarias en 17.601 genes autosómicos distintos en el genoma de KB1 y se estimaron los números de copias siguiendo los procedimientos descritos anteriormente19 (Fig. suplementaria 6a, b). Los números de copias estimados a partir de la profundidad de las lecturas son más fiables para los segmentos más largos, por lo que nos centramos específicamente en las regiones mayores de 20 kb. En total, detectamos 886 intervalos (cada uno >20 kb) de duplicación segmentaria autosómica (93,5 Mb), que incluye 100 intervalos (3,9 Mb) que no se predice que estén duplicados en la muestra NA18507 (una muestra HapMap de Yoruba, Nigeria)19. Utilizando array-CGH, 58 de estos intervalos (2,6 Mb) tenían un mayor número de copias en KB1 en relación con NA18507, el único otro genoma africano publicado. El conjunto de duplicaciones validadas incluye un intervalo de 140 kb en el cromosoma 10 que abarca el gen CYP2E1, que codifica una proteína del citocromo P450 que es inducida por el etanol y metaboliza muchos sustratos toxicológicos20 (Fig. Suplementaria 6a).

A continuación, estimamos específicamente los números de copias para todos los genes autosómicos RefSeq y diseñamos una matriz de oligonucleótidos personalizada dirigida a los genes en los que se predice que KB1 y NA18507 difieren en al menos una copia. Esto validó 193 genes como diferentes en número de copias entre KB1 y NA18507 (53 donde NA18507 tiene más copias y 140 donde KB1 tiene más copias; Tabla Suplementaria 8). Para 26 de estos genes, se estima que KB1 tiene al menos dos copias más que en NA18507, Han Chinese YH y J. Watson de ascendencia europea. Este conjunto de genes incluye la amilasa salival (AMY1A, estimación del número de copias de KB1 = 15; esto puede ser coherente con un estilo de vida forrajero21), las defensinas alfa (DEFA1, estimación del número de copias de KB1 = 12,5) y la γ-glutamiltransferasa 1 (GGT1, estimación del número de copias de KB1 = 13,2).

La secuenciación y el genotipado exhaustivo revelaron relaciones genéticas entre nuestros participantes y otros grupos humanos. La colocación de los genomas mitocondriales completos (Tabla Suplementaria 9), incluyendo las hembras adicionales Tuu (KB2) y Juu (NB8) en el árbol materno de la ref. 1 (Fig. Suplementaria 1a-c) situaron a nuestros participantes dentro de la rama basal del clado L0. Sorprendentemente, ABT se situó en el clado L0d, un linaje mitocondrial específico de los bosquimanos. Identificamos 75 (de 1.220) SNPs informativos de los bosquimanos en el cromosoma Y (Fig. 9 suplementaria). En contraste con los otros bosquimanos, MD8 mostró un linaje bantú del cromosoma Y consistente con el ABT. Los análisis de marcadores Y del clado A (Tabla Suplementaria 10), B (Tabla Suplementaria 11) y E (Tabla Suplementaria 12) permitieron la validación del haplogrupo y la clasificación E1b1a8a de ABT (http://ycc.biosci.arizona.edu/)22.

Realizamos un análisis de componentes principales (PCA) utilizando el software EIGENSTRAT23 en 174.272 SNPs de todo el autosoma comunes en los conjuntos de datos (generados utilizando 1M o 610K Illumina, o matrices Affymetrix SNP6.0). Los datos de 10 bosquimanos y 20 xhosa24 se proyectaron con 20 yorubas y 20 europeos de los datos disponibles (HapMap y Coriell), y 5 bosquimanos (SAN) de los datos del Panel de Diversidad del Genoma Humano (HGDP). El PCA de toda la población define a los bosquimanos como distintos de las poblaciones del Níger-Congo y de los europeos (Fig. 4a). El análisis intra-africano separa a los bosquimanos de las poblaciones divergentes de África occidental y meridional (Fig. 4b), mientras que el ABT se encuentra claramente dentro del grupo bantú meridional. El parentesco variable del Xhosa con el Yoruba puede sugerir una mezcla pasada y/o una diversidad histórica dentro de esta población ampliamente definida24. Dentro del grupo de los bosquimanos, predecimos que los Ju/’hoansi y los HGDP San son esencialmente la misma población. La divergencia de KB1 y MD8 puede explicarse por una mezcla bantú reciente (supuesta para MD8) o por subpoblaciones únicas con un pequeño porcentaje de mezcla bantú antigua. Aunque limitada por el tamaño de la muestra, una prueba de cuatro poblaciones17 sugiere una mezcla débil y/o no concluyente en KB1 y nuestros participantes Ju/’hoansi. Una prueba diferente (véase la Tabla Suplementaria 14) muestra un flujo genético entre los ancestros de KB1 y ABT, confirmando los resultados mitocondriales, pero sin determinar la dirección del flujo. A diferencia de KB1, NB1 y TK1, el flujo genético entre los bosquimanos y los bantúes del sur de África pudo confirmarse a través de las mitocondrias de tipo L0 de ABT y los marcadores cromosómicos Y específicos de los bantúes en MD8. Para saber si las migraciones subyacentes a estos casos siguieron un patrón general de patri- o matrilocalidad25 habrá que esperar a un análisis detallado de la estructura de la población basado en matrices de contenido novedoso que incluyan los 1,3 millones de nuevos marcadores genéticos de este estudio.

Figura 4: Estructura de la población tripartita basada en 174.272 SNPs autosómicos utilizando PCA.
figure4

a, b, El PCA de europeos, africanos (Níger-Congo) y bosquimanos (a) y poblaciones africanas solamente (b) distingue a los bosquimanos de los yorubanos y bantúes. La fracción de la varianza explicada en a es de 0,09 para el vector propio 1 y de 0,04 para el vector propio 2, mientras que en el PCA b es de 0,06 y 0,02, respectivamente, con un valor P de Tracy-Widom <10-12. ABT, Bantú secuenciado; CEU, HapMap europeo; JHO, hablantes de Juu (incluyendo NB1 y TK1); MD8, !Kung secuenciado; NOH, hablantes de Tuu (incluyendo KB1); SAE, Europeo sudafricano; SAN, HGDP San; XHO, Xhosa sudafricano; YRI, HapMap yoruba.

Diapositiva de PowerPoint

Como los cazadores-recolectores bosquimanos nunca han adoptado prácticas agrícolas a lo largo de su historia cultural26, las variantes de secuencia encontradas en sus genomas pueden reflejar una antigua adaptación a un estilo de vida forrajero. En el caso de los bosquimanos del Kalahari, también debió producirse una adaptación a la vida en climas áridos, ya que se han observado varios rasgos fenotípicos ausentes en otros grupos humanos, como la capacidad de almacenar agua y metabolitos lipídicos en los tejidos corporales26. Estas diferencias fisiológicas y genéticas pueden orientar futuros estudios sobre la tan debatida cuestión de si la sustitución de poblaciones, y no el intercambio cultural, ha impulsado la expansión de la agricultura en las regiones del sur de África27, como se observó en las poblaciones de finales de la Edad de Piedra en Europa28,29.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *