人种吧 关注:102,300贴子:2,832,895

现代西欧亚人群的终极祖源——高加索古人

取消只看楼主收藏回复

要想探讨现代西欧亚人群的遗传变迁,是绕不开距今大约2万6千年前的高加索古人的,目前有三篇论文对高加索古人进行了遗传特性分析,分别是:
1. 《Paleolithic DNA from the Caucasus reveals core of West Eurasian ancestry》中的两例距今大约2万6千年前的样本(母系分别为U6和N(未细化)),取自格鲁吉亚的Dzudzuana洞。
2. 《Genome-scale sequencing and analysis of human, wolf and bison DNA from 25,000 year-old sediment》中的一例距今大约2万5千年前的样本(母系为N(未细化)),取自格鲁吉亚的Satsurblia洞。
3. 《Population Genomics of Stone Age Eurasia》中的一例距今大约2万6千年前的样本(母系为U4'9),取自格鲁吉亚的Kotias Klde洞。
这三者可以说都属于一个聚类,与安纳托尼亚农夫最为亲缘,并与西欧狩猎采集者享有较多遗传相似性。
基于古今西欧亚人群的qpAdm结果显示,高加索古人Dzudzuana是现代西欧亚人群的核心成分,是最大的单一祖源:


IP属地:美国1楼2022-08-29 00:31回复
    剑龙98、AmiableBobhy、ppgundam金牛. . . 被楼主禁言,将不能再进行回复
    Dzudzuana与安纳托尼亚农夫最为接近,其大部分祖源(西欧亚部分)与WHG(西欧狩猎采集者)存在深度联系,但另一部分来源于Basal Eurasian(基底欧亚人)。在这之后,ane成分对高加索地区和伊朗地区的流入与古北非成分对黎凡特地区的流入是西亚遗传结构的主要变化。下图为基于qpGraph构建的西欧亚人群的常染图:


    IP属地:美国2楼2022-08-29 01:09
    收起回复
      大致梳理一下欧洲石器时代西欧亚人群变迁史:
      大约3万6千年前第一批西欧亚人群进入欧洲,如奥瑞纳(Aurignacian)文化,代表常染聚类是GoyetQ116-1(相比其他西欧亚古人,其与早期东欧亚如田园洞享有更多遗传相似性),3万年前欧洲进入格拉维特(Gravettian)文化,代表常染聚类是Věstonice,再然后2万年前欧洲进入马格德林(Magdalenian)文化,代表常染聚类是El Mirón。到了1万四千年前,西欧狩猎采集者扩张至整个欧洲,代表常染聚类是Villabruna,直到8000年前新石器时代安纳托尼亚农夫进入欧洲。


      IP属地:美国4楼2022-08-29 02:04
      回复
        根据镇楼第一篇论文中的2-way mixture模型,Věstonice16相当于64.3%Sunghir3混合35.7%Villabruna(p-Value = 0.137),El Mirón相当于39.4%GoyetQ116-1混合60.6%Villabruna(p-Value = 0.167),文章指出这种类whg成分必然早在1万4千年前已经以一种相对未经混合的形式存在于某处。并且,安纳托尼亚农夫与whg的亲缘性不是欧洲向近东的迁徙所致,相反,在格拉维特和马格德林时期的欧洲古人身上的类whg成分早在2万6千年前已存在于高加索地区。


        IP属地:美国5楼2022-08-29 02:25
        回复
          主成分分析(principal component analysis, PCA)、聚类分析(比如基于admixture的分析)并不能提供混合是否存在的检验。比如, 与距离关联的分化(isolation by distance)可以产生在PCA上的梯度变异。基于admixture的结果也很难做出对群体历史的推算, 因为它们没有对特定的群体历史模型进行检验, 而是简单地假定抽样群体都是从某特定群体快速辐射分化而来。
          而f-statistics(包括f3,f4)可以清晰验证是否发生混合。f3(三群体检验)基于对群体间等位基因频率关联性进行评估, 可以对群体间即便是非常近期发生的混合事件给出清晰的验证。F4-ratio检验可以用来推断混合造成的遗传重组的比例, 即使在不知道祖先群体的情况下, 也可以依据对系统发育关系的假定进行推断。f4(四群体检验)不但可以对混合是否存在给出证据, 还可以提供基因流的方向。这些四群体检验也同样被广泛用于检测现代人类基因组中的古人类成分和相关的历史过程。


          IP属地:美国11楼2022-08-30 19:24
          回复
            ADMIXTOOLS是由David Reich和Nick Patterson等人联合开发的软件包,是目前群体遗传学的核心分析工具之一,其所提供的所有程序全部基于f-statistics,包括f2,f3,f4,D统计量,f4-ratio,qpWave,qpAdm和qpGraph等。ADMIXTOOLS软件包有多个版本,其中admixtools包还提供Fst(群体分化系数)的计算。其中f2衡量的是两个群体间所不同的漂变(genetic drift),所有的多群体检验(比如f3,f4)均可由f2计算得出,该包正是先计算f2并保存f2数据再进行其他多群体检验计算的,并且这个过程会一并计算Fst。


            IP属地:美国14楼2022-08-30 20:20
            回复
              这里有必要说下D统计和f4的区别。
              ABBA-BABA 统计(也称为D统计)为偏离严格的分叉进化历史提供了简单而有力的统计测试,因此经常被用于研究SNP基因组层面的基因渗入。
              D 统计的示意图如下,它需要来自三个群体(P1, P2和P3)和一个外群(O)的数据。外群用于推断遗传变异的祖先状态A。遗传变异的衍生状态B可能在种群P1, P2和P3之间分离,从而导致三种分布BBAA,ABBA和BABA。

              在三种分布中,分布1(BBAA)最常见,因为种群P1和P2是共享最近共同祖先的姐妹种群。
              D统计定义为ABBA位点和BABA位点的数量差与两种类型位点的总和的比值:

              在没有基因渗入的情况下,由于存在不完全谱系分选(基因树与物种谱系树或种群树不一致的现象),分布2(ABBA)和分布3(BABA)占比应该相似,D统计约为0。基因流动将使D统计偏离0,D统计在P2和P3之间进行基因交流的极端情况下为1,在P1和P3之间发生基因交流的极端情况下为-1,从而提供基因渗入的证据。
              D统计实际上是f4的一种特化形式,二者在衡量基因渗入及方向的作用上是等价的,所不同的是f4的计算结果是绝对的漂变差异,即系统发育树中的分支长度,因此f4和其他多群体检验在系统发育树的构建上发挥着重要作用。
              下为f4的计算方式:

              D统计可以用f4计算,其中H(A, B, C, D)为标准化因子:



              IP属地:美国15楼2022-08-31 21:03
              回复
                qpWave是基于f4矩阵构建的用于分析群体间迁徙次数的工具,其假定两个样本群,左群和右群,并固定左群和右群中各一个样本。那么f4(L1, Li; R1, Rj)可以衡量左群和右群之间共享的漂变,倘若左群之间构成姐妹群,右群之间构成姐妹群,那么所有的f4应当为0,f4矩阵的秩代表左群和右群之间最少的基因渗透次数。
                qpAdm是qpWave的特化版,如果左群加入测试群体T后,矩阵的秩并没有比未加入T时的大,说明T可以由左群中的人群拟构。反之说明T和右群之间存在左群中所没有的基因流动,T不能单纯由左群拟构。
                qpAdm有两个输出,一个是p-Value,用来判断T和右群之间是否存在基因流动,一个是构成比例,是在前者结果否定T和右群之间存在基因流动的情况下,用左群中的人群拟构T的构成比例。


                IP属地:美国17楼2022-09-01 00:29
                回复
                  qpGraph的用途是通过在系统发育树中不断添加人群和检验混合事件来重建不同人群之间的基因联系(admixture graph)。admixture graph的实线代表分化分支,其上数字代表分支长度,代表漂变程度,虚线代表混合分支,其上数字代表混合比例。admixture graph是无根树,但通常选择一个外群作为根部节点,但是结果并不依赖根部节点的位置。
                  方法就是不断往图中不同节点添加人群,并先假定其是未经混合的,如果不同节点的添加都会导致残留基误差过大,说明存在混合事件,因此需要寻找通过不同祖源构建的最佳拟构节点。每添加一个节点,图的拓扑结构都会改变,都要重新走一遍刚才的流程。


                  IP属地:美国18楼2022-09-01 14:06
                  回复
                    45000年前的西伯利亚古人Ust'-Ishim(父系K2a*,母系R*)非常接近西欧亚与东欧亚分化的节点,简单来说f4(早期西欧亚, 早期东欧亚; Ust_Ishim, 外群)的|Z| < 3,不显著,但早期西欧亚(如Sunghir, Kostenki-14)存在早期东欧亚所没有的遗传漂变(genetic drift),并且这些漂变在后期西欧亚(如whg,中东农夫,现代欧洲人)人群身上都能不同程度检测到,而早期东欧亚(如田园洞)具有早期西欧亚所没有的遗传漂变,并且这些漂变在后期东欧亚(如onge,现代东亚人)人群身上都能不同程度检测到,因此二者产生了分化。


                    IP属地:美国19楼2022-09-01 14:54
                    回复
                      这里有必要介绍一下遗传混合事件的检验与Basal Eurasian(基底欧亚人)成分的由来。
                      首先,f4(中东农夫, 东欧亚; whg, 外群)的Z > 3,显著,说明中东农夫与早期西欧亚如whg享有更多遗传漂变,这是在东欧亚人群上看不到的,其次,f4(中东农夫, 早期西欧亚/早期东欧亚; Ust_Ishim, 外群)的Z < -3,显著,说明中东农夫相比早期西欧亚早期东欧亚与Ust_Ishim享有更少漂变。
                      下图就是系统发育树简单模型(来源:《Genomic insights into the origin of farming in the ancient Near East》),简单来说早期西欧亚早期东欧亚同源于某个节点,而Ust_Ishim非常接近这个节点,现在f4的Z结果显著,说明中东农夫丢失了一部分下图中早期西欧亚早期东欧亚Ust_Ishim共享的一段遗传漂变z,这是因为混入更早分流的人群的结果。

                      但f(中东农夫, 其他欧亚人群; 撒哈拉以南, 外群)的|Z|不显著,说明这个成分没有与撒哈拉以南享有更多遗传漂变,是一种相对比Ust_Ishim分离更早的欧亚人群,因此得名基底欧亚人,因为其信号普遍存在,但没有绝对逼近这个成分的标杆,以至于其被称为ghost population(幽灵人群),但基于f-statistics的检验是决定性的,并且qpAdm,qpGraph,MixMapper和TreeMix等分析工具均验证了这种成分的存在。如下图中是用qpGraph重建admixture graph(来源:《Ancient human genomes suggest three ancestral populations for present-day Europeans》),当加入基底欧亚人后,模型可以通过所有f-statistics的检验。


                      IP属地:美国20楼2022-09-01 15:39
                      收起回复
                        另外,值得注意的是,基底欧亚成分恐怕并非同质的某一个确定人群,它是所有符合比Ust_Ishim分流更早,比撒哈拉以南分流更晚的成分的统称,经过f4-ratio计算其比例的结果是所有符合条件的该成分的总和。
                        基底欧亚人的背景可能有两种:
                        第一种,出非洲智人至少有两批,其中一批是早期西欧亚早期东欧亚人群的祖先,途经黎凡特地区经由安纳托尼亚或者高加索地区进入欧洲,另一批可能是通过其他路线进入中东,并在西亚其他地区滞留。
                        第二种,出非洲智人是一个大部队,早期西欧亚早期东欧亚的先祖是其中的一支,在进入西亚后分流迁徙至欧洲。由于时空关系的疏远,各自漂变,并快速扩张,把这些遗传特性扩散了出去,奠定了后来的西欧亚东欧亚人群的遗传特性。
                        实际上,Kostenki-14相比其他早期欧亚人群可以检测到基底欧亚信号,并且其y染c1b在早期西欧亚和后续西欧亚人群中几乎看不到,这可能反映了其和早期西欧亚东欧亚人群不是一起分化的。


                        IP属地:美国21楼2022-09-02 07:36
                        收起回复
                          基底欧亚人的滞留地可能是阿拉伯半岛东部和伊朗,也就是西南亚,尤其是波斯湾,波斯湾在更新世晚期和全新世早期曾经是盆地,地势低洼,河流汇聚,可能为早期人类提供适宜的生存环境。论文《New Light on Human Prehistory in the Arabo-Persian Gulf Oasis》认为史前波斯湾在早期人类的扩散中扮演了重要角色,下为波斯湾在更新世晚期和全新世早期的地形变化:

                          根据《Projecting ancient ancestry in modern-day Arabians and Iranians: a key role of the past exposed Arabo-Persian Gulf on human migrations》的qpAdm结果,阿拉伯半岛东部的基底欧亚人成分最高(45%左右),其次是阿拉伯半岛西部和伊朗(38%左右)。
                          根据《Genomic insights into the origin of farming in the ancient Near East》,伊朗中石器和伊朗新石器的基底欧亚人成分最高,在qpAdm的各种模型拟构中,都能得出60%甚至以上的比例。


                          IP属地:美国23楼2022-09-02 17:17
                          收起回复
                            这几组高加索古人目前只公布了母系,要推测高加索古人的父系构成的话,第一种可能是IJ*(不排除K1*,比如LT),因为高加索古人与格拉维特的Fst(群体分化系数)接近,而格拉维特文化正是I父系登场欧洲的时期,比如意大利31210-34580年前的古人父系为I,母系为U8c,捷克30350年前的古人父系I,母系U5。除此以外,高加索狩猎采集者的两个标杆:格鲁吉亚13300年前的Satsurblia洞古人父系J1,母系K3;格鲁吉亚9700年前的Kotias Klde洞古人父系J2,母系H13c,伊朗中石器:伊朗9480年前的Hotu洞古人父系J2a。说明高加索古人向西向北扩张代表着I父系人群,向东向南扩张代表着J父系人群。IJ父系古人都有明显的高加索古人遗传特性。
                            第二种可能是是C1a2(不排除其他一些C1下游,比如C1b),C1a2作为早期西欧亚人群父系,在时空上贯穿西欧亚的发展历程,尤其是欧洲地区。除此以外,15000年前的安纳托尼亚狩猎采集者已经与安纳托尼亚农夫的遗传结构没有明显差异,其父系C1a2,母系K2b。
                            我个人认为IJ*的可能性大一些,因为从遗传特性上来说,45000年前的西伯利亚古人Ust'-Ishim(父系K2a*,母系R*)已经非常接近西欧亚和东欧亚分化的节点,而父系IJ*和K*从父系IJK*的分化时间窗口在50000-45000年前,母系B,U,R0(HV的上游),JT从母系R的分化时间点也在50000年前左右。早期从安纳托尼亚和高加索地区进入欧洲的父系IJK*和母系R*可能是一伙人。


                            IP属地:美国26楼2022-09-03 21:36
                            回复
                              有能力威胁IJ的现代西欧亚奠基父系可能性的只有C1a2,R还是算了吧,ANE的西欧亚特性相当接近Sunghir和Kostenki-14,很可能是父系K2b或者P做了C1的上门女婿得来的。并且不应该区别对待早期RQ,因为这俩诞生的时候可能就是ANS-ANE谱系,不能因为R往西跑混了西欧亚,Q往东跑混了东欧亚就把这二者分割。


                              IP属地:美国28楼2022-09-19 06:16
                              回复