跳过主要内容

香蕉野生亲缘种的全基因组多态性揭示了高隐性物种多样性,穆萨itinerans,及其对中国亚热带地区保护的启示

抽象的

背景

物种划分是保护生物学中一项具有挑战性但又十分重要的工作。形态学上相似的物种有时即使经过经验丰富的分类学家的检验也难以识别。随着分子方法在物种划分方面的出现,这种隐藏的多样性受到了广泛的关注。除了DNA条形码方法外,基于多物种合并模型(MSC)的分析工具已被开发用于物种划分。Musa Itinerans.广泛分布于亚洲亚热带地区,至少有6个变种被记录在案。然而,进化上截然不同的谱系的数量仍然未知。

结果

使用五种种群的基因组重构数据(构成四种),我们检查了基因组的变异,发现了四种是进化的有效单位的品种。使用123单拷贝核基因的贝叶斯语文发育和辐射地理(BP&P)分析支持三种物种事件m . itinerans具有鲁棒后验物种形成概率的品种;然而,使用1201个非连锁单核苷酸多态性的基因组数据(BFD*)分析的物种贝叶斯因子界定为五种谱系模型提供了决定性的支持。当将分化时间估计与物种形成时间尺度进行协调时,改进的三谱系模型与BP&P模型一致,其中两个品种(m . itineransvar。itineransm . itineransvar。lechangensis),年龄分别为26.2和10.7年。相比之下,其他两个品种(m . itineransvar。m . itineransvar。guangdongensis)在人类世只偏离3.8基亚;这可能是遗传漂变的结果,而不是物种形成事件。

结论

我们的结果表明m . itinerans物种复杂的港口高隐秘物种多样性。我们建议m . itineransvar。itineransm . itineransvar。lechangensis升高到亚种身份,并且极其稀有的后一亚基被认为是保护的优先权。我们还建议最近分歧m . itineransvar。m . itineransvar。guangdongensis应该合并到亚种下吗m . itineransvar。对。最后,我们推测使用与BFD *的基因组双等异位SNP标记物更有效地推测最近分叉的谱系的物种划界可能比使用未链接的基因座和BP&P更有效。

背景

物种是生物多样性的基本单位,准确的物种划分对无偏性的生物多样性估计至关重要[1].虽然没有完美的物种概念,但人们普遍认为,物种应该被划为进化上不同的谱系,通常通过显著的形态、遗传或生态位分化来体现[23.].今天,绝大多数物种仍然仅根据形态差异来识别,许多基因不同但形态相似的物种仍然没有被发现。这些隐种占隐藏多样性的很大比例:一项估计表明,在1993年至2009年期间,408种新描述的哺乳动物物种中,约60%是隐种[4].隐种的存在既与生物体的内在特性有关,也与外部环境条件有关[13.],从而发现隐秘物种极具挑战性。

随着廉价和快速的DNA测序的出现,利用分子数据进行物种划分已变得活跃和富有成效[5].直到最近,利用分子数据鉴定隐种主要是基于估计单系互易或遗传距离。比较DNA条形码(例如K和加拿大皇家银行l植物中的基因和细胞色素氧化酶使用自动条码间隙发现(ABGD)程序是一种有效和流行的方法来识别隐种[678].然而,如果先前的参考库不可用或条形码缺口不清楚,这种依赖于分类群内部和之间的“条形码缺口”的方法就不可能实现。除了这些简单的成对距离阈值方法,基于多物种合并(MSC)的方法跟踪样本的系谱历史,追溯到共同的祖先,并使用贝叶斯和最大似然(ML)方法识别可能的进化独立谱系[9].考虑到基因树的不确定性,贝叶斯系统遗传学和系统地理学程序(BPP或BP&P)联合估计了不同物种划分模型和相关参数的后验概率分布,包括合并时间和种群大小[10111213].该计划已不断更新,已广泛用于各种分类群的物种划分研究,包括植物[14)、鸟类(15和昆虫[16].但是,它忽略了群体之间的持续基因流,并且容易陷入一个物种[17].与基因流的分歧在初期的形态中非常常见[1819,并使物种划分复杂化。尽管已经开发了一种考虑在灵活模型空间中基因流动的系统地理模型测试程序(即使用近似可能性的系统地理推断,PHRAPL) [20.21,作者自己也指出,PHRAPL在划分差异时间较长的物种或迁移率较低的物种时,可能没有BP&P那么有效。

到目前为止,使用贝叶斯或似然方法结合理论进行的物种划分研究通常仅限于使用由几十个位点组成的数据集[14].该数据量不足以检测一些浅发散的谱系[22].随着高通量测序成本的不断降低和计算能力的提高,基因组数据在物种划分研究中变得更加容易获得。限制性位点相关DNA测序(RADseq)方法[23例如,提供充足的随机单核苷酸多态性(SNP),并且已被用于在非模型生物中产生用于物种界的基因组数据集[2425].为了规避这种基因组化物种划分方法所固有的计算挑战,物种树通常是直接从双等位标记(如SNP或AFLP数据)推断出来的,而不是从基因树[26].例如,Bayes Factor Delimitation (*with genomic data) (BFD*)程序估计等位基因频率在祖先/后代节点之间变化的概率,同时得到物种树、物种分化时间和有效种群大小的后验分布[27].

Musa Itinerans.干酪(麝香科)是一种巨大的多年生单子叶草本植物,以其长根茎命名。它也是可食用香蕉祖先的野生近亲,m . acuminataM. Balbisiana.,分布于东南亚和中国亚热带地区。Musa Itinerans.在形态上是高度可变的,已提出多达六个品种,其中一些品种以前被认为是亚种[28].这些品种的分布在亚热带中国的季风气候中的一个大面积。由于它耐受霜冻和干旱[28],m . itinerans是属中的一种吗穆萨这是最有抵抗力的镰刀菌素萎蔫病,热带品种4 ' (尖孢镰刀菌f . sp。种族4,foco - tr4) [29].荒野m . acuminata物种对于拥有多元化的亚种来说,其中一些与早期的香蕉品种有关[30.];相比之下,许多香蕉品种表现出缺乏遗传多样性,主要是由于许多世代的克隆繁殖,这使得它们容易受到各种疾病的影响。因此,由于其与香蕉的密切关系及其对多种生物和非生物胁迫的耐受性,m . itinerans在香蕉育种中对重要农艺性状的改良具有很大的前景。帮助保护遗传资源m . itinerans,重要的是要确定在这种高度可变的物种复合物中存在的隐秘多样性。认识到隐秘物种的存在还提供了理解推动世族多样化的进化和生态过程的机会穆萨1].

m . itinerans物种复合体由6个形态上分化的品种和一个拟制的基因组组成Musa Itinerans.var。itinerans曾有报道[31在本研究中,我们在中国南方不同纬度取样4个品种,通过基因组重测序获得全基因组SNP数据。利用这些数据,我们试图回答以下具体问题:(1)这些变种是独立的进化谱系还是表型可塑性的产物?(2)在MSC物种划分框架下,这些谱系的真实分类学地位是什么?

结果

不同形态物种间全基因组多态性

排序的24m . itinerans来自5个种群的个体共产生了27.5亿个过滤的对端reads (249.7 Gb过滤碱基),这些短reads被映射到参考基因组中m . itineranshttp://banana-genome-hub.southgreen.fr/organism/Musa/Itinerans),平均唯一映射深度为15.5,覆盖率为86.9%,(附加文件1:表S1)。在SNP呼叫之后,336,835,601的9,402,402个SNP有效映射了网站通过过滤我们的标准。

利用7940,468个没有丢失基因型的SNP位点的数据,在fastSTRUCTURE程序中实现了一种变分贝叶斯推断方法[32的logistic先验估计,以估计来自不同地理种群的个体的最佳祖先组成。当K = 2, samples ofitineransvar。itinerans(缩写为“麻省理工学院的从HN种群中分离出其余的大陆种群(即YC、LC:m . itineransvar。guangdongensis”,Mgd”;CH:m . itineransvar。中国人,'妇幼保健”;和BX:m . itineransvar。lechangensis”,多层陶瓷”)。当K增加到3个,品种多层陶瓷(BX)聚集成一个独特的谱系。在K= 4、4个品种(麻省理工学院多层陶瓷妇幼保健,Mgd)是可以区别的。在K= 5,两个异地种群的Mgd进一步细分(图。1 c).主成分分析(PCA)显示了较强的种群结构(Tracy-Widom统计:P < 1 × 10–12),麻省理工学院与其他大陆品种分离的特征向量为第一,其次为多层陶瓷由第二个特征向量从其他品种聚类出来(图。1 d).根据fastSTRUCTURE给出的最优聚类,我们使用K= 4和使用两种常用统计方法估算的全基因组多样性,θπ33)和日本田岛D34].我们发现这两个分布较差的品种麻省理工学院(平均θπ= 4.6 × 10−3),多层陶瓷(平均θπ= 4.3 × 10−3)的变异明显少于其他品种(平均值θπ= 5.1 × 10−3和6.4×10−3妇幼保健Mgd分别P< 2.2 × 10−16,Mann Whitney U-Test;无花果。2额外的文件1:图S1和S2)。田岛的全基因组都是阳性的D的中位数D麻省理工学院= 0.69,Dmgd= 0.87,D妇幼保健 = 0.55,D多层陶瓷= 0.94,无花果。2和附加文件1:图S1和S2)表示m . itinerans可能在过去可能经历过人口缩小。

图。1
图1

抽样信息和人口结构。(一个)取样地点Musa Itinerans.本研究使用的品种:广东乐仓LC;CH、从化、广东;YC、广东;接下来,海南;的分布m . itinerans用绿色的圆圈勾勒;(b)的形态特征m . itinerans品种;(c)不同的成员群集图m . itinerans使用fastSTRUCTURE实现的全基因组单核苷酸多态性数据。(d4个地理种群的主成分分析m . itinerans基于相同的基因组数据集

图2
figure2

四个品种之间的基因组多样性穆萨itinerans。一个)平均成对核苷酸多样性的分布θπ,田岛的D,赖特的固定指数F和绝对的遗传分歧DXY.4个品种的重叠窗口大小为20 KB,步长为2 KB的1号染色体Musa Itinerans.;(b)总体θ的箱线图π,田岛的D,赖特的固定指数F和绝对的遗传分歧DXY.四种m . itinerans

全基因组群体分化的价值F35]的变化范围为0.14 ~ 0.41麻省理工学院与其他品种表现出较高的分化,这与全基因组的绝对遗传分化一致DXY.36)(意思是DXY.= 0.0008 - -0.0009;表格1).DXY.在不同品种对之间显示较低水平的变化(图。2额外的文件1:图S1和S2),因为它对物种内部目前的多态性水平不敏感,并反映自共同祖先以来的净差异[37].

的分析D-从全基因组数据集计算的统计数据显示,历史上的基因流动发生在不同品种之间2).低绝对值D在比较中被发现了MLC-MCH.D= 0.04)和Mlc-MitD=−0.08),这表明可能促进形成的基因流动不频繁多层陶瓷作为一种独特的谱系。相反,绝对更高D值(−0.15,−0.19)表明显著的基因流动发生在麻省理工学院妇幼保健发散后的品种。考虑到他们目前的各种分配,这种历史基因流可能发生在琼州海峡(约合10.3 kya)之前发生,其中来自大陆的海南岛[31].

贝叶斯物种界定

我们在K= 5, that is composed of麻省理工学院妇幼保健多层陶瓷,和两个异地种群Mgd.基于这种聚类模式,贝叶斯树种树估计得到97个不同的树种,其中排名前40的树种构成了一个95%可信度的树拓扑集。多数原则共识树几乎是星形的,表明这些品种是最近才分化的。我们使用最大后验概率为0.16的树(图。3),其中两个地理种群Mgd是单胞和最密切的品种妇幼保健,紧随其后的是MLC。使用这种五谱系的系统发育作为导向树,不同模型的后验概率和参数的后部分布τ年代θ年代使用rjMCMC算法对每个模型进行计算。五血统和四血统模型的后验概率分别为0.54和0.36。因此,最大后验概率(MAP)模型使用五血统模型作为导向树(图。3 b).然而,两个地理种群的节点的后验物种形成概率Mgd(YC,LC)为0.54,远低于保守阈值为0.95,显示出这种品种的分裂的弱点。节点的后部物质概率妇幼保健Mgd为0.90,略低于0.95的阈值,表明可以合理地块两种品种(妇幼保健Mgd)在一起。考虑到在我们的聚结分析中使用的大量基因座(123基因),这可能是我们研究中近期差异的指示,而不是我们研究中检测到的变异不足。另外两种品种麻省理工学院MLC,似乎是很好的解决谱系(即后物种形成概率为1.00麻省理工学院, 0.99多层陶瓷).总体而言,较高的后验物种形成概率支持四种物种之间的两个物种形成事件的三种划分情景。使用相同的先验θ~ G(2,1000)的种群大小和发散时间τ0~ G(1, 10000)的根来估计MAP树的多物种合并模型中的参数,即种群大小参数的后验均值θ年代变异范围为0.0013 ~ 0.0180,种群大小尺度分化时间为7.0 × 10−5(95%置信区间:5.0×10−5~ 9.0 × 10−5),其他节点在2.0 × 10之间−5和9.0×10−5

图3.
图3

物种界定为Musa Itinerans.基于123个单拷贝核位点,利用贝叶斯系统发育和系统地理学(BP&P)方法对不同品种进行了系统发育研究。(一个)树种树估计:前四种树种及其后验概率(总概率为0.5),所有种群的种群规模(Gamma先验θ ~ G(2,1000))和根龄(Gamma先验τ ~ G(2,2000))的发散时间。不同品种或地理种群的简称如下:麻省理工学院Musa Itinerans.var。itinerans多层陶瓷Musa Itinerans.var。lechangensis妇幼保健Musa Itinerans.var。Mgd1:Musa Itinerans.var。guangdongensis(人口阳春、广东);Mgd2:Musa Itinerans.var。guangdongensis广东乐昌(人口);(b)在导向树上的物种划界:分支上方和下方是后部的概率,每个节点都显示出口尺寸,发散时间的95%最高密度(HPD)在括号中,并且使用水平灰度突出显示。两个地理种群m . itineransvar。guangdongensis用弱后验概率集总,用高后验概率支持其他品种的分割

贝叶斯因子划界方法还对五个谱系模型进行了决定性的支持,其中BF值为81.4,远高于6的阈值,支持两个分类地理种群的假设Mgd显示出进化上的差异,因此在进化上是截然不同的谱系(表3.对1201个未连接的SNPs进行贝叶斯分析,得到了所有目前已识别的品种的树种树(图)。4,所有节点都有1.0的后验概率。估计物种树根的分歧年龄为0.00034(95%CI:0.00018〜0.00048)。使用一年的一代时间和基本替代率为1.30×10−8每年每地点的替代率[38,我们估计这种差异大约发生在26.2 kya (13.8 ~ 36.9 kya),即在晚更新世时期,剧烈的气候波动和相关的生境变化深刻地改变了热带边缘地区的物种形成率。海南全新世中期(7.0 ~ 10.5 kya)琼州海峡的最终形成[39可能进一步助长了两者之间的分歧麻省理工学院以及欧洲大陆的同行。的形成时间多层陶瓷也可追溯到全新世(多层陶瓷: 10.7 kya, 95% CI: 3.1 ~ 22.3 kya),是华南地区分布最北的品种。此外,它是最耐霜冻的品种,可能表现出一定的生态物种形成。的散度时间妇幼保健Mgd年龄为3.8 kya (95% CI: 1.5 ~ 9.2 kya)。最后,两个异地种群的差异Mgd(95% CI: 0.1 ~ 4.6 kya)。我们推测,这种最近的差异更有可能是人类世遗传漂变的结果,而不是物种形成的结果。通过把两个地理上的人口Mgd并将两种Mgd妇幼保健,无论是BP&P和BFD*方法都同意一个一致的物种界定方案的品种m . itinerans

图4.
装具

的贝叶斯因子物种划分Musa Itinerans.利用1201个非连锁位点的品种。(一个)由不同物种模型的最边际似然估计确定的五个类群物种树。贝叶斯后验概率、祖先种群大小、发散时间用两条斜线隔开;发散时间95%最高的后验密度(HPD)用水平灰色条突出显示;(b) DensiTree表示的是马尔可夫链蒙特卡罗方法的所有树,其老化量为5000棵树,较低的密度代表较高的不确定性水平

讨论

四个m . itinerans变种是进化上重要的单位

在这项研究中,基因组 - 范围的SNP数据用于揭示内部隐秘多样性m . itinerans种类复杂所有四个采样m . itinerans变种在遗传上是不同的,在进化上代表不同的谱系。本种是香蕉在亚热带地区分布最广泛的野生近缘种之一,种内遗传多样性大,在提高香蕉抗病能力方面具有潜在的应用价值[29].到目前为止,7-8个品种m . itinerans有明显的形态特征,已被分类学家记录[28404142].然而,目前尚不清楚其中有多少是基因上截然不同的谱系。“变种”在分类学上次于“亚种”[43,通常用于一个物种的范围内的种群表现出可识别的形态差异,通常是对环境波动的反应。另一方面,进化显著单位(evolutionary significant units, ESUs)是指不进行频繁的基因交换的群体,因此在核位点上应该表现出单系互惠和等位基因频率的显著差异[44].在保护生物学中,对esu的认识对于确定保护的优先次序和保护策略具有重要意义。

基于变分贝叶斯框架和主成分分析的遗传成分推断提供了强有力的证据,中国南方发现的四个品种是不同的进化谱系。4个品种表现出显著的遗传分化(F: 0.14 ~ 0.40), BP&P和BFD*物种划分分析进一步验证了这一点。BP&P分析支持三谱系模型(麻省理工学院多层陶瓷,妇幼保健+ Mgd1 +Mgd2),而BFD *分析支持五个谱系模型(麻省理工学院多层陶瓷妇幼保健Mgd1,Mgd2)。但是,BFD *分析还提供了估计的发散时间妇幼保健Mgd,以及在两个异域之间Mgd最近的种群,分别为3.8和3.1 kyr。这些分化时间超出了物种形成的合理时间尺度。考虑到这两种观察结果,我们提出了两个变种,麻省理工学院在海南和多层陶瓷在广东北部,被提升为亚种。根据Häkkinen的描述[28],麻省理工学院很容易从它的长匍匐根茎与其他品种区分,通常延伸到2米远的母株;除了其狭窄的分布,多层陶瓷假茎上也有钝的雌蕊和小的紫色斑点。因此,根茎和吸盘可以作为两个亚种的诊断特征。另外两个品种,妇幼保健MGD,应该合并并命名为亚种m . itinerans无性系种群。根据他们的出版日期。妇幼保健其吸盘较密,假茎上有大的红褐色斑点,与其他品种有显著差异。Mgd熟了的果皮从绿色到紫色就能辨认出来[28].这些特征可能只是由于单个亚种的形态可塑性,m . itineransssp.对。的亚种MLC,它是一种零星分布的物种,建议将其归类为“脆弱”(VU)物种进行保护。这一亚种已被观察到能够抵御霜冻损害[28],强调其作为一种重要遗传资源的保护重要性。多层陶瓷与…的祖先不同Mgd妇幼保健约10.7 kya (95% CI: 3.1 ~ 22.3)。这种差异之后出现了人口收缩(如田岛指数为正所示)D),表示多层陶瓷可能是过去更大人口的残余。

在浅种划界中取消链接双曲线SNP或多个未链接的基因座?

我们使用了基于MSC模型的两种分析工具来测试可能的物种定界方案m . itinerans.BP&P方法倾向于三世系模型,而BFD*方法最初支持五世系模型;主要的区别是BFD*方法最近发现了分歧Mgd妇幼保健品种作为截然不同的谱系。然而,在用品种的合理时间尺度调和发散时间估计,BFD *方法也支持三个谱系模型。不同方法的相对功率涉及许多因素,包括未链接的基因座或SNP的数量,个人的先前分配以及参数空间的先前设置。在这项研究中,在两种方法中使用相同的群集分配,并且根据相同的多态性估计进行了优化参数,将两个数据集中使用的标记数量作为两种方法不同的主要变量留下。已知BP&P方法是更保守的,并且在近期发散时,可能易于物种局限[15在这里观察到的情况妇幼保健Mgd品种。BP&P方法已被证明能够使用甚至一个位点来验证高分化物种之间的物种边界[45,这对于揭示低分辨率类群的隐物种多样性具有很大的优势。对于最近的物种形成事件,成百上千的可能会提高BP&P的能力,在计算资源可用的地方,但这种成本在非模式生物中不容易实现[22].在我们的研究中,使用1201个未连接snp的BFD*方法的性能与使用123个未连接位点的性能相当。由于使用RADseq获得这么多未连接snp的成本比在非模式生物中收集123个未连接位点的成本低,因此使用双等位标记和BFD*方法来划分最近分离谱系的物种可能是最有效的。随着成本的不断降低,利用RADseq对数千个位点进行基因分型可能有一天会成为一种常规做法,从而有助于发现最近物种形成事件后存在的隐藏物种。这种方法对于保护未被充分研究的CWRs也具有极其重要的意义。

人口结构还是esu ?

种群遗传结构沿着地理和/或环境障碍存在于所有类群中。物种划分中的一个难题是如何区分种群结构与不同谱系的真实物种形成事件[46].为了避免将结构种群误认为是独立的物种,外部信息(即先验假设或知识)对解释遗传数据至关重要,并为判断差异是否对应于不同物种而不是同一物种的不同种群提供了基础。在这项研究中,尽管多层陶瓷BX种群的多样性和Mgd结果表明,LC群体的变异是同域的,其分化程度远远高于两个异域群体的遗传分化程度Mgd人口。这结果 - 与距离模型隔离可能预期的相反 - 表明我们研究中观察到的遗传分歧是esus之间,而不是仅仅是距离分开的人群。除了明显的形态学差异外,栖息地偏好的两个品种差异显着不同(即,温暖和潮湿的寒冷和干微藻)[26].

结论

总的来说,属内植物的分类穆萨即使是熟练的分类家,甚至是难以提供的,新的分类群主要是基于形态特征的[404142474849].本研究证明了利用高通量测序数据结合形态特征、生物地理历史和生态分化等生物信息确定属内esu的可行性穆萨.目前公认的m . itineransvar。itineransm . itineransvar。lechangensis为了更好地管理和保护这些类群的遗传资源,应提高其亚种地位。利用分子方法对物种进行划分可以使分类学家免于纠缠于可能掩盖真实差异的细微特征差异。然而,利用分子方法进行物种划分应谨慎,并考虑形态特征、生物地理历史和生态分化等具有生物学意义的数据。在我们的BFD*分析中,估计的发散时间妇幼保健Mgd变种不是真正物种形成发生的合理时间尺度。

方法

原始读取的样本收集、重测序和过滤

根据我们研究开始时指定的品种方案[28],我们抽出了四种品种m . itinerans来自中国南方五个人口群体(图。1b、表4).新鲜的叶子在田间收获,然后用硅胶干燥。采用标准CTAB法提取总基因组DNA。根据制造商的建议,使用配对端样品准备试剂盒(Illumina, UK)为每个单独的植物准备一个插入大小为500 bp的文库,然后在HiSeq2000平台上对文库进行测序。使用NGSQCToolkit 2.3.3版本[50],用过量的(> 10%)'N或超过40%的碱基丢弃原料读数,据验证质量得分低于7。在Bioproject ID 312694下的NCBI序列读取存档中已存放原始数据,其中包含登录号SRR6382516〜SRR6382539。

表4本研究中使用的标本的样本位置信息
表1 4个品种间的平均全基因组遗传分化Musa Itinerans.var。itinerans麻省理工学院, m . itineransvar。guangdongensisMgd),m . itineransvar。妇幼保健),M. Itineran.var。lechangensis多层陶瓷)在华南。上述三角形值显示绝对遗传分歧和波纹管显示遗传分化指数F
表2缺血四种种群测试Musa Itinerans.
表3 BFD*的品种定界Musa Itinerans.

读取对齐、变体调用和变体过滤

为了便于计算或可视化基因组的多样性统计数据,我们固定并定向了组装的脚手架m . itinerans针对12个联动组m . acuminata基于它们之间共线性的基因组,和其余的支架或contigs被视为一组,并按大小排序。使用BWA-mem版本0.7.12将每个样本过滤的对端读取与更新的参考基因组进行比对[51]带默认选项的算法。SAM文件被转换为BAM格式,然后使用SAMTOOLS版本1.3.1进行排序和索引[52),。在调用变量之前,Picard (http://broadinstitute.github.io/picard.)与默认选项一起使用,用于标记PCR产生的重复读取。在去除mapQ评分低于30和长度小于30碱基对(bp)的读取后,使用Picard-tools使用样本信息对其余读取进行标头,并使用GATK 3.7.0版本中打包的IndelRealigner工具实现对IndelRealigner周围的局部重新排列[535455].经过每个过滤和对齐的文件,使用GATK中的单舱共光器函数进行变体呼叫,并且联合基因分型(通过组合SNP和INDEL VCFS的所有上述输出)在GATK中使用GenotyPegVCS来实现。最后,使用默认设置使用GATK中的VALINTFIRTRATION过滤关节变体。

种群结构与主成分分析

使用vcftools版本0.1.14 [56], 3个群体的12个连锁群之间的SNP变异用‘—maf 0.05’选项进行选择,并进一步进行ld修剪,以减少位点的连锁不平衡,使用PLINK version 1.0.9中的‘—indep-pairwise 50 5 0.2’选项[57].利用这个筛选过的基因SNP数据集,基于变分贝叶斯框架和python程序fastSTRUCTURE实现了这些品种种群结构的后验推断。Smartpca程序包在特征软版本6.1.3 [58]用于使用默认参数对同一组变量进行主成分分析。

核苷酸多样性和群体差异

滑动窗口方法(20 kb重叠窗口,2 kb步长)用于量化推断的遗传聚类之间的全基因组变异。我们计算了平均成对核苷酸多样性,θπ,日本田岛D,莱特的固定指数F,和绝对的遗传差异,DXY.,使用PopGenome 2.24版本[59或自定义Perl脚本。为了区分谱系分类和遗传渗入在当前分化模式中的相对作用,一个扩展D- 使用软件包Angsd-wrapper进行四人群体测试(abbababa2)[6061].z分数大于3表示拒绝种群间无显著基因渗入的零假设。

物种界定

根据Carstens等人的建议。[62.],两种不同的方法论方法用于检测各种脊髓谱系m . itinerans,即BP&P和贝叶斯因子定界方法与基因组数据(BFD*) [2627].在之前的研究中,我们鉴定了1201个单拷贝核基因m . itinerans及其他八种相关物种[29我们的分析使用了这些数据的不同子集。

BP&P3.3a程序是MSC模型的完全基于可能性的实现,它使用可逆跳跃马尔可夫链蒙特卡罗(rjMCMC)方法来评估竞争的定界模型[10].它根据引导物种树中节点的后概率和备选竞争界定模型对引导物种树中的节点进行折叠或分割[121762.].该方案由四个模块组成:模块A00中,生成物种分化时间的后验分布(τ年代)和人口大小(θ年代)的MSC模型,具有固定的物种系统发育;在模块A01中,种树的估计采用固定的赋值和种的划分;模块A10在一个引导树上实现了种的定界,模块A11将种的估计和种的定界结合起来。根据我们对核苷酸多样性θ的全基因组估计π绝对发散时间DXY.对于不同的m . itinerans在本研究中,种群规模小且伽玛先验θ~ G(2,1000),与τ0分配了物种树根的G(1,100,000),分配了用于其他发散时间参数的Dirichlet Priors。每次运行实施了总共2,000,000次迭代(4个),其中燃烧为1000个。在这项研究中,我们遵循多步骤分析。每一步都是用十个重复进行的,并在复制中评估收敛。此外,使用有效的样本大小(ESS≥200)评估模型参数估计的收敛性。由于数千个基因座的多种聚结模型提出的计算负担,因此仅随机选择123个基因座,用于BP&P分析。

The BFD* method was performed using SNAPP version 1.3.0[日志含义]2627].该程序对具有不同物种和个体分配的竞争模型的边际可能性进行估计,并通过贝叶斯因子对模型的拟合进行排序。该方法的两个基本假设是血统之间不存在基因流动,以及在合并模型中使用了多个非连锁位点。因此,我们排除了外加剂比例超过5%的样品;而对于1201个单拷贝位点,为了避免连锁不平衡,只使用了最大呼唤深度的位点。在我们的物种划分模型中,我们根据现有的品种分类和种群结构/聚类,对品种或地理种群进行集中或分裂。每个模型的边际似然估计是通过路径抽样,采用48步,每步具有不同的后验功率水平,alpha为0.3,MCMC链长度为100,000,预烧入为100,000 [26].

缩写

BFD

用基因组数据确定物种的贝叶斯因子

BP&P:

贝叶斯语文发育和邮局

置信区间:

置信区间

、因:

进化的重要单位

kya:

几千年前

地图:

最大后概率模型

硕士:

多品种联合模型

PHRAPL:

使用近似似然的系统地理推断

RADseq:

限制性位点相关DNA标记物测序

单核苷酸多态性:

单一核多态性

参考

  1. 1.

    Bickford D, Lohman DJ, Sodhi NS, Ng PKL, Meier R, Winker K,等。隐种作为多样性和保护的窗口。趋势生态演变。2007;22:148-55。

    文章PubMed谷歌学术

  2. 2.

    苏旭,吴刚,李磊,刘建军。青藏高原特有的禾林属植物的物种划分。安机器人。2015;116:35-48。

    中科院文章PubMedpmed中央谷歌学术

  3. 3.

    王志强,王志强,王志强,等。两种隐翅片足类动物在景观和局地尺度上的生境需求和生态位。生态球。2016;7:1-13。

    文章谷歌学术

  4. 4.

    Ceallos G,Ehrlich Pr,Cebados G,Ehrlich Pr。发现新的哺乳动物物种及其对保护和生态系统服务的影响。Proc Natl Acad Sci U S A. 2009; 106:3841-6。

    中科院文章PubMedpmed中央谷歌学术

  5. 5.

    Flot摩根富林明。物种划分的成熟。系统医学杂志。2015;64:897-9。

    文章谷歌学术

  6. 6.

    十种一体:DNA条形码揭示了新热带蝶的隐种Astraptes fulgerator.美国国家科学研究院2004;101:14812-7。

    中科院文章PubMedpmed中央谷歌学术

  7. 7。

    王志强,王志强,王志强,等。一种泛热带植物的植物条形码鉴定金合欢(MimoSoideae,Fabaceae)。Mol Ecol Resour。2009; 9:172-80。

    文章谷歌学术

  8. 8。

    等。印度蓟马的DNA条形码研究:隐种和种复合体。Sci众议员2017;7:4898。

    文章PubMedpmed中央谷歌学术

  9. 9。

    Fujita MK, Leaché AD, Burbrink FT, McGuire JA, Moritz C.整合分类学中基于聚结的物种划分。趋势生态演变。2012;27:480-8。

    文章PubMed谷歌学术

  10. 10.

    Yang Z,Rannala B. Bayesian物种使用多层序列数据的划界。Proc Natl Acad Sci U S A. 2010; 107:9264-9。

    中科院文章PubMedpmed中央谷歌学术

  11. 11.

    杨志强,杨志强。一种改进的贝叶斯物种划分算法。遗传学。2013;194:245-53。

    文章PubMedpmed中央谷歌学术

  12. 12.

    Yang Z,Rannala B.使用来自多个基因座的DNA序列数据的无导体物种界定。mol Biol Evol。2014; 31:3125-35。

    中科院文章PubMedpmed中央谷歌学术

  13. 13.

    rannala b,杨z.多种播放下的高效贝叶斯物种树推理。系统中的生物学。2017; 66:823-42。

    PubMed谷歌学术

  14. 14.

    公元前卡斯滕斯,JD萨特勒食肉植物被描述为Sarracenia alata.包含两种隐种。Biol J Linn Soc. 2013; 109:737-46。

    文章谷歌学术

  15. 15.

    吴勇,李华,特勇,西海美,等。以特征为基础和以合并为基础的方法对幼鸟复合体物种划分的经验比较。摩尔生态。2013;22:4943-57。

    文章PubMed谷歌学术

  16. 16.

    Lin YP, Edwards RD, Kondo T, Semple TL, Cook LG。具有经济重要性的无性昆虫的种类划分:黑色鳞片的例子(Parasaissetia黑质),是一种世界性的单性昆虫。《公共科学图书馆•综合》。2017;12:e0175889。

    文章PubMedpmed中央谷歌学术

  17. 17。

    杨志。种树估算与种界划定的BP&P程序。咕咕叫黑旋风。2015;61:854 - 65。

    文章谷歌学术

  18. 18。

    Pinho C,嘿J.与基因流的分歧:模型和数据。Annu Rev Ecol Evol Syst。2010; 41:215-30。

    文章谷歌学术

  19. 19。

    Martin SH, Dasmahapatra KK, Nadeau NJ, Slazar C, Walters JR, Simpson F, et al.;Heliconius和同域物种形成。基因组研究》2013;23:1817-28。

    中科院文章PubMedpmed中央谷歌学术

  20. 20。

    杰克逊ND,卡斯滕斯BC,莫拉莱斯AE,奥米拉BC。用基因流划分物种。系统医学杂志。2017;66:799 - 812。

    文章PubMed谷歌学术

  21. 21。

    杰克逊ND,莫拉莱斯AE,卡斯滕斯,奥米拉。使用近似可能性的系统地理推断。系统医学杂志。2017;66:1045-53。

    文章PubMed谷歌学术

  22. 22。

    Hime PM, Hotaling S, Grewelle RE, O 'Neill EM, Voss SR, Shaffer HB,等。基因座数和信息含量对物种划分的影响:一个濒危墨西哥蝾螈的经验检验案例。摩尔生态。2016;25:5959 - 74。

    文章PubMed谷歌学术

  23. 23。

    Baird Na,Etter Pd,Atwood Ts,Currey MC,Shiver Al,Lewis Za等人。使用测序的RAD标记的快速SNP发现和遗传映射。Plos一个。2008; 3:E3376。

    文章PubMedpmed中央谷歌学术

  24. 24。

    Chattopadhyay B, Garg KM, Kumar AKV, Doss DPS, Rheindt FE, Kandula S,等。全基因组数据揭示了东方凤仙花素果蝠辐射的隐性多样性和遗传渐渗。BMC Evol Biol. 2016;16:41。

    文章PubMedpmed中央谷歌学术

  25. 25.

    Beheregaray LB,Pfeiffer LV,Attard CRM,Sandoval-Castillo J,Domingos FMCB,Faulks LK等人。基因组数据限定了多种气候确定的物种范围广泛的澳大利亚鱼,金鲈鱼(Macquaria ambigua).分子系统学进展。2017;111:65-75。

    文章PubMed谷歌学术

  26. 26.

    Bryant D,Bouckaert R,Felsenstein J,Rosenberg Na,Roychoudhury A.直接从双层遗传标记推断物种树木:绕过基因树在全结束分析中。mol Biol Evol。2012; 29:1917-32。

    中科院文章PubMedpmed中央谷歌学术

  27. 27.

    Leaché AD, Fujita MK, Minin VN, Bouckaert RR。利用全基因组SNP数据进行物种划分。系统医学杂志。2014;63:534-42。

    文章PubMedpmed中央谷歌学术

  28. 28.

    Häkkinen M,王浩,葛晓军。Musa Itinerans.中国麝香科植物及其种内分类群。Nord J Bot. 2008; 26:317-24。

    文章谷歌学术

  29. 29.

    李波,迪塔米,吴W,胡g,谢j,葛xj。镰刀菌孢子素F的阻力来源。sp。在香蕉野生亲戚的立方体热带比赛4。植物别墅。2015; 64:1061-7。

    中科院文章谷歌学术

  30. 30.

    p . Perrier X, De Langhe E, Donohue M, Lentfer C, Vrydaghs L, Bakry F, et al.;香蕉的多学科视角(穆萨无性系种群)驯化。美国国家科学研究院2011;108:11311-8。

    中科院文章PubMedpmed中央谷歌学术

  31. 31.

    吴伟,杨永林,何文敏,Rouard M,李文敏,徐敏,等。香蕉野生亲缘的全基因组测序Musa Itinerans.提供了对谱系特异性多样化的见解穆萨属。Sci众议员2016;6:31586。

    中科院文章PubMedpmed中央谷歌学术

  32. 32.

    Raj A, Stephens M, Pritchard JK。FastSTRUCTURE:大SNP数据集中种群结构的变异推断。遗传学。2014;197:573 - 89。

    文章PubMedpmed中央谷歌学术

  33. 33.

    nei m,李夫。用于研究限制性内切核酸酶遗传变异的数学模型。Proc Natl Acad Sci U S A. 1979; 76:5269-73。

    中科院文章PubMedpmed中央谷歌学术

  34. 34.

    利用DNA多态性检验中性突变假说的统计方法。遗传学。1989;123:585 - 95。

    中科院PubMedpmed中央谷歌学术

  35. 35.

    孟德尔种群的进化。Bull Math Biol. 1990; 52:241-95。

    中科院文章PubMed谷歌学术

  36. 36.

    Nei M.分子进化遗传学。纽约:哥伦比亚大学出版社;1987年。

    谷歌学术

  37. 37.

    Cruickshank TE, Hahn MW。再分析表明,物种形成的基因组岛是由于多样性的减少,而不是基因流动的减少。摩尔生态。2014;23:3133-57。

    文章PubMed谷歌学术

  38. 38.

    马建新,Bennetzen JL。水稻核基因组最近的快速生长和分化。中国科学院院刊2004;101:12404-10。

    中科院文章PubMedpmed中央谷歌学术

  39. 39.

    赵浩,王磊,袁俊。琼州海峡的起源与时间。Mar Geol Quat Geol. 2007; 27:33-9。

    中科院谷歌学术

  40. 40.

    Häkkinen M,程龙,葛旭Musa Itinerans.(musaceae)。Acta Phytotaxon Geobot。2010; 61:41-8。

    谷歌学术

  41. 41.

    赵洪林,史翠翠,杨雅雅。一种新的Musa Itinerans.在台湾(芭蕉科)。Novon。2011;21:405-12。

    文章谷歌学术

  42. 42.

    赵洪林,史翠翠,杨雅雅。Musa Itinerans.var。Chiumei.(麝香科),台湾植物志的新成员。Taiwania。2015;60:133-6。

    谷歌学术

  43. 43.

    Clausen R.使用术语“亚种”和“品种”。罗达拉。1941; 43:157-67。

    谷歌学术

  44. 44。

    为保护定义“进化上重要的单位”。趋势生态演变1994;9:373-5。

    中科院文章谷歌学术

  45. 45。

    Yang Z,Rannala B. MultiSpecies Poinceference的贝叶斯物种鉴定为DNA条形码分析提供了显着的改进。Mol Ecol。2017; 26:3028-36。

    中科院文章PubMed谷歌学术

  46. 46。

    Sukumaran J, Knowles LL。多种合并划界结构,而不是种。美国国立科学院科学与工程学院2017;114:1607-12。

    中科院文章PubMedpmed中央谷歌学术

  47. 47。

    HäkkinenM.Musa Voonii.,一个新的穆萨来自北部婆罗洲的物种和婆罗洲阵列Callimusa的讨论。Acta Phytotax Geobot。2004; 55:79-88。

    谷歌学术

  48. 48。

    HäkkinenM.穆萨·努力云南一新种(Musaceae) Häkkinen及其分类鉴定Musa Rurrra..J Syst Evol. 2009; 47:87-91。

    文章谷歌学术

  49. 49.

    陈宁宁,Häkkinen M,葛晓军。Musa Ruiliensis.(芭蕉科,节穆萨),标题中国云南一新种。Phytotaxa。2014;172:109-16。

    文章谷歌学术

  50. 50.

    Jain M. NGS QC工具包:用于下一代测序数据质量控制的工具包。《公共科学图书馆•综合》。2012;7:e30619。

    中科院文章PubMedpmed中央谷歌学术

  51. 51.

    李洪波,李洪波。基于盲轮变换的短读快速定位。生物信息学。2009;25:1754-60。

    中科院文章PubMedpmed中央谷歌学术

  52. 52.

    李H,手机B,Wysoker A,Fennell T,Ruan J,Homer N等人。序列对齐/地图格式和samtools。生物信息学。2009; 25:2078-9。

    文章PubMedpmed中央谷歌学术

  53. 53.

    McKenna A,Hanna M,Banks E,Sivachenko A,Cibulskis K,Kernytsky A等人。基因组分析工具包:MapReduce框架,用于分析下一代DNA测序数据。Genome Res。2010; 20:1297-303。

    中科院文章PubMedpmed中央谷歌学术

  54. 54.

    王志强,王志强,王志强,等。利用下一代DNA测序数据进行变异发现和基因分型的框架。Nat麝猫。2011;43:491-8。

    中科院文章PubMedpmed中央谷歌学术

  55. 55.

    范德奥韦拉,卡内罗·莫,Hartl C, Poplin R, lev- moonshine A, Jordan T, et al.。从FastQ数据到高可信度的变量调用:Genonme分析工具包最佳实践管道。生物信息学。2013;43:1-33。

    谷歌学术

  56. 56.

    等。不同的调用格式和VCFtools。生物信息学。2011;27:2156-8。

    中科院文章PubMedpmed中央谷歌学术

  57. 57.

    等。PLINK:全基因组关联和基于群体的连锁分析的工具集。Am J Hum Genet. 2007; 81:559-75。

    中科院文章PubMedpmed中央谷歌学术

  58. 58.

    Price AL, Price AL, Patterson NJ, Patterson NJ, Plenge RM, Plenge RM, et AL。主成分分析纠正了全基因组关联研究中的分层。Nat麝猫。2006;38:904-9。

    中科院文章PubMed谷歌学术

  59. 59.

    Pfeifer B, Wittelsbürger U, Ramos-Onsins SE, Lercher MJ。PopGenome: a efficient swiss army knife for population genome analyses in R. Mol Biol Evol. 2014; 31:29 - 36。

    中科院文章PubMedpmed中央谷歌学术

  60. 60.

    罗永强,张永强,张永强,等。人类历史上古老的混合物。遗传学。2012;192:1065 - 93。

    文章PubMedpmed中央谷歌学术

  61. 61.

    Korneliussen TST, Albrechtsen A, Nielsen R, Nielsen R, Paul J, Albrechtsen A, et al.;ANGSD:下一代测序数据分析。BMC生物信息学。2014;15:1-13。

    文章谷歌学术

  62. 62.

    Carstens BC, Pelletier TA, Reid NM, Satler JD。如何在物种界定上失败。摩尔生态。2013;22:4369 - 83。

    文章PubMed谷歌学术

下载参考

确认

作者感谢华大基因何伟明博士和杨玉兰博士在数据分析方面提出的有益建议。我们也感谢两位审稿人对我们的原稿提出的深刻建议。

资金

本研究由国家自然科学基金项目(No. 31261140366)资助。

数据和材料的可用性

基因组组装和注释文件已上载至香蕉基因组中心(http://banana-genome-hub.southgreen.fr/organism/Musa/Itinerans),原始数据保存在NCBI序列读取档案中,生物工程编号312694,登录号为SRR6382516~SRR6382539。

作者信息

隶属关系

作者

贡献

XJG收集植物材料,设计项目。WW、WLN、JXY和WML分析了数据。WW, WLN和XJG撰写了手稿。所有作者阅读并批准了最终的手稿。

相应的作者

对应到Xue-Jun通用电气

道德声明

伦理批准和同意参与

不适用。

同意出版

不适用。

相互竞争的利益

提交人声明他们没有竞争利益。

出版商的注意

施普林格《自然》杂志对已出版的地图和机构附属机构的管辖权要求保持中立。

附加文件

额外的文件1:

表S1。摘要的测序深度和覆盖的每个样品加入Musa Itinerans.在本研究中使用。图S1。4个品种的全基因组多态性分布穆萨itinerans。重叠窗口大小为20 kb,步长为2 kb的数据。图S2。平均两两核苷酸多样性θ的分布π,日本田岛D,莱特固定指数F2 ~ 12号染色体的绝对遗传差异Dxy。(PDF 4614 kb)

权利和权限

开放获取本文遵循知识共享署名4.0国际许可协议(http://creativecommons.org/licenses/by/4.0/)如果您向原始作者和源给出适当的信用,则允许在任何介质中进行不受限制的使用,分发和再现,提供指向Creative Commons许可证的链接,并指示是否进行了更改。Creative Commons公共领域奉献豁免(http://creativecommons.org/publicdomain/zero/1.0/)适用于本条提供的数据,除非另有说明。

再版和权限

关于这篇文章

通过Crossmark验证货币和真实性

引用这篇文章

吴,吴,吴,西城。杨,JX。et al。香蕉野生亲缘种的全基因组多态性揭示了高隐性物种多样性,穆萨itinerans,及其对中国亚热带地区保护的启示。BMC植物杂志18,194(2018)。https://doi.org/10.1186/s12870-018-1410-6

下载引用

关键字

  • 作物野生亲戚(CWRS)
  • 基因组重测序
  • 穆萨
  • 物种界定