跳到主要内容

新型叶绿体探针的定向富集揭示了412种竹子的大规模系统发育

抽象的

背景

亚家族Bambusoideae属于草族Poaceae,在文化,经济和生态学中具有重要作用。然而,基于大规模叶绿体基因组(CpGenomes)的系统发育关系是难以捉摸的。此外,大多数叶绿体DNA测序方法不能满足大规模的CPGenome测序的要求,这大大限制并阻碍了对植物遗传学和演化的深入研究。

结果

为了研制一套竹材探针,我们选用了99个高质量的cp基因组和6个具有代表性的竹材cp基因组进行探针设计,并组装了15个探针 M唯一的序列作为最终的泛叶绿体基因组。采用一种新的基于杂交的靶向富集方法,设计并合成了180519个叶绿体DNA片段探针。另外选取468个cpa基因组作为实验数据,验证了新合成探针的质量和叶绿体捕获效率。我们成功地应用这些探针合成、富集和组装了358个中国木本竹非冗余基因组。评价分析表明,该探针可应用于木兰科、松目、坡目等植物的叶绿体,并重建了412个竹类(358个竹类,54个竹类)的系统发育树,支持该属的非单系谱系毛竹.此外,我们通过上传竹CpGenome数据集到CNGB (https://db.cngb.org/search/project/cnp0000502/)丰富资源并促进竹子发育的发展。

结论

CpGenome富集管道的建立及其在竹子上的应用,为大多数绿色植物的系统发育分析提供了一种廉价、高通量、省时、高效的CpGenome测序方法。

背景

竹亚科隶属于禾本科禾本科,具有丰富的表型多样性,共有3个部族125属1642种,15个亚科~ 75个分支[1.]. 竹科包括热带木本竹类(竹科)、温带木本竹类(竹林科)和草本竹类(竹林科)。竹亚科主要分布在东半球,如中国、日本、泰国、印度尼西亚和东南亚国家。作为竹亚科最具生态和工业价值的部族之一,木质竹被用作家具、纸张、纤维纺织品和燃料[2.]. 亚洲总共分布着大约500种竹子,分布在广阔的地理和温度范围内。然而,木本竹的开花事件不频繁、不协调、不可预测以及营养特性不稳定,严重制约了木本竹的鉴定和分类。由于缺乏广泛而优质的基因组资源,基于大量木本竹子的系统发育关系仍然很难确定。

叶绿体基因组(CpGenome)是研究植物进化的重要资源[3.].该细胞器是基因组最新的地区最重要的区域之一。绿色植物的叶绿体基因组DNA通常表现出保守的基因组结构,其含有分离小单拷贝区域(SSC)和大单拷贝区域(LSC)的两种反转重复(IR)拷贝[2.,4.,5.]. 叶绿体基因组已成为重建绿色植物系统发育的重要来源,许多叶绿体DNA位点也为植物分类学的发展做出了贡献。为了获得适合全叶绿体基因组测序的叶绿体DNA,传统上可以采用蔗糖梯度离心法进行富集[6.]高盐法[7.]引物长PCR技术[8.].上述策略的特征是使用物理方法来提取叶绿体DNA或需要高质量,充分提取的酒窖DNA和适当的引物。随着测序技术的开发,下一代测序(NGS)具有高通量和有效的有利特征,导致测序数据的量快速增加。叶绿体DNA通常仅占全基因组的约0.5-13%[9].但是,除了完全基因组测序(WGS)数据中,叶绿体DNA测序数据产生了大量的“无用”数据,除了“有用”,消耗大部分测序能力并降低平行叶绿体测序的效率。上述用于获得叶绿体DNA测序数据的方法不能满足大规模CpGenome测序的需要,这显着限制和阻碍了植物遗传学和演化的深入研究。

本研究的主要目的是:(1)开发并评价一条靶向富集和组装竹子叶绿体数据的管道(2) 通过管道技术获得高质量、高覆盖率的竹子基因组,重建系统发育树,提高对竹子系统发育的认识(3) 分享新的已测序的竹子基因组,使研究人员能够快速比较可疑的叶绿体数据并探索竹子基因组。

方法

探测设计和评估的物种选择

为了提高探针的可变性和多功能性,我们从3654年出版的CPGenomes物种(从NCBI收集)选择了567种代表性物种(从2018年12月发布的NCBI收集),以设计和评估CPGenomes的目标浓缩策略的探针(补充表S.1.和S2.)。567种,22种是竹种。对于数据预处理,我们在流程图中阐明了我们的方法(补充图S1.)。一个系统发育树(补充图S2.)构建了567个完整的cP基因组,涵盖了7个主要分支的系统发育多样性,包括40目57科。在每个分支中选择模式种作为核心候选种。因此,共有99个CpGenome(包括6个竹子CpGenome)被选为探针设计的代表物种(表1)1.),并选择剩余的(468cpgenomes)作为测试数据,进一步评估致氯化体捕获探针的效率。探针设计的物种和探针评估的物种是不同的属,但属于同一家族(例如,黄山尼亚Chionochloa.,均为禾本科)。

表1用于设计探针的叶绿体基因组序列的分类组成

非冗余叶绿体参考的构建

使用拟南芥作为初始参考序列(作为数据库序列),其他所选CPGenomes(作为查询序列)与BLAST + V2.2.25软件与默认参数对齐数据库序列。从查询序列掩盖具有超过90%同一性的序列。然后,对所得序列进行冗余序列的次级圆形掩模,其通过全抗爆炸+鉴定。最后,通过迭代分析获得非冗余叶绿体参考,作为泛叶片基因组(PAN-CP Genome)获得。具有高相似性(> = 90%)的序列用“NS”掩盖,其他人在PAN-CPGenome中是高度发散的序列(补充文件F.1.). 98个cpa基因组与dna序列比对的可视化拟南芥CpGenome由BLAST-Ring图像发生器(BRIG V0.9)进行[10]使用默认参数。

为竹CPGenomes设计的通用探头

在两侧延伸到“NS”的PAN-CPGenome序列的区域在两侧延伸40bp,用于设计探针。每个地区被分成K- 长度和熔化温度的90英尺K-mers计算[11].使用Primer3 v2.4.0计算每个探针的唯一性、频率、融化温度和GC含量的综合评分[12].在20bp窗口中选择具有最高全面分数的探针,并以固定间隔沿目标区域滑动。为了确保靶区域中的探针序列的高覆盖,通过这些所选探针至少覆盖目标区域至少2次。最后,根据制造商的指示,通过谱系B3合成器(SupporaRay,华盛顿特区,美国DC,USA)合成了总共180,519个DNA寡核苷酸,并溶解在10×TE缓冲液(pH = 8.0)中。

分类群取样

所有样本物种包括超过30个属(补充表S4.)经中国四大竹园许可,于2015年和2016年春季采集:(1)ICBR太平基地:N:30°20′57.03〃,E:118°01′30.21〃,150 M、 (2)成都望江楼公园:北纬30°37′54.85〃,东经104°05′23.84〃,150 M、 (3)云南普洱亚洲竹藤博览园:N:22°41′24.67〃,E:100°56′26.51〃,1000 M、 (4)南京林业大学白马基地:北纬31°36′35.62〃,东经119°10′34.29〃,北纬50〃 M在采样过程中,各竹园的相关分类学专家都提供了竹类样品的鉴定服务。共采集了358个竹子样品,主要来自幼叶。所有样品立即在液氮中冷冻,并在室温下保存在超低温冰箱中− 80 °C,然后提取DNA。

竹子的DNA提取和靶向富集测序

本研究共对358个木本竹子样品进行取样和测序(补充表S)4.)作为靶富集测序的实际应用和捕获效率的评价。用CTAB法从每个样本中提取基因组DNA,并将其片段化至200 使用Covaris E220超声仪(美国马萨诸塞州沃伯恩市Covaris)进行血压测定,然后进行末端修复、添加碱基“a”和适配器结扎。所需大小的DNA片段(200 在琼脂糖凝胶上选择bp)并与探针杂交72小时 H探针捕获的DNA片段被涂有链霉亲和素的磁珠回收,磁珠与探针上的生物素相互作用,洗去未捕获的DNA片段。

捕获的DNA片段在中国深圳北京基因组学院的BGISEQ-500平台上测序。为每个样品获得高质量的读数从1 GB到9 GB,每个样品都获得了100bp成对端。对于数据预处理,我们在流程图中照亮了我们的方法(补充图S1.). 肥皂过滤器(v2.2)[13]对以下条件下的低质量reads和适配器进行剔除(1)>碱基为N 10%的reads;(2)读取>的低质量读取占40%(值<=10);(3)被接头污染的reads,通过PCR复制产生。的CpGenomePhyllostachys Edulis.(从NCBI下载,注册号:HQ337796.1)用作使用MITObim(V1.8)组装的参考[14]. 这样,我们最终恢复了所有358个样本的完整基因组。此外,质体基因组在当前基于网络的标准程序DOGMA中被注释[15](http://dogma.ccbb.utexas.edu/,).

木质竹子的系统发育分析

我们下载了从NCBI(5月2020年5月发布)的69种竹种的发布的CPGenomes,以扩增物种树的取样(补充表S5.). 去除冗余序列,得到412个非冗余的竹子基因组(补充表S)6.)。每个基因家族的CDS序列使用MAFFT(V7.017)对齐[16]基于相应的蛋白质序列的默认参数,然后序列被栓塞以产生54,078个核苷酸位置。使用IQ树(V1.6.12)构建最大可能性(ML)物种树[17]参数:-m MFP,-B 1000,-bnni,-alrt 1000。

共享竹子基因组数据集

辅助表S中提供的所有358个木质竹CPGenomes4.被存入中国国家基因库(CNGB)(https://db.cngb.org/blast/blast/blastn/),数据库名为“中国竹材数据库”。CNGB开发了BLAST+(版本2.6.0)服务,允许对竹子的cp基因组进行公开搜索。

结果

竹子叶绿体通用探针的研制

从来自NCBI收集的3654个CPGenomes,选择567种高质量的CPGenomes用于探针开发并分为两个数据集,具有99个CPGenomes用于探针设计和468个CPGenomes,用于探测评估。考虑到竹子设计探针的适用性和鲁棒性以及CpGenomes的多样性,来自不同的家族。在补充图S中提供了相关方法的细节1..基于对准组装15 MB PAN-CPGENOME拟南芥(补充文件F)1.). 比较分析表明,不同物种间的CPC基因组有很大的差异(图。1.)。Lycophytes CpGenome在对齐中显示出最大的差距,其次是蕨类植物,马尾和裸子植物。别善和一些单克罗斯的CPGenomes完整性最高。与别人相比,一些单焦点,裸子植物,蕨类植物,马尾病和溶血性在146-150 KB,124-129 kB和88-92 k​​B中具有大的间隙。根据映射深度,100-110 kB,35-42 kB和130-140 kB的探针覆盖深度比其他网站在其他地方。为了评估PAN-CPGENOME的质量,我们计算了为99个完整的CPGENOMES设计的探头的覆盖范围。与99参考CPGenomes的对准显示平均覆盖率为88.2%,平均基础深度为9.04×。在竹子中,相应的平均覆盖率和平均基础深度分别为99.6%和8.43×(图。2.一种)。

图。1
图1

由BRIG绘制的一个岩芯的对齐圆和深度草图。长154478的拟南芥基因组 以bp作为泛基因组的核心序列。方法详见。内圆显示7个分支基因组与A. Thaliana.使用BLAST+。黑色圆圈表示基因的位置,相邻的彩色圆圈表示基因的基因组结构A. Thaliana.. 根据这一信条,将cpa基因组分为四个部分:反向重复A(IRA)、小单拷贝(SSC)、反向重复B(IRB)和大单拷贝(LSC)。外圈显示探针映射到的深度A. Thaliana.

图2
图2.

木质竹子中管道性能评价。A.点图提供用于设计探针的99个植物基因组的平均深度(×)和覆盖率。红点和蓝点分别代表竹子和其他植物种类。黑线代表竹种的平均深度(×)和覆盖率。B点图提供了用于评估探针的468个植物基因组的log10(覆盖长度)和覆盖率。红点和蓝点分别代表竹子和其他植物种类。黑线分别代表竹种的log10(覆盖长度)和覆盖率。c本研究中测序竹子CPGENOMES的基因数,基因组大小和原料碱(BP)的盒图。d与内部和发布的竹子cp基因组相比,评估探针的测绘和覆盖范围。映射率表示探针与释放的竹子cp基因组对齐获得的reads的比例。测图覆盖率表示基于探针组装的cp基因组与释放的竹子cp基因组的比例

在其理论熔化温度和GC含量下,共有180,519(21,842,799bp)探针,占据了92.04%的目标区域,并在其理论熔化温度和GC含量方面表现出高一致性(补充表S.3.). 探针序列见补充文件F2.. 所设计的探针均具有很好的唯一性,与泛基因组比对平均1次。探针主要分布在70-80%熔融温度和30-40%GC含量的范围内(补充图S)3.). 为了评估探针的广谱性,采用BLAST+程序将探针与468个完整的cpc基因组进行比对,以评估探针。468个完整基因组的平均覆盖率为90.54%(补充表S)8.)。在竹子中,覆盖率均超过93.00%,平均覆盖率为94.78%(图。2.b及补充表S8.). 此外,木兰属、松属、坡属等也有较高的覆盖率。

基于探针的植物富集和竹CPGenomes的组装

本研究共纳入358份中国竹材鲜样(补充表S4.)并用于评估捕获效率。获得总计1G-9G原始读数,并在数据预处理中过滤低质量读取和适配器(图。2.C和补充表S.9)。清洁和高质量的读数用于由MITOBIM参考引导的组件,并回收了358个竹子种的几乎完全的CPGENOMES。组装的CPGenomes从139,664到140,064个碱基对(BP),LSC区域的长度为83,496bp,长度为83,845bp(补充表s9). cP基因组由约121个基因注释,包括约113个编码80种蛋白质、4个核糖体RNA和29个转移RNA的独特基因,表现出较高的保守性。

我们检测到15个重叠的基因组存在于内部和公开的数据中(图。2.d)。为了评估目标浓缩,我们将原始读数映射到前面的相应的CPGenome并将组装的竹CPGenome与相应的释放组进行比较。结果表明,从内部竹子CpGenomes的原始读数的平均结果显示了超过45.77%,可以映射到相应的公开的CpGenomes,映射深度高于1200×。与已发表的CPGenomes对准,组装的CPGenomes的覆盖率大于98.59%(图。2.D和补充表S.10)。

基于412个竹基因组的系统基因组关系

为了全面收集竹子cp基因组,NCBI共获得69个竹子cp基因组,去除冗余后共得到412个不冗余的竹子cp基因组(Supplementary Table S .)6.). 根据412个竹子基因组中76个蛋白质编码基因的串联序列,构建了竹子的系统发育树。系统发育分析支持了(节鳃亚科(Bambusinae,Olyreae))的亲缘关系。在前人研究的基础上,我们对系统发育树中的不同分支进行了分类[18,19]. (XI((VIII,IV)VI)((IX,III)(VII,V)))的模式在关节突内提供(补充图S)4.)。大多数新序列的物种分布在CLADE V,CLADE VI和CLADE TALOTOPICAL。xi(Ampelocalamus Calcareus.)是最早分化的节茎木科种。这个毛竹是竹子中的一个代表属,其分支嵌入到分支V中,分支V是竹子的姊妹分支巴沙里亚法尔腓岛. 有一些非-毛竹物种发现于毛竹格林属。这个毛竹根据系统发育树将该属分为两个类群。Phyllostachys Edulis.,中国最具种植的竹子,分布在PHY-II中(图。3.)。NCBI的序列与相应的内部序列聚集。例如,Phyllostachys Edulis.来自NCBI的序列与Phyllostachys Edulis.F Epruinosa.,Phyllostachys Edulis.exaurita.,Phyllostachys Edulis.f flexuosa公司,et al。

图3.
图3.

一个物种树毛竹基于76个叶绿体基因的思工。物种树分为2个零件,标有不同的背景颜色。节点上的数字表示,引导值和引导值低于80被隐藏。树中的红色,紫色,灰色和蓝色块代表了P. Sect。heteroclada物种,p .教派毛竹种、未标记种和非毛竹种。带有“LOC”的名称代表本研究中新测序的序列

中国竹材数据库

支持本研究结果的数据已存入CNGB序列档案(CNSA)[20]中国国家基因库数据库(CNGBdb)[21]促进竹类系统发育知识的积累。研究人员可以通过项目ID:CNP0000502从CNGB下载原始数据和组装的基因组序列(https://db.cngb.org/search/project/cnp0000502/). 此外,研究人员可以通过基于web的BLAST+服务搜索本研究中所有组装的竹质体基因组(https://db.cngb.org/blast/)。竹子和相应的爆炸+服务器的可用体层基因组序列可以促进研究人员探索竹进化的复杂和难以捉摸的历史。

讨论

CPGenome为植物演变提供了基本资源

叶绿体作为植物细胞器和光合作用器官的重要组成部分,其结构简单,基因组大小小(~ 110–165 kb)包含~ 90-110蛋白质编码基因[22]由于它们的非重组,单倍体和单倍体,但跨种类的高度保守基因区域[23]. 叶绿体各方面的基因组特征在研究植物起源、进化以及不同植物物种间的系统发育关系方面起着重要的作用[24,25].据报道,使用叶绿体基因来构建植物的系统发育树。例如,Jansen等[26]利用81个叶绿体基因估计被子植物主要分支间的亲缘关系;Saarela等人[27]发现了薄弱的支持无油樟作为最基本的被子植物谱系,含有17个质体基因和核基因光敏色素C(PHYC.)。随着叶绿体研究的深入,越来越多的研究人员专注于完整的叶绿体序列[28,29,30.].Kane等人[31.]提示全基因组可作为植物品种鉴定的超条形码。

大规模基因组测序中靶向富集的杂交探针

传统的提取叶绿体DNA的方法是蔗糖梯度离心法[6.]或高盐法[7.].另一种方法是通过引物在长期PCR技术上从整个细胞DNA碱中扩增整个叶绿体DNA,所述引物在保守的序列上设计了[8.]. 由于获取叶绿体DNA需要大量的人力和物力,且制备叶绿体DNA的方法劳动强度大,因此这些方法不适合大规模样品。通过将WGS数据与参考基因组比对,还可以从WGS读取中识别叶绿体读取。这是一项要求很高的生物信息学技术,需要一个密切相关的参考基因组。该方法不适用于亲缘关系不密切或参考基因组序列质量较差的物种。此外,由于叶绿体DNA测序数据仅代表WGS的一小部分,因此基于该方法仅组装CpGenome,会产生大量无用的测序数据,消耗大量的测序容量,降低叶绿体平行测序的效率。因此,现有的大多数获得适合整个CpGenomes的DNA和测序数据的方法不能满足大规模CpGenome测序的需要,极大地限制和阻碍了植物遗传进化的深入研究。

测序前的靶向富集是一种有用的方法,可以对基因组的特定部分进行深入分析。此外,一组覆盖一个种群整个基因组的通用探针可以使目标富集策略发挥其优势。利用通用探针进行大规模基因组靶向富集可以提供高成本效益、高密度和高覆盖率。

不同分支的高效靶向富集及基因组比较分析

最近已经有3000多个叶绿体基因组被释放出来[32.],自首次报道完整的CpGenome测序烟草[33.]我们从已发表的3654个CP基因组中选择了99个代表性的CP基因组,包括6个竹子CP基因组,设计探针。这些维管植物包括7个分支(石松属、水松属、裸子植物、基生被子植物、单子叶植物、真双子叶植物和木兰科),隶属于57科40目。7个分支的cpc基因组与拟南芥CpGenome可能显示了进化过程中CpGenome结构的变化,表明了不同进化支之间的差异(图5)。1.). 结构变异表明,从不同分支的CpGenome中提取的pan-CpGenome对于构建具有更多差异序列的pan-CpGenome具有更大的适用性是必要的。146–150英寸 知识库,124–129 kb和88–92 禾本科与单子叶植物、木兰科和真双子叶植物相比,kb有排列间隙。此外,蕨类植物、马尾植物、裸子植物和石蒜植物在相应的位置显示了片段序列。这可能表明被子植物在进化过程中完成了相应的基因组区域,而禾本科植物在被子植物之后又丢失了相应的基因组区域。不过,这一现象还需要在广谱参考和放大取样的基础上进一步检验。

在pan-CpGenome构建中,选择了唯一的序列,并计算了最终的pan-CpGenome大小~ 15 Mb。共设计合成了180519个探针,用一种新的杂交方法富集叶绿体DNA片段。对探针和pan-cpa基因组的质量评价表明,探针和pan-cpa基因组具有较高的定位率,在竹子cpa基因组中是稳定有效的。除了竹子外,扩增的植物基因组也扩展了泛基因组构建步骤中探针的变异序列和普遍性。因此,探针在一些目中也有很高的定位率,如Malvales、Rosales、Pinales和Poales等,表明探针在这些分支中的适用性。相反地,若虫、茄科、裂殖目、唇形目的定位率较低,这可能是由于在构建泛基因组时,相应的基因组材料不充分和贫乏所致。它可以通过扩增相应的CpGenome来扩展pan-CpGenome中的不同序列或减少参数限制来解决。通过与已发表的CpGenome的比较,其图谱覆盖率超过98%,进一步证实了探针富集叶绿体DNA片段的有效性。总的来说,这条pan-CpGenome构建、基于pan-CpGenome的探针设计和CpGenome富集的管道展示了其在竹子CpGenome中的表现,并为绿色植物提供了大规模CpGenome获取的策略。

竹CPGenomes可以提供有关大规模系统发育关系的额外信息

我国现有竹类500余种,在经济、生态、文化、美学、科技等方面发挥着重要作用[34.,35.]. 竹亚科是禾本科的三个亚科之一,被称为BEP分支[36.]. 竹子仍然是植物分类学家和野外植物学家最具挑战性的群体之一[37.]由于竹子开花事件的不频繁、不协调、不可预测以及营养性状的多样性,这可能是竹子频繁杂交的结果[37.,38.]. 基于序列的系统发育分析是竹类系统发育和物种分类的一种有效方法。在竹子的遗传、系统发育和分类分析中,广泛的质体基因组取样和测序是一项非常重要的工作。我们构建了412个样品的系统发育树,覆盖40属300余种,是我国最大的竹类抽样项目,提供了一个大规模的竹类系统发育树。根据系统发育树,席(Ampelocalamus Calcareus.)是最早分化的节肢动物,与以前的研究一致[18,19,39.].系统发育树支持arundinariae (Bambuseae, Olyreae)的进化格局,且与先前基于小尺度质体序列的研究结果一致,表明木本竹属非单系系系[36.,40,41.,42.].结果还显示了图案的稳定性,这可能在扩增的取样下可能没有变化。不同的是,使用核序列的系统发育树建议奥利泰氏素在班布孔岩的基础位置,并显示竹子木质特征的单次突起[37.,43.]. 为了澄清这一矛盾,分析应通过大量扩增取样和全基因组测序,重点分析主要由竹子多次杂交引起的基因重复和基因组结构的变化。此外,对竹子生命树有着基本的需求,特别是在中国,它拥有世界上最大的竹子种植面积[34.].

这个毛竹属于59种的属,是竹子中最经济上的最重要的重要性[44.,45.,46.].Phyllostachys Edulis.是最重要的毛竹物种,会计中国竹增长区(443万公顷),是最丰富的非木材资源[34.]. 这项研究包括102人毛竹CpGenome序列,覆盖率超过90%毛竹物种,并提供了扩大分类学知识的前所未有的机会毛竹属。传统上,毛竹属可以分为两组,P. Sect。毛竹和P.教派。heteroclada,基于诸如花序和根茎的形态学特征et al。[47.,48.]但由于两组的形态学特征之间存在一些存在的形态特征,这种分类存在争议[44.,47.]. 与传统分类学相比,我们构建的物种树显示了不同的系统发育关系。门派。毛竹和P.教派。heteroclada,特别是在物种树中混合的两组种类。形态学分类和系统发育树之间的不一致可能是由于复杂的进化过程或分类治疗方法。完全,13个非毛竹物种,如脚掌菖蒲,oligostachyum oseyogonatum,白竹等被发现了毛竹格林属。它们都分散在PHY-II中。存在许多非毛竹种可以表示非单系的毛竹属。它正在支持非单一的论文毛竹基于先前质体序列的研究[38.,49.,50.[基于非基因组宽核序列或形态特征的先前结果冲突[44.,47.,48.]. 由于竹子进化的复杂性,分类时应慎重对待。此外,以往的研究还发现了芦竹科植物质体与核基因系统发育的不一致性[18].虽然我们构建的物种树支持超过90%的物种覆盖范围毛竹,分类毛竹基于基因组核基因,应进一步测试疏水链。

结论

对CPGenome采集的实用和大规模的方法将促进植物遗传学和系统发育。我们建议探讨的基于探针的CPGenome浓缩管道,成功应用于竹CPGenomes,并获得了358个木本竹CPGenomes。此外,我们为竹子设计的通用探头表现出广谱,也可适用于Magnoliales,Pinales,Poales等。我们还基于CpGenomes在中国重建了中国竹子的系统发育树,这是支持该属的非单层的CPGenomes毛竹.为了促进进化,系统发育和人口研究,我们将序列上载到CNGB以提供BLAST +服务器。为了进一步研究,我们将探索许多与LSC区域的重复序列相关的发散热点区域,例如TRNA簇,其可用作系统发育研究的遗传标记。

数据和材料的可用性

支持本文结论的数据集可以在CNGB存储库中找到,https://db.cngb.org/search/project/cnp0000502/

缩写

中国国家银行:

中国国家基因库

CpGenome公司:

叶绿体基因组

红外光谱:

反向重复

伊拉:

倒置重复A.

IRB:

倒置重复B.

LSC公司:

大单拷贝区域

非政府组织:

下一代测序

泛基因组:

泛叶绿体基因组

物理:

Phytochrome C.

SSC:

单拷贝区域

WGS:

全基因组测序

工具书类

  1. 1.

    Soreng RJ等人。POACEAE(GRAMINEAE)II的全球系统发育分类:更新和2015年两种分类的比较。J Syst Evol。2017; 55:259-90。

    文章谷歌学术

  2. 2.

    喇叭T,HäserA.竹茶:基于RBCL和MATK序列数据减少分类学复杂性和DNA诊断的应用。peerj。2016; 4:E2781。

    文章谷歌学术

  3. 3.

    泰福德广告公司,奈斯RW。完整质体基因组测序的策略。分子经济资源。2017;17:858–68.https://doi.org/10.1111/1755-0998.12626

    文章PubMed.pmed中央谷歌学术

  4. 4.

    Sungkaew S,Stapleton CM,Salamin N,Hodkinson TR.木质竹子的非单系(竹科;禾本科:竹亚科的多基因区系统发育分析。植物研究杂志,2009年;122:95.

    CAS.文章谷歌学术

  5. 5。

    Stapleton C,Chonghaile Gn,Hodkinson Tr。亚洲木质竹子的分子系统发育:中国植物群的评论。竹科学文化。2009; 22:5-25。https://bamboo.org/absjournarcharive/absjournal-vol22/bsc%20222%20stapleton.pdf.

  6. 6。

    Moore MJ等。快速准确的被子植物质体基因组焦磷酸测序。植物生物学杂志2006;6:17。

    文章谷歌学术

  7. 7。

    Bookjans G、Stummann B、Henningsen K。高离子强度培养基中豌豆质体叶绿体DNA的制备。肛门生物化学。1984;141:244–7.

    CAS.文章谷歌学术

  8. 8。

    Jansen RK等。获得和分析整个叶绿体基因组序列的方法。方法酶。2005; 395:348-84。https://doi.org/10.1016/s0076-6879(05)95020-9.PMID:15865976。

  9. 9。

    Bakker-FT等人,《植物标本基因组学:使用迭代细胞器基因组组装管道从一系列植物标本中组装质体序列》。生物学J林恩社会学。2015;117:33–43.

    文章谷歌学术

  10. 10

    Alikhan N, Petty NK, Zakour NLB, Beatson SA。BLAST环状图像发生器(BRIG):简单的原核生物基因组比较。BMC基因组学。2011;12:402。

    CAS.文章谷歌学术

  11. 11

    Santalucia J.聚合物,哑铃和寡核苷酸DNA最近的邻居热力学的统一视图。PROC NATL ACAD SCI。1998; 95:1460-5。

    CAS.文章谷歌学术

  12. 12

    Untergasser A等人提出了3个新的功能和接口。核酸研究,2012年;图40:e115。

    CAS.文章谷歌学术

  13. 13

    罗·罗等人。Soapdenovo2:经验化改进的记忆效率短读De Novo汇编器。傻瓜。2012; 1:30。

    文章谷歌学术

  14. 14。

    哈恩C,巴赫曼L,切夫鲁B。直接从基因组下一代测序读取重建线粒体基因组——一种诱饵和迭代作图方法。核酸研究,2013年;图41:e129。

    CAS.文章谷歌学术

  15. 15.

    Wyman Sk,Jansen Rk,Boore JL。用教条自动注释细胞细胞基因组。生物信息学。2004; 20:3252-5。

    CAS.文章谷歌学术

  16. 16。

    Katoh K,Kuma,K.-i.,Toh,H.&Miyata,T. Mafft版本5:改进多个序列对齐的准确性。核酸RES。2005; 33:511-8。

    CAS.文章谷歌学术

  17. 17。

    Nguyen LT、Schmidt HA、von Haeseler A、Minh BQ。IQ-TREE:一种快速有效的估计最大似然系统发育的随机算法。分子生物学。2015;32:268–74.https://doi.org/10.1093/molbev/msu300.

    CAS.文章PubMed.pmed中央谷歌学术

  18. 18。

    张YX,Zeng CX,Li Dz。Arundinarieae(Poaceae:Bambusoideae)的复杂进化:塑性和核心GBSSI基因文学之间的不一致。mol phylocyet evol。2012; 63:777-97。https://doi.org/10.1016/j.ympev.2012.02.023

    文章PubMed.谷歌学术

  19. 19。

    张学智,等。多位点质体系统发育生物地理学支持亚洲温带木本竹(禾本科:竹亚科)假说。分子系统发育。2016;96:118–29.https://doi.org/10.1016/j.ympev.2015.11.025

    文章PubMed.谷歌学术

  20. 20

    guo x等人。CNSA:用于归档OMICS数据的数据存储库。数据库(牛津)。2020。https://doi.org/10.1093/database/baaa055(2020)。

  21. 21

    陈FZ等。CNGBDB:中国国家Genebank数据库。易川。2020; 42:799-809。https://doi.org/10.16288/j.yczz.20-080

  22. 22

    Sugiura M.叶绿体基因组。植物mol biol。1992年; 19:149-68。https://doi.org/10.1007/BF00015612..PMID:32952115。

  23. 23

    Wicke S,Schneeweiss Gm,MüllerKF,Quandt D.陆地植物血浆染色体的演变:基因含量,基因令,基因功能。植物mol biol。2011; 76:273-97。

    CAS.文章谷歌学术

  24. 24

    Wendel JF,Doyle JJ。植物II的分子系统:Springer;1998. p。265-96。

  25. 25

    Sang T,Crawford DJ,Stuessy TF。Paeonia(Paeoniaceae)的叶绿体DNA文学,网状演化和生物地理学。我是J机器人。1997年; 84:1120-36。

    CAS.文章谷歌学术

  26. 26。

    Jansen RK等。对来自64个质体基因组的81个基因进行分析,揭示了被子植物基因组规模的进化模式。国家科学院学报,2007;104:19369-74。

    CAS.文章谷歌学术

  27. 27。

    Saarela JM等。Hydatellaceae是被子植物系统发育树基部附近的一个新分支。大自然。2007;446:312。

    CAS.文章谷歌学术

  28. 28。

    吴子义、杜子义、李敏妮、刘杰、李德志。两种苎麻属植物(荨麻科)叶绿体全基因组序列。线粒体DNA第B部分。2018;3:939–40.

    文章谷歌学术

  29. 29。

    傅c-n等人。四核种类的塑性基因组的比较分析:系统发育关系推断和基因组进化。BMC基因组学。2017年; 18:956。

    文章谷歌学术

  30. 30

    王永华,等。豆科植物蜡亚科(豆科)早期分化过程中质体基因组的演化。前植物科学。2018;9:138.

    文章谷歌学术

  31. 31

    kane n等人。CACAO(Theobroma SPP)的超微条形码使用全叶绿体基因组和核核糖体DNA。我是J机器人。2012; 99:320-9。

    CAS.文章谷歌学术

  32. 32

    Jin JJ等,《细胞器:细胞器基因组精确从头组装的快速多功能工具箱》。基因组生物学。2020;21:241.https://doi.org/10.1186/s13059-020-02154-5

    文章PubMed.pmed中央谷歌学术

  33. 33

    Shinozaki K,等。烟草叶绿体基因组的全核苷酸序列:其基因组织和表达。EMBO J。1986;5:2043–9.

    CAS.文章谷歌学术

  34. 34

    江泽中。世界竹藤;2007

    谷歌学术

  35. 35

    Vorontsova MS、Clark LG、Dransfield J、Govaerts R、Baker WJ。世界竹藤名录;2016

    谷歌学术

  36. 36

    Sungkaew S,Stapleton CM,Salamin N,Hodkinson TR.木质竹子的非单系(竹科;禾本科):竹亚科s.s.J植物研究2009的多基因区系统发育分析;122:95–108.https://doi.org/10.1007/s10265-008-0192-6

    CAS.文章PubMed.谷歌学术

  37. 37

    Triplett JK、Clark LG、Fisher AE、Wen J。在温带和热带木本竹子中,独立的异源多倍体化事件先于物种形成。新植物醇。2014;204:66–73.https://doi.org/10.1111/nph.12988

    文章PubMed.谷歌学术

  38. 38。

    Triplett JK,Oltrogge KA,克拉克LG。北美木本竹类(禾本科:竹亚科:芦竹亚科)的系统发育关系和自然杂交。我是J Bot。2010;97:471–92.

    CAS.文章谷歌学术

  39. 39。

    Attigala L,Wysocki WP,Duvall Mr,Clark LG。基于血糖系统分析的Arundinarieae(Bambusoideae:Poaceae)的系统发育估计和形态演化。mol phylocyet evol。2016; 101:111-21。https://doi.org/10.1016/j.ympev.2016.05.008

    文章PubMed.谷歌学术

  40. 40。

    Kelchner SA,竹子发育G.基于五种塑性标志物的竹子(Poaceae:Bambusoideae)内的高水平系统发育关系。mol phylocyet evol。2013; 67:404-13。https://doi.org/10.1016/j.ympev.2013.02.005

    CAS.文章PubMed.谷歌学术

  41. 41。

    Clark Lg,LondoñoX,Ruiz-Sanchez E. Bamboo热带林业Ch。第1章;2015. p。1-30。

    谷歌学术

  42. 42

    Wysocki WP,Clark LG,Attigala L,Ruiz Sanchez E,Duvall先生,《竹子的进化》(竹亚科;禾本科):完整的质体系统基因组学分析。BMC进化生物学。2015;15:50.https://doi.org/10.1186/s12862-015-0321-5.

    文章PubMed.pmed中央谷歌学术

  43. 43

    Wysocki WP,Ruiz-Sanchez E,Yin Y,Duvall Mr。四个竹种(Bambusoideae; Poaceae)的花卉转录om:支持木质竹子中的共同祖先。BMC基因组学。2016; 17:384。https://doi.org/10.1186/s12864-016-2707-1

    CAS.文章PubMed.pmed中央谷歌学术

  44. 44

    张ln等。利用核基因座和等位基因变异来解开系统发育毛竹(禾本科,竹亚科)。分子系统发育。2019;137:222–35.https://doi.org/10.1016/j.ympev.2019.05.011

    文章PubMed.谷歌学术

  45. 45

    赵华,等。竹类全基因组微卫星标记的建立及其在毛竹属种质分子标记辅助分类中的应用。Sci代表2015;5(1):1–10.https://doi.org/10.1038/srep08018.PMID:25620112;PMCID:PMC4306134。

  46. 46

    Canavan S等人。竹子的全球分布:评估引入和入侵的相关性。AOB植物。2017; 9:PLW078。https://doi.org/10.1093/aobpla/plw078

  47. 47

    王cp等。中国Phyllostachys的分类学研究。Acta Phytotaxonomica Sinica。1980年。

  48. 48

    中华人民共和国植物区系。Sci出版社。1983;73

  49. 49

    彭S、杨海Q、李德智。温带竹枝内高度异质的属划分(禾本科:竹亚科):来自GBSSI及其序列的证据。分类单元。2008;57:799–810.

    文章谷歌学术

  50. 50。

    曾国雄,张义雄,崔佩特JK,杨建斌,李哲。芦竹科(禾本科:竹亚科)大型多位点质体系统发育研究揭示了10个主要谱系和低分子分化率。分子系统发育。2010;56:821–39.

    CAS.文章谷歌学术

下载参考

致谢

我们希望承认帮助GABR项目顺利运行的GABR联盟成员,合作伙伴,顾问和支持者。这项工作得到了中国国家Genebank(CNGB)的支持。

基金

这项工作得到了国家“十二五”科技支撑计划子项目国际竹藤中心基础研究基金(1632019023号)的资助(批准号2015BAD04B03和2015BAD04B01)。资助数量为研究项目提供资金支持,但不涉及工作设计、资料收集、分析和稿件准备。

作者信息

从属关系

作者

贡献

概念、HZ、TY、WM、HL;数据管理,HZ、ZG、TY、YS、HL;形式分析,JW, TY, WM, YS, YH, YW;融资收购,赫兹;调查,HZ, JW, TY, WM, XL, HL;项目管理,HZ, TY, HL;资源、HZ、ZG、TY、HL;监督,赫兹,霍奇金淋巴瘤;可视化,JW, WM;写作-原稿,HZ, JW, TY; Writing - review & editing, HZ, JW; All authors have read and approved the manuscript.

作者信息

不适用。

通讯作者

对应于汉盛赵

道德宣言

道德认可和参与同意

不适用。

同意出版

所有作者都同意发表。

相互竞争的利益

提交人声明他们没有竞争利益。

附加信息

出版商的注意事项

斯普林格自然保持中立,就管辖权的要求,在出版的地图和机构的联系。

补充信息

附加文件1:图S1。

本研究提供了数据分析流程图。

附加文件2:图S2。

由567种完全叶绿体基因组构建的系统发育树。这些物种涵盖了7个主要枝条的系统发育多样性,包括40阶和57个家庭。详细信息在补充表S中提供2.

附加文件3:图S3

. 熔融温度密度图和探针中GC含量的条形图(A) 熔化温度的密度(B) GC含量的柱状图。

附加文件4:图S4。

基于412个竹叶绿体基因组的中国竹类史无前例的精确系统发育树。红色的字代表竹子中的树族。节点上的数字表示引导值。粗体字代表竹子中不同的子词。淡蓝背景突出了毛竹枝。

附加文件5:补充表S1。

3654种用于探针设计。补充表S2。表中568个代表性物种的ID。补充表S3。设计探针的评价。补充表S4。本研究的竹种。补充表S5。NCBI竹塑性序列表。补充表S6。用于物种树施工的物种。补充表S7。PAN-CPGENOME的覆盖和深度分析。补充表S8。将探针对准468个完全叶绿体基因组,其不含用于设计探针的序列。补充表S9。去除冗余后组装的质体序列的统计。补充表S10。目标富集和组件的评价。

附加文件6:补充文件F1。泛基因组文件。

该文件可以作为txt文件打开。

附加文件7:补充文件F2。探测序列文件。

该文件可以作为txt文件打开。

附加文件8:表X。

用于树种构建的基因。

权利和权限

开放存取本文是基于知识共享署名4.0国际许可,允许使用、共享、适应、分布和繁殖在任何媒介或格式,只要你给予适当的信贷原始作者(年代)和来源,提供一个链接到创作共用许可证,并指出如果变化。本文中的图像或其他第三方材料包括在文章的创作共用许可中,除非在材料的信用线中另有说明。如果材料没有包含在文章的创作共用许可证中,而您的预期使用不被法律法规允许或超过允许的使用,您将需要直接获得版权持有人的许可。如欲浏览本许可证的副本,请浏览http://creativecommons.org/licenses/by/4.0/. 知识共享公共领域放弃(http://creativecommons.org/publicdomain/zero/1.0/)适用于本条提供的数据,除非信用额度中另有规定。

重印和权限

关于这篇文章

通过Crossmark验证货币和真实性

引用这篇文章

王,J.,Mu,W.,Yang,T.et al。基于叶绿体的探针的定向富集揭示了412种竹子的大规模系统发育。BMC植物BIOL.21,76 (2021). https://doi.org/10.1186/s12870-020-02779-5

下载引用

关键字

  • Bambusoideae.
  • 叶绿体
  • 探测
  • 定向富集
  • 竹类系统发育