张心怡,谢秀烨,苏华清,石贤爱,2,王国增,2
(1.福州大学生物科学与工程学院,药物生物技术与工程研究所,福建 福州 350108;2.福建省医疗器械和医药技术重点实验室,福建 福州 350108)
植物纤维降解是一个复杂的过程,其中木聚糖降解起着重要的作用[1].β-1,4-木聚糖酶可水解木聚糖的主链,是木聚糖完全水解所需的关键酶[2].目前已在糖苷水解酶(glycoside hydrolase,GH)家族 5、7、8、10、11、30 和 43 中发现木聚糖酶[3].其中,来源于GH家族10和11的木聚糖酶最为丰富.微生物木聚糖酶在食品、生物能源、饲料、造纸和纺织等行业中应用广泛,因而备受关注[2-3].
经过长时间自然选择和遗传进化,反刍动物瘤胃中存在丰富多样的、能产生大量水解酶的微生物,是迄今已知植物纤维降解速率最高的微环境[4].现已从瘤胃环境中分离获得大量可产生木聚糖酶的细菌、真菌和纤毛虫[5].通过宏基因组技术也从瘤胃环境中获得数量众多的新木聚糖酶基因[6].由于瘤胃微生物庞大而复杂,需要很大的测序数据量才能覆盖其中大多数微生物,因此测序费用较高.此外,现有的高通量测序读长都较短,而瘤胃环境中的微生物基因组非常复杂,这对于后续的生物信息学分析是一个挑战[7].因此,在瘤胃微生物中单个功能基因的研究方面,宏基因组测序技术仍具有局限性.
基于宏基因组学的功能基因多样性研究,提供一种在群落层面解微生物功能多样性的方法[8].传统功能基因多样性研究主要采用文库克隆、Sanger测序等方法,上述方法费时、费力、成本高,且无法获得低丰度基因[9].第二代高通量测序技术因其高测序深度和较低的成本而被广泛使用[10].基于第二代高通量测序技术的扩增子测序是深入解基因多样性、分布和潜在生态重要性的一种重要方法[8,11],其主要用于16S rDNA测序研究微生物群落结构,而将其应用于功能基因多样性的研究还很少.
在前期研究中,本课题组借助文库克隆和Sanger测序,在山羊瘤胃内含物中检测到较高水平的木聚糖酶基因多样性[12].但是,由于测序数量不足,基因覆盖率仍然较低.本研究将高通量扩增子测序技术应用于山羊瘤胃内含物中GH10和GH11木聚糖酶基因的多样性分析.基于获得的序列,采用染色体步移技术获得基因全长,为理解瘤胃环境中半纤维素的高效降解机制提供切入点,同时也为开发利用这一特殊环境中的木聚糖酶基因资源奠定基础.
瘤胃内含物取自成年波尔山羊,其饲料中的植物纤维含量丰富.瘤胃内含物取出后,在液氮中保存.将其运输至实验室,并于-80 ℃的条件下保存备用.
主要仪器: 核酸和蛋白电泳系统(DYCP-31C和DYCZ-24DH,北京六一生物科技有限公司)、凝胶成像仪(JS-680D,上海培清科技有限公司)、PCR仪(Veriti,赛默飞世尔科技(中国)有限公司)、立式高速冷冻离心机(LYNX 4000,赛默飞世尔科技(中国)有限公司).
主要试剂: 蛋白胨、酵母提取物为英国OXOID公司产品;DNA胶回收试剂盒和质粒提取试剂盒购于Omega公司;2×Taq PCR MasterMix (含染料)和1 kb Plus DNA Ladder购于天根生化科技公司;pMD-18T载体和Genome Walking Kit购于TakaRa公司;其余化学试剂均为国产分析纯.
所用引物由上海英潍捷基公司合成.扩增子测序由北京诺禾致源生物科技股份有限公司完成.
瘤胃内含物宏基因组DNA的提取和纯化参考本课题组之前建立的方法[12].为便于对测序序列进行识别和归类,在原先用于GH10和GH11木聚糖酶基因片段扩增的简并引物的正向引物和反向引物的5′端分别添加1和3个不同的条形码序列(见电子版附表1).GH10和GH11片段的扩增条件为本课题组前期研究中所用条件[9].使用Omega凝胶DNA回收试剂盒进行目的条带的回收和纯化.
使用TruSeq®DNA PCR-Free建库试剂盒构建6个测序文库.采用Qubit@2.0荧光计和Agilent Bioanalyzer 2100系统评估文库的质量.使用Illumina NovaSeq平台对这6个文库进行双末端测序,测序长度为250 bp.将得到的序列根据其独特的条形码序列分配给文库,并去除条形码和引物序列.使用FLASH(V1.2.7)对序列进行拼接.利用QIIME (V1.7.0)对原始标签序列进行质量过滤,以获得高质量的干净标签.
使用UPARSE进行操作分类单元 (operational taxonomic units,OTU) 集群和注释序列分析.将相似性大于95%的序列聚类成1个OTU.筛选每个OTU的代表性序列以进行进一步注释.为排除非木聚糖酶基因序列,使用软件DIAMOND对NCBI非冗余数据库进行BLASTX搜索,去除与数据库中已知木聚糖酶序列不具相似性的序列.使用EMBOSS Transeq将所有代表性序列翻译成氨基酸序列.使用BLASTp评估其与已知木聚糖酶蛋白质序列的相似性.
使用QIIME计算衡量基因多样性和复杂性的α多样性指标,包括衡量集群丰富度的Chao1和ACE指数、衡量集群多样性的Shannon和Simpson指数、表征测序深度的Good’s coverage指数.
从所获得的GH10和GH11木聚糖酶基因片段序列中分别挑选1个丰度相对较高且与已知基因相似性较低的片段序列来设计引物(见电子版附表1).采用染色体步移技术克隆两端未知的侧翼序列,从而获得木聚糖酶基因的全长序列,并对其进行生物信息学分析.
与其它第二代高通量测序技术相比,Illumina高通量测序技术平台具有成本低、分析速度快、准确度高的优势[13].本研究采用Illumina NovaSeq平台(250 bp双末端测序)对GH10和GH11木聚糖酶基因片段扩增子进行测序,其长度分别约为260~350和210~280 bp[9].对不同样本产生的PCR扩增子进行条码标记,以提高效率并降低每个样本的成本[14].利用3种不同的条形码序列组合来探索山羊瘤胃内含物宏基因组中GH10和GH11木聚糖酶基因的多样性,进而评估条形码序列对多样性的影响.使用与不同条形码序列(见电子版附表1)融合的简并引物,从宏基因组DNA中扩增PCR产物,分别构建3个测序文库(见表1)并进行测序.
表1 GH10和GH11木聚糖酶基因测序结果和多样性指数
如表1所示,GH10木聚糖酶基因扩增子3个测序库的Good’s coverage指数均大于0.999,这说明测序深度很好.对下机数据进行拼接、质控、过滤等处理,共获得196 500条序列.以95%的一致性对所得序列集进行OTU聚类,3个文库分别得到335、333和317个OTU.使用 CAZY 参考数据库,将上述文库中304、309和288个OTU分别注释为GH10木聚糖酶,如图1(a)所示.3个文库共包含348个木聚糖酶序列(见电子版附表2).GH11木聚糖酶基因扩增子3个测序库的Good’s coverage指数均大于0.970(如表1所示),说明测序深度良好.经处理后,共获得195 015条序列.以95%的一致性对所得序列集进行OTU聚类,3个文库分别得到114、70和117个OTU.通过使用CAZY参考数据库,上述文库中102、59 和 103个OTU被分别注释为GH11木聚糖酶,如图1(b)所示.3个文库共包含143个木聚糖酶序列(见电子版附表3).GH11文库中木聚糖酶基因只占所有序列的28%,说明该文库中还存在大量的非特异性扩增序列.此外,从图1(b)还可以看出,条形码序列对GH11木聚糖酶基因的多样性有比较大的影响,对GH11-Bar2-R中的条形码序列影响最大.
图1 所获得的木聚糖酶基因片段序列的稀释曲线图Fig.1 Rarefaction curves of the obtained xylanase gene fragments
在前期研究中,本课题组采用片段文库构建结合Sanger测序的方法,从山羊瘤胃内含物的宏基因组DNA中获得52个GH10木聚糖酶基因片段序列[12].然而,在本研究中,使用高通量扩增子测序可获得348个一致性小于95%的GH10木聚糖酶基因片段序列.此外,本研究所获得的GH11木聚糖酶基因片段序列的个数要远远高于前期研究.以上结果表明,与经典的文库构建和Sanger测序的方法相比,高通量扩增子测序可获得的木聚糖酶基因序列更多,因此多样性更好.此外,与传统的宏基因组文库构建筛选[15]和宏基因组高通量测序[16]相比,扩增子测序一次能获得的木聚糖酶基因数量更多,且花费时间更少,工作量和成本更低.
BLASTp分析表明,348个GH10序列与GenBank数据库中木聚糖酶蛋白序列具有40%~97%的一致性(见电子版附表2).约50% (173/348) 的序列与GenBank中已知木聚糖酶蛋白序列具有较低的同源性(一致性小于80%),表明它们可能是新型木聚糖酶基因,如图2(a)所示.此外,片段序列显示出很强的长度多态性(见电子版附图1).GH10基因片段蛋白质序列包含64~118个氨基酸不等.长度最短的是GR10-440(64个氨基酸残基),它与Bacteroidaceae bacterium (MBR1498867.1)的第10家族木聚糖酶蛋白具有77%的最高一致性.最长的序列是包含118个氨基酸的GR10-118,与来自Prevotellasp.(MBQ9231629.1) 的第10家族木聚糖酶蛋白具有88%的最高一致性.
经BLASTp分析,143个GH11序列与GenBank数据库中木聚糖酶蛋白具有51%~100%的一致性(见附表3).约25% (28/143) 的序列与GenBank中已知木聚糖酶蛋白序列具有较低的同源性(一致性小于80%),表明它们很有可能是新型木聚糖酶基因,如图2(b)所示.
图2 所获得的木聚糖酶基因片段蛋白序列与已知蛋白序列的一致性分布Fig.2 Amino acid sequence identities of the obtained xylanase gene fragments to the known xylanases
GH11的片段序列亦显示一定的片段长度多态性(见电子版附图2),但远不及GH10.GH11基因片段蛋白质序列包含50~76个氨基酸不等.长度最短的是GR11-87(50个氨基酸残基),它与Ruminococcussp.(MBR1823580.1)的第11家族木聚糖酶蛋白具有88% 的一致性.长度最长的是包含76个氨基酸的GR11-676,与来自Halenosporavaria(KAH6675160.1) 的第11家族木聚糖酶蛋白的最大一致性为62%.在这些序列中插入或删除氨基酸可能会造成这些木聚糖酶存在功能差异.
目前,可通过分离纯培养、宏基因组文库构建和宏基因组高通量测序的方法从瘤胃环境中获得大量的木聚糖酶基因[6,15-16].然而,序列比对发现,在本研究所获得的GH10和GH11木聚糖酶基因片段中,均存在大量与NCBI数据库中已知木聚糖酶基因相似性很低的序列,说明瘤胃中存在大量还未被鉴定的木聚糖酶基因.
图3为GH10木聚糖酶基因的分布情况.在门水平上,GH10木聚糖酶基因片段序列来源于Bacteroidetes(258个基因片段)、Firmicutes(86个基因片段)、Spirochaetes(2个基因片段)、Actinobacteria(1个基因片段)和Ascomycota(1个基因片段).具体到属水平,Prevotella属占Bacteroidetes门中绝大多数,占比为86.5%.除Prevotella属之外,GH10木聚糖酶基因还发现存在于该门的Bacteroidales,Bacteroidaceae,Bacteroides,Bacteroidetes和Prevotellaceae中.在Firmicutes门中,Clostridiales和Ruminococcus是优势菌,占该门所有序列的74.4%.此外,GH10木聚糖酶基因还分布在此门中的Clostridia,Lachnospiraceae,Ruminococcaceae,Roseburia,Oscillospiraceae和Vallitaleaceae中.
图3 山羊瘤胃内含物中GH10木聚糖酶基因的分布Fig.3 Distribution of GH10 xylanase genes from goat rumen contents
图4为GH11木聚糖酶基因的分布情况.对于该环境来源的GH11木聚糖酶基因序列,在门水平上分布于Ascomycota(91个基因片段)、Actinobacteria(28个基因片段)、Firmicutes(9个基因片段)、Basidiomycota(6个基因片段)、Proteobacteria(4个基因片段)、Bacteroidetes(2个基因片段)、Chytridiomycota(1个基因片段)和Kiritimatiellaeota(1个基因片段).具体到属水平,Ascomycota门中占比较高的有Pseudogymnoascus,Aspergillus,Bipolaris,Stagonospora,Cyphellophora,Pseudomassariella和Cyphellophora.在Actinobacteria门中,Streptomyces和Dactylosporangium是优势属,占该门所有序列的50%.此外,GH11木聚糖酶基因还分布在此门中的Actinospica,Actinoplanes,Cellulomonas和Micromonospora等7个属.Firmicutes门中包含Ruminococcus,Oscillospiraceae和Lachnospiraceae属来源的序列,其中Ruminococcus来源最多.
图4 山羊瘤胃内含物中GH11木聚糖酶基因的分布Fig.4 Distribution of GH11 xylanase genes from goat rumen contents
瘤胃环境中数量庞大的微生物所介导的植物纤维类水解是目前为止最高效的[5].其中,瘤胃细菌和瘤胃真菌在该过程中发挥最重要的作用.研究表明,瘤胃真菌在反刍动物瘤胃中植物纤维降解的起始过程中起到重要作用[17-18].在本研究中,真菌来源的GH11木聚糖酶基因片段占所有GH11片段的68%,表明该环境中第11家族木聚糖酶基因主要来源于真菌.然而,在所获得的所有348个GH10木聚糖酶基因片段中,真菌来源的片段只有1个.以上结果表明,这两个家族在瘤胃微生物分布具有很大的差异性.此外,本研究所获得的真菌来源的GH11木聚糖酶基因片段数量(97个)远高于先前采用文库构建法所获得的木聚糖酶基因片段的数量(7个),表明高通量扩增子测序技术更能深入挖掘该环境中真菌来源的木聚糖酶基因多样性.
拟杆菌门(Bacteroidetes)和厚壁菌门(Firmicutes)微生物是瘤胃环境中的优势门[4].从测序结果来看,98.6%的GH10木聚糖酶基因片段来自Bacteroidetes和Firmicutes(见图3),且在Bacteroidetes门中主要集中于Prevotella属,而该属是瘤胃环境中主要的木聚糖降解微生物之一[19].此外,本研究还发现大量的放线菌门(Actinobacteria)来源的GH11木聚糖酶基因片段,这是在本课题组先前研究中所没发现的,且目前也极少被报道的.该结果说明,Actinobacteria也有可能在瘤胃环境木聚糖的降解中起到重要作用.
基于GH10-4和GH11-3片段序列和染色体步移技术成功获得一个GH10和GH11的全长基因.xynGH10-4基因序列全长2 223 bp,其编码为740个氨基酸和一个终止密码子.该基因编码蛋白预测的等电点和理论分子量分别为4.4和81.4 ku.经预测,前20个氨基酸残基为可能的信号肽序列.BLASTp分析表明,其与来源于Prevotellasp.的木聚糖酶(MBP3776533.1)一致性最高,为61%.结构域预测显示,该酶含有一个GH10家族木聚糖酶催化结构域,但该结构域被一段未知功能的序列分成两部分,如图5(a)所示.xynGH11-3基因序列全长2 907 bp,其编码为968个氨基酸和一个终止密码子.该基因编码的蛋白预测等电点和理论分子量分别为4.5和103.7 ku.经预测,该蛋白的前32个氨基酸残基为可能的信号肽序列.BLASTp分析表明,其与来源于Ruminococcussp.的木聚糖酶(MBR2283150.1)一致性最高,为60%.结构域预测显示,该酶是一个多结构域蛋白,包含发挥催化功能的GH11木聚糖酶催化结构域、去乙酰酶催化结构域、参与底物结合的两个碳水化合物催化结构域和1个与其它蛋白一起组成纤维小体的锚定蛋白结构域,如图5(b)所示.从以上结果可以发现,在瘤胃环境中还存在序列结构非常新颖的木聚糖酶基因.例如,XynGH11-3不仅包含用于木聚糖主链水解的GH11催化结构域,而且还包含1个用于木聚糖去乙酰化的脱乙酰酶催化结构域.这两种催化结构域组合可以促进木聚糖的水解.此外,该蛋白中的碳水化合物结合结构域有利于将该蛋白定向结合到底物上,增加水解的概率.锚定蛋白结构域的存在表明,该蛋白可能会跟其他纤维降解酶(如纤维素内切酶)共同作用,锚定到支架蛋白并形成高效降解植物纤维的纤维小体[20].
图5 山羊瘤胃宏基因组来源的新木聚糖酶的结构域分析Fig.5 Modular structure analysis of novel xylanadse divide from goat rumen metagenomes
将高通量扩增子测序用于瘤胃内含物宏基因组第10家族和第11家族木聚糖酶基因多样性研究中.相较于经典的文库构建法,高通量扩增子测序技术所获得的木聚糖酶基因数量更多、多样性更好,更能反映其真实多样性.此外,在所获得的木聚糖酶片段序列中,还有很大一部分与已知木聚糖酶基因的序列的相似性很低,且基于片段序列获得的全长木聚糖酶基因所编码的蛋白具有复杂的结构域,表明瘤胃环境中还存在大量的新木聚糖酶基因.在后续工作中,将从该环境中获得更多的新木聚糖酶基因,并进行性质研究,为其结构、功能的研究和其在饲料、食品等工业上的应用奠定基础.
猜你喜欢文库聚糖高通量高通量卫星网络及网络漫游关键技术国际太空(2023年1期)2023-02-27相对分子质量对木聚糖结晶能力的影响林产化学与工业(2022年4期)2022-09-13专家文库猪业科学(2021年3期)2021-05-21高通量血液透析临床研究进展透析与人工器官(2020年1期)2020-11-16优秀传统文化启蒙文库幽默大师(2020年10期)2020-11-10关于推荐《当代诗坛百家文库》入选诗家的启事中华诗词(2019年1期)2019-11-14饲料用β-甘露聚糖酶活力的测定湖南饲料(2019年5期)2019-10-15Ka频段高通量卫星在铁路通信中的应用探讨铁道通信信号(2019年8期)2019-10-10专家文库猪业科学(2018年4期)2018-05-19中国通信卫星开启高通量时代中国发展观察(2017年8期)2017-04-26扩展阅读文章
推荐阅读文章
老骥秘书网 https://www.round-online.com
Copyright © 2002-2018 . 老骥秘书网 版权所有