生物信息学分析样例十一篇

时间：2023-08-17 15:54:32

生物信息学分析

生物信息学分析例1

中图分类号：S718.46；Q7 文献标识码：A 文章编号：0439-8114（2014）05-1191-05

植物在长期进化过程中形成了一系列机制，以适应和抵御各种生物和非生物逆境，在众多的适应性机制中，基因表达的转录调节在植物应答环境信号刺激反应过程中起着重要作用。转录因子是植物中最重要的一类调节基因。WRKY是近年来新发现的植物特有的新型锌指型转录调控因子，是一类植物特有的转录因子家族，因在其N-端含有由WRKYGQK组成的高度保守的7个氨基酸序列而得名，WRKY基因首先被克隆于甘薯[1]，随后在约20多种植物中证实存在WRKY蛋白，并阐明了相应的分子生物学功能[2]，WRKY家族转录因子主要与植物的抗逆性和衰老等生理过程有关。病原菌、伤害和植物激素类物质等多种外界因素均能诱导WRKY基因的表达[3]。本研究以GenBank上登录的拟南芥（Arabidopsis thaliana）、欧芹（Petroselinum crispum）、辣椒（Capsicum annuum L.）、水稻（Oryza sativa L.）和毛白杨（Populus tomentosa）5个物种的22个WRKY家族抗病转录因子为材料，利用生物信息学方法研究该转录因子编码区的变异，为其他植物WRKY抗病基因克隆及其研究提供理论依据。

1 材料与方法

1.1 供试材料

数据资料来源于美国国立生物技术信息中心NCBI（http：//ncbi.nlm.nih.gov/）核苷酸数据库和国家水稻数据中心（http：///），其中拟南芥有13种，AtWRKY40 NM_106732、 AtWRKY60 NM_128058、 AtWRKY48 NM_124329、AtWRKY25 NM_128578，对丁香假单胞菌起负调控作用[4-6]；AtWRKY18NM_119329的中度水平表达会引起PR基因表达及对丁香假单胞菌的抗性增强[7]；AtWRKY41 NM_117177具有双重调控作用，能够抵抗细菌和真菌病原物的重要下游基因的产物，抗丁香假单胞菌[8]；AtWRKY70 NM_115498，参与两条抗性信号转导途径的调控交叉点，即通过激活SA介导的抗病信号转导途径，同时又抑制JA介导的抗病信号转导，调控拟南芥的抗病反应，主要对丁香假单胞菌起抗病作用[9]；AtWRKY33 NM_129404作为JA/ET介导途径中的正调控子，在抗真菌病原菌方面发挥作用，如防治灰霉病[10]；AtWRKY3 NM_126385对抗腐生病原菌起正调控作用；AtWRKY4 AF425835可以抗青枯病与腐生病原菌，超表达时对假单胞菌有毒小种的抗性增强，对软腐病菌抗性减弱[11]；AtWRKY29 NM_118486是MAPK通路中可作为典型的WRKY基因参与拟南芥植株的抗病信号的转导[12]；AtWRKY6 NM_104910可以抗细菌、病毒、卵菌和真菌[13]；AtWRKY27 AF418310抗青枯病[14]。辣椒有3种，CaWRKY-a AY391747抗烟草花叶病毒[15]；CaWRKY2 DQ402421抗丁香假单胞菌[16]；CaWRKY1 AY229992通过负调控作用抗病菌[17]。欧芹3种，PcWRKY4 AF204925、PcWRKY5 AF204926均为抗大豆疫霉菌的激发子[18]；PcWRKY1 PCU48831抗大豆疫霉菌[19]。毛白杨有1种，PtWRKY23 EF051079抗叶锈病[20]。水稻2种，OsWRKY71 AB190817参与赤霉素信号传导，脱落酸介导的信号传导，依赖于R基因的防卫反应信号途径，抗白叶枯病；OsWRKY13 EF143611参与茉莉酸介导的信号传导、水杨酸介导的信号途径，抗白叶枯病和稻瘟病。

1.2 转录因子系统发育树的构建

利用Maga 5.0软件对NCBI数据库中搜索到的对病原菌有调控作用的转录因子和基因全长序列进行系统进化树的构建。采用Neighbor-Joining法构建系统发育树，对生成的系统发育树进行Bootstrap校正，得到最终的系统发育树。

1.3 转录因子保守基序的分析

利用在线MEME 4.8.0软件（http：//meme.sdsc.edu）对转录因子的氨基酸序列进行保守基序分析。

1.4 转录因子编码蛋白质的三级结构分析

利用在线CPHmodels工具对9种蛋白质进行同源建模，并利用高级结构预测软件RasMol对各转录因子和基因编码的蛋白质三维结构进行分析。

2 结果与分析

2.1 不同植物抗病WRKY转录因子系统发育树的构建

对22个WRKY家族抗病转录因子进行系统发育树构建，结果（图1）表明，可以将这22个抗病WRKY转录因子分为2大类群，7个亚类群。第一大类群中的欧芹PcWRKY1，辣椒CaWRKY-a、CaWRKY2，拟南芥AtWRKY4、AtWRKY3、AtWRKY25、AtWRKY33都含有两个WRKY结构域。拟南芥WRKY抗病转录因子中对腐生病原菌起正调控作用的为AtWRKY3和AtWRKY4，二者抗腐生病原菌，起正调控作用[12]。

欧芹PcWRKY1对大豆疫霉菌有抗性作用[19]，拟南芥AtWRKY33对灰霉病起抗性作用[11]，而辣椒CaWRKY-a对烟草花叶病毒起抗性作用。从系统发生树（图1）上可以看出，这3个转录因子组成第一个亚类群，其中拟南芥AtWRKY33与辣椒CaWRKY-a亲缘性相近，而与欧芹PcWRKY1的亲缘性次之，但目前的研究表明其在抗病原理上并不相同，有待进一步研究。

拟南芥AtWRKY25和辣椒CaWRKY2聚为第二亚类群，二者均对丁香假单胞菌起调控作用；拟南芥AtWRKY3和AtWRKY4聚为第三亚类群，二者均对腐生病原菌起调控作用。

拟南芥AtWRKY48、毛白杨PtWRKY23和辣椒CaWRKY1聚为第四亚类群。研究表明，拟南芥AtWRKY48对丁香假单胞菌起负调控作用[5]，辣椒CaWRKY1对丁香假单胞菌、烟草花叶病毒等起负调控作用[17]，毛白杨PtWRKY23对叶锈病起抗性作用。

拟南芥AtWRKY6、AtWRKY18、AtWRKY60、AtWRKY40，水稻OsWRKY71和欧芹PcWRKY4聚为第五亚类群，其中对细菌、真菌、卵菌、病毒起抗性作用的拟南芥AtWRKY6[13]单独成一类，拟南芥AtWRKY18、AtWRKY60和AtWRKY40均对假单胞菌有抗性作用[4，7]，而拟南芥AtWRKY18和水稻OsWRKY71均会引起R基因表达抗病，且都是通过SA代谢途径起到抗病作用[4]，而欧芹PcWRKY4为抗大豆疫霉菌因子。

拟南芥AtWRKY27、AtWRKY29和水稻OsWRKY13聚为第六亚类群。在抗病方面，拟南芥AtWRKY27抗青枯病，AtWRKY29是MAPK通路中能够抵抗细菌和真菌病原物的重要下游基因的产物，水稻OsWRKY13参与茉莉酸介导的信号传导、水杨酸介导的信号途径，抗白叶枯病和稻瘟病。

拟南芥AtWRKY41、AtWRKY70与欧芹PcWRKY5聚为第七亚类群。研究表明，它们均属于锌指结构C2-HC（C-X7-C-X23-H-X1-C）型[21]，其中拟南芥AtWRKY41与AtWRKY70均对细菌具有抗病性，但抗病途径并不相同[8，10]，而欧芹PcWRKY5对大豆疫霉菌因子有抗性，它们在抗病方面并不完全相同。

2.2 不同植物抗病WRKY转录因子保守基序的分析

由图2可知，22个抗病的WRKY转录因子都具有保守基序1和2，部分WRKY转录因子之间也有共性。系统发育树中第一大类群的1、2、3亚类群中的欧芹PcWRKY1，辣椒CaWRKY-a、CaWRKY2，拟南芥AtWRKY4、AtWRKY3、AtWRKY25和AtWRKY33都具有基序9和基序12，而第一大类群的其他亚类群和第二大类群的其他 WRKY转录因子都不具有基序9和基序12。

第五亚类群的拟南芥AtWRKY6、AtWRKY18、AtWRKY60和AtWRKY40，水稻OsWRKY71，欧芹PcWRKY4都具有基序5和基序6，而第一大类群的其他亚类群和第二大类群的其他WRKY转录因子都不具有基序5和基序6。第四亚类群中辣椒CaWRKY1和毛白杨PtWRKY23特有的基序为基序18。第七亚类群的拟南芥AtWRKY41和AtWRKY70，欧芹PcWRKY5都具有基序17。研究表明，拟南芥AtWRKY18和水稻OsWRKY71通过水杨酸代谢途径抗病[4]，基序分析表明，二者共有基序1、2、4、5、6和14。拟南芥WRKY转录因子中对腐生病原菌抗性起正调控作用的AtWRKY4和AtWRKY3都具有基序11和基序10。许多拟南芥WRKY转录因子作为防卫信号的负调控因子起作用，如AtWRKY18、AtWRKY25、AtWRKY27、AtWRKY40、AtWRKY41、AtWRKY48和AtWRKY 60，这些WRKY转录因子都具有基序1、2、6和5。拟南芥AtWRKY70编码的蛋白质参与两条抗性信号转导途径，一是通过激活SA介导的抗病信号转导途径，二是抑制JA介导的抗病信号转导途径，从而调控拟南芥的抗病反应[10]，其仅有基序1、2、19和20。

2.3 不同植物抗病转录因子编码蛋白质的三级结构分析

高级结构决定蛋白质生物学功能，对蛋白质高级结构的预测和分析，有助于理解蛋白质结构与功能之间的相关性[22]。由图3可知，拟南芥AtWRKY4和AtWRKY25转录因子编码的蛋白质三级结构相似，均属于抗细菌型转录因子[6，12]。欧芹PcWRKY1和辣椒CaWRKY-a转录因子编码的蛋白质三级结构相似，辣椒CaWRKY-a对烟草花叶病毒具有抗性作用，而欧芹PcWRKY1对大豆疫霉菌有抗性作用。水稻OsWRKY13、欧芹PcWRKY4和PcWRKY5、拟南芥AtWRKY18和AtWRKY40编码的蛋白质三级结构相似。辣椒CaWRKY1和毛白杨PtWRKY23，拟南芥AtWRKY48和AtWRKY33编码的蛋白质三级结构相似，但其功能不尽相同[5，10]，有待进一步研究。研究表明，拟南芥AtWRKY18和AtWRKY6，欧芹PcWRKY1以及水稻OsWRKY13的C末端结构域可与（T）（T）TGAC（C/T）序列（W-box）相结合，产生特异性作用，参与植物防卫反应作用[23，24]。

3 小结

通过对22个抗病WRKY家族转录因子进行系统发生树、基序以及蛋白质三级结构分析，得出22个抗病WRKY转录因子分为2个大类群，7个亚类群。第一大类群由欧芹PcWRKY1、PcWRKY4，辣椒CaWRKY1、 CaWRKY-a、 CaWRKY2，拟南芥AtWRKY4、 AtWRKY3、 AtWRKY25、 AtWRKY33、AtWRKY48、AtWRKY6、AtWRKY18、AtWRKY60和AtWRKY40，毛白杨PtWRKY23，水稻OsWRKY71组成。拟南芥AtWRKY41、AtWRKY70、AtWRKY27和AtWRKY29，欧芹PcWRKY5，水稻OsWRKY13组成第二大类群。22个转录因子都具有基序1和2，系统发育树中第一大类群中的拟南芥AtWRKY4和AtWRKY25，欧芹PcWRKY1和辣椒CaWRKY-a具有相似的蛋白质三级结构，都具有基序9和基序12，拟南芥AtWRKY33和AtWRKY48具有相似的蛋白质三级结构，都具有基序18；系统发育树中第四亚类群中的辣椒CaWRKY1和毛白杨PtWRKY23具有相似的蛋白质三级结构。

参考文献：

[1] ISHIGURO S， NAKAMURA K.Characterization of a cDNA encoding a novel DNA-binding protein，SPF1，that recognizes SP8 sequences in the 5’upstream regions of genes coding for sporamin and β-amylase from sweet potato[J]. Mol Gen Genet.1994，244（6）：563-571.

[2] WU K L，GUO Z J，WANG H H， et al. The WRKY family of transcription factors in rice and Arabidopsis and their origins[J].DNA Res，2005，12（1）：9-26.

[3] EULGEM T， RUSHTON P J， ROBATZEK S， et al. The WRKY superfamily of plant transcription factors[J].Trends in Plant Science，2000，5（5）：200-206.

[4] XU X P， CHEN C H， FAN B F，et al. Physical and functional interactions between pathogen-induced Arabidopsis WRKYl8，WRKY40 and WRKY60 transcription factors[J]. The Plant Cell，2006，18（5）：1310-1326.

[5] XING D H， LAI Z B， ZHENG Z Y， et al. Stress-and pathogen-induced Arabidopsis WRKY48 is a transcriptional activator that represses plant basal defense[J]. Mol Plant，2008，1（3）：459-470.

[6] ZHENG Z， QAMAR S A， CHEN Z， et al. Arabidopsis WRKY33 transcription factor is required for resistance to necrotrophic fungal pathogens[J].Plant J，2006，48（4）：592-605.

[7] CHEN C， CHEN Z. Potentiation of developmentally regulated plant defense response by AtWRKY18，a pathogen-induced Arabidopsis transcription factor[J]. Plant Physiology，2002，129（2）：706-716.

[8] ASAI T， TENA G， PLOTNIKOVA J， et al. MAP kinase signalling cascade in Arabidopsis innate immunity[J]. Nature，2002，415：977-983.

[9] LI J， BRADER G， PALVA E T. The WRKY70 transcription factor：A node of convergence for jasmonate-mediated and salicylate-mediated signals in plant defense[J].The Plant Cell，2004，16（2）：319-331.

[10] ZHENG Z， MOSHER S L， FAN B， et al. Functional analysis of Arabidopsis WRKY25 transcription factor in plant defense against Pseudomonas syringae[J]. BMC Plant Biology，2007（7）：1-13.

[11] RAMAMOORTHY R， JIANG S Y， KUMAR N，et al. A comprehensive transcriptional profiling of the WRKY gene family in rice under various abiotic and phytohormone treatments[J]. Plant Cell Physiology，2008，49（6）：865-879.

[12] LAI Z B， VINOD K M， ZHENG Z Y， et al. Roles of Arabidnpsis WRKY3 and WRKY4 transcription factors in plant responses to pathogens[J]. BMC Plant Biology，2008（8）：1-13.

[13] CHEN W Q， PROVART N J， GLAZEBROOK J， et al. Expression profile matrix of Arabidopsis transcription factor genes suggests their putative functions in response to environmental stresses[J]. The Plant Cell，2002，14（3）：559-574.

[14] MUKHTAR M S， DESLANDES L， AURIAC M C， et al. The Arabidopsis transcription factor WRKY27 influences wilt disease symptom development caused by Ralstonia solanacearum[J].Plant J，2008，56（6）：935-947.

[15] PARK C J， SHIN Y C， LEE B J， et a1. A hot pepper gene encoding WRKY transcription factor is induced during hypersensitive response to Tobacco mosaic virus and Xanthomonas campestris[J]. Planta，2006，223（2）：168-179.

[16] OH S K， YI SY， YU S H， et a1. CaWRKY2，a chili pepper transcription factor，is rapidly induced by incompatible plant pathogens[J].Mol Cells，2006，22（1）：58-64.

[17] OH S K， BAEK K H， YI S Y， et al. Capsicum annuum WRKY protein CaWRKY1 is a negative regulator of pathogen defense[J].New Phytologist，2008，177（4）：977-989.

[18] CORMACK R S， EULGEM T， RUSHTON P J， et al. Leucine zipper-containing WRKY proteins widen the spectrum of immediate early elicitor-induced WRKY transcription factors in parsley[J]. Biochimica et Biophysica Acta，2002， 1576（1-2）：92-100.

[19] ULGEMT， RUSHTON P J， SEHMELZER E， et al. Early nuclear events in plant defence signaling：Rapid gene activation by WRKY transcription factors[J]. EMBO J，1999（18）：4689-4699.

[20] WIM G， MANSOUR K， KRZYSZTOF W， et al. A role for AtWRKY23 in feeding site establishment of plant-parasitic nematodes[J]. Plant Physiology，2008，148；358-368.

[21] 田云，卢向阳，彭丽莎，等.植物WRKY转录因子结构特点及其生物学功能[J]. 遗传，2006（12）：1607-1612.

生物信息学分析例2

20世纪80年代末以来，生物信息学以惊人的发展速度，获得了很多突破性成就，正日益成为生命科学在21世纪发展的核心内容。对于未来生物科学中坚力量的现代生物科学工作者而言，掌握生物信息学的相关知识尤为重要。

作为一门新兴的课程，生物信息学课程在全国很多高等院校都已经开设，并进行了一些卓有成效的探索和改革。我们结合自身的教学实践和相关学校的教学现状，对师范院校生物信息学课程教学内容、师资力量、教学模式和方法、跨学科合作、教学实践实施情况等方面的现状进行了积极分析和思考。目前，师范院校生物信息学教学的现状如下。

一、教学内容陈旧、教学资源缺乏

生物信息学是一门新兴的学科，在高等院校开设时间较晚，我国对生物信息学专业精品课程的建设方面投入不够，成熟的生物信息学教学大纲、教案、多媒体课件、教学视频和习题等教学资源稀少。目前，市场上也缺乏相关的生物信息学教学多媒体课件和音像制品辅导材料等相关产品，造成生物信息学教学资源匮乏的现状。

目前师范院校所用教材大多数是徐程主编的《生物信息与数据处理》，蒋彦等编著的《基础生物信息学及应用》等几种不同版本的教材。这些教材在知识性、科学性和系统性方面还行，但是在教学内容的新颖性、时效性和实践性以及生物相关背景的介绍和对师范院校的适用性等方面有所欠缺。生物信息学的知识日新月异，新的数据库、新的软件、新的算法层出不穷，而生物信息学的课堂往往不能及时地将最新进展呈现给学生，导致课堂内容陈旧，不利于学生的发展和对生物信息知识的合理掌握，从而影响了生物信息学教学的质量。

二、师资力量缺乏

生物信息学是一门新兴的交叉学科，需要熟练掌握计算机与生物学知识的老师来授课。然而，实际上，由于缺少生物信息学的专业教师，教授该学科的教师多为生物学其他课程兼任，这些老师往往缺乏专门的生物信息学训练，在知识的传授和应用方面存在欠缺。与生物信息学教学要求存在着较大的差距，不能很好地满足教学大纲的要求。另外，师范院校通常将生物信息学作为选修课来开设，该课程在专业建设和人才培养方案中的地位偏低，造成相关部门对师资培养不够重视。

三、教学模式和方法落后

由于生物信息学课程涉及大量的数据库和软件知识，教师普遍采用多媒体教学。而多媒体课件的容量通常很大，学生忙于笔记，难以把握重难点。同时，幻灯片展示的知识点犹如放电影一般一闪而过，学生没有足够的时间思考和消化，跟不上教师的进度。教师进行多媒体教学时，往往是一堂课上从头讲到尾，语调缺乏抑扬顿挫，没有起伏，学生很容易昏昏欲睡。因此，教师虽然使用的是先进的教学工具，采用模式的却是传统的灌输式教学，只管埋头照本宣科，不管学生接收领悟多少。学生为了达到期末考试标准，只顾死记硬背，这样的教育让学生失去创新精神和主动思考的能力，失去对生物信息课程的兴趣。

四、缺乏与相关学科的合作交流

生物信息学实际上是生物学与计算机科学的交叉学科。然而一般高校往往只在生命科学学院开设生物信息学，由生物学老师来担任授课老师。由于对计算机科学知识的缺乏，导致生物专业教师对生物信息学课程很难深入开展；另一方面，计算机科学专业由于没有开设生物信息学课程，使学生不能了解到生物信息学的重要性，以及如何使计算机科学更快更好地发挥其在生物信息学中的作用。总的来说，生物信息学课程的建设欠缺相关学科的协作，不能有效地整合资源，不利于培养复合型人才。

五、缺乏实践教学内容

现有的生物信息学课程也有一些实践内容，但实践课时数少，内容相对简单，缺乏系统完善的实践过程。教师为学生讲授具体知识时，通常只通过多媒体课件演示操作，并没有为学生设置具体的动手操作步骤。使得学生对信息反馈迟钝，印象不深刻，不容易掌握方法。生物信息学实践教学并不需要价格昂贵的实验设备，只需要一网的电脑和一些相关的分析软件便可以进行实验。然而，目前的状况是，生物信息学课程中真正开展实践性教学的内容少之又少。

生物信息学的学习是一个长期积累的过程，教学水平的提高也需要在大量的教学实践中不断总结和完善。我们通过分析发现，在师范院校生物信息学教学中仍存在很多问题，其原因是多方面的，需要教学工作者进一步深入探讨并提出切实可行的策略。

参考文献：

[1]汤丽华.浅谈大学本科生物信息学课程建设与教学[J].科技

信息,2010(1).

[2]贾小平,孔祥生.生物信息学实践教学初探[J].陕西教育,

2010(3).

[3]军.农学专业生物信息学课程教学改革探析[J].现代农

业科技,2010(5).

生物信息学分析例3

2 结果与分析

2.1 黄瓜DVR基因序列的分析

根据DNAMAN软件分析可知，DVR基因序列全长1260pb，分别以ATG和TGA为起始密码子和终止密码子，共编码419个残基（图1），编码的蛋白质分子质量为45516 Da。

2.2黄瓜DVR及其同源序列的分析进化树

根据MEGA软件分析，将进化树分为五段，分别是四种白梨、野草莓、香瓜、两种黄瓜和鹰嘴豆（图2）。黄瓜DVR与黄瓜（JX239753.1）的同源基因关系最为接近，几乎完全相同，其次为香瓜，测得黄瓜与香瓜的同源距离约为0.029，与鹰嘴豆基因关系最远，测得它们之间的距离达到0.357。

2.3 黄瓜DVR蛋白二级结构预测

通过sopma在线软件预测可知，该蛋白由419个氨基酸组成，其中α螺旋和无规则卷曲所占比例最高，α螺旋有146个，占总数的34.84%，无规则卷曲有140个，占总数的33.41%。β折叠数量略少于无规则卷曲，但远多于β转角（图3）。

2.4 黄瓜DVR蛋白跨膜结构分析

跨膜结构域一般富含疏水性氨基酸残基，起着固系于细胞膜中的“抛锚”作用，具有跨膜结构域的蛋白属于跨膜蛋白类。通过TMHMM在线软件预测可知，横坐标表示氨基酸残基位置，纵坐标表示残基具有相应结构的可能性，结果显示，联乙烯还原酶蛋白没有检测到跨膜区，可能不是跨膜蛋白，联乙烯还原酶蛋白极可能为覆盖蛋白（图4）。

2.5 黄瓜DVR蛋白的亲疏水性预测

用protscale软件分析可知，图中大于零的氨基酸为疏水性氨基酸，小于零的氨基酸为亲水性的氨基酸。通过预测可知，组成联乙烯还原酶蛋白的氨基酸中高亲水性的氨基酸的位点有两个（图5），分别是57和58，分值都是-2.667；组成联乙烯还原酶蛋白的氨基酸中高疏水性的氨基酸的位点206，分值是2.978。

3 讨论

本实验预测得黄瓜联乙烯还原酶蛋白为亲水性的非跨膜类蛋白，通过对蛋白质二级结构的预测可知，黄瓜联乙烯还原酶蛋白二级结构以α螺旋和无规则卷曲为主；根据同源序列的遗传距离得知黄瓜DVR与黄瓜（JX239753.1）同源基因关系最近，与鹰嘴豆基因关系最远。

绝大多数绿色植物进行光合作用离不开叶绿体的存在[11]，而联乙烯还原酶是生物合成叶绿素必不可少的一个关键酶，迄今已在高等植物中检测到5种DVR活性[12]。联乙烯还原酶具有活性，对叶绿素的生物合成途径具有十分重要的意义

[13]。联乙烯蛋白酶基因的突变可能会引起联乙烯还原酶失活，对植物的生存、生长和繁殖造成较大的影响

[15]。应用生物信息学方法对已知黄瓜DVR序列进行比对、分析，从而对其结构和功能进行推断和预测，这可以为我们在开展试验研究前提供尽可能多的信息，从而为选择合适的试验方法提供理论参考，为进一步对该基因的功能研究提供线索。

[参考文献]

[1]闫世江，张继宁，刘洁. 低温对黄瓜伤害的研究进展[J]. 蔬菜， 2010， 5（10）：31-34.

[2] 陈惠明，刘晓虹. 黄瓜性型遗传规律的研究[J]. 湖南农业大学学报：自然科学版， 1999， 25（1）：40-43.

[3] 孙洪涛. 黄瓜果实横径遗传分析及分子标记[D]. 哈尔滨：东北农业大学， 2010.

[4] 曾维华. “黄瓜”始名考[J]. 上海师范大学学报：哲学社会科学版， 2000， 29（4）： 313-315.

[5] Nielsen J G， Newman M， Nielsen H. Control and testing of a dynamic voltage restorer （DVR） at medium voltage level [J]. IEEE Transactions on Power Electronics， 2004， 19（3）：806-813.

[6] 王平荣，邓晓建. 高等植物叶绿素生物合成的联乙烯还原酶及编码基因研究进展 [J]. 西北植物学报， 2013， 33（4）：843-849.

[7] 王江波. 中国水仙LTR反转录转座子研究及IRAP、REMAP分子标记的开发 [D]. 福州：福建农林大学， 2012.

[8] 李凤梅，盖雪梅. 半胱氨酸蛋白酶抑制剂的系统发生分析（英文） [J]. 农业科学与技术， 2010， 14（2）： 44-54.

[9] 廖文彬，崔百明，温玮. 赤霉素负调控因子GhRGL（RGL-LIKE）基因序列与功能预测分析 [J]. 热带作物学报， 2009， 30（2）： 773-781.

[10] 张繁. 结核分枝杆菌哺乳动物细胞入侵因子mce家族Rv0590A基因的性质及功能研究 [D]. 重庆：西南大学， 2011.

[11] 兰金苹，李莉云，贾霖，曹英豪，白辉. 叶绿体基因编码蛋白质在水稻叶片生长过程中的表达研究[D]. 保定：河北农业大学， 2011.

生物信息学分析例4

【关键词】新基因;EOLA1;生物信息学

【Abstract】 Objective To explore the biological function of human novel gene EOLA1.Methods Many bioinformatics methods were used to analyses and predict the function of EOLA1 based on the fulllength cDNA of EOLA1.Results We didn’t find any human protein high homologous with EOLA1 by homology comparison on line.However，EOLA1 was high homologous with rat 111002L19 protein of which the function was unclear up to now.The genomic DNA of EOLA1 contained 5 exons，spanning about 6 294 bps，and was mapped to human chromosome Xq27.4.We found that EOLA1 secondary structure contained αhelix，βLamellosa and βturn，and a helixturnhelix(HTH)motif by bioinformatics analysis.We scanned PROSITE of EOLA1 on line，and found that EOLA1 contained:(1)Nglycosylation site(3639 NCTI);(2)Protein kinase C phosphorylation site(79 SFR，3335 SQR);(3)Casein kinase II phosphorylation site(100103 TPDE).Conclusion The information got by bioinformatics analysis indicates that EOLA1 may play an important role in process of Human vascular endothelial cell activation as a transcription factor.

【Key words】 novel gene;EOLA1;bioinformatics

随着人类基因组计划和越来越多的真核生物基因组完成，现代基因工程学已经步入了后基因组时代[1]。研究的热点从基因测序转移到基因功能表达与调控。近年来可用的基因序列与结构信息的指数级增长，生物信息学领域，或称之为计算生物学(computational biology)领域在基础生物医学领域起着越来越大的作用[2]。生物信息学是内涵非常丰富的学科，其核心是基因组信息学，包括基因组信息的获取、处理、存储、分配和解释。基因组信息学的关键是“读懂”基因组的核苷酸顺序，即全部基因在染色体上的确切位置以及各DNA片段的功能;同时在发现了新基因信息之后进行蛋白质空间结构模拟和预测，然后依据特定蛋白质的功能进行药物设计[34]。了解基因表达的调控机理也是生物信息学的重要内容，根据生物分子在基因调控中的作用，描述人类疾病的诊断、治疗内在规律。它的研究目标是揭示“基因组信息结构的复杂性及遗传语言的根本规律”，解释生命的遗传语言。生物信息学已成为整个生命科学发展的重要组成部分[56]。人类对基因的认识，将从以往的对单个基因的了解，上升到在整个基因组水平上考察基因的组织结构和信息结构，考察基因之间在位置、结构和功能上的相互关系[78]。

近来的研究表明，基因组不仅是基因的简单排列，它有其特有的组织结构和信息结构，这种结构是在长期的演化过程中产生的，也是基因发挥其功能所必须的。弄清楚生物体基因组特有的组织结构和信息结构是解译生命遗传语言的关键。Oti等[9]对疾病的潜在基因进行预测和优先排序，对不同的生物信息学策略进行了总结，并列举了一些有用的网络工具和生物信息学方法，为研究疾病相关基因提供了范例。EOLA1是本课题组于2002年应用抑制消减杂交技术发现的人类新基因[10]，本研究中我们基于EOLA1全长cDNA序列，应用目前比较成熟的生物信息学分析方法对EOLA1基因从以下几个方面对其进行比较详细的生物信息学分析:①序列比对;②EOLA1在人类染色体上的定位;③EOLA1结构分析;④编码蛋白理化性质分析;⑤编码蛋白的蛋白质位点和序列模式预测。

1 材料与方法

1.1 序列比对

ncbi.nlm.nih.gov/BLAST/，输入EOLA1的全长序列，应用BLAST工具进行比对分析。对于比对计算产生的分值，用统计学方法加以说明，以了解比对结果是否具有统计学意义。相关的参数E代表随机比对分值不低于实际比对分值的概率。对于严格的比对，E值必须低于一定阈值才能说明比对的结果具有足够的统计学意义，排除了由于偶然的因素产生高比对得分的可能[11]。

1.2 EOLA1在人染色体上的定位

通过基因与基因组重叠群的序列比对，可以快速有效地把基因定位在基因组中。以EOLA1全长序列检索GenBank数据库中的UniGene库，查找与其对应UniGene序列簇(ncbi.nlm.nih.gov/UniGene/clust.cgi)，获得1个同源序列簇，再经网上辐射杂交细胞系(RH)作图系统(ncbi.nlm.nih.gov/genemap)确定EOLA1在染色体定位[12]。

1.3 EOLA1基因结构分析

登陆NCBI相应的网站分析EOLA1 cDNA序列中重复片段、编码区、启动子、内含子/外显子、转录调控因子结合位点等信息。

1.4 EOLA1编码蛋白的理化性质分析

蛋白序列分析软件包ANTHEPROT 4.3是法国的蛋白质生物与化学研究院开发出的蛋白质研究软件包。软件包包括了蛋白质研究领域所包括的大多数内容，功能非常强大。应用此软件包，使用个人电脑，便能进行各种蛋白序列分析与特性预测。我们应用该软件对EOLA1的理化性质进行了详尽的分析。

1.5 EOLA1编码蛋白的二级结构和序列模式预测

二级结构是指α螺旋和β折叠等规则的蛋白质局部结构元件。不同的氨基酸残基对于形成不同的二级结构元件具有不同的倾向性。按蛋白质中二级结构的成分可以把球形蛋白分为全α蛋白、全β蛋白、α+β蛋白和α/β蛋白等4个折叠类型。预测蛋白质二级结构的算法大多以已知三维结构和二级结构的蛋白质为依据，用人工神经网络、遗传算法等技术构建预测方法[1314]。还有将多种预测方法结合起来，获得“一致序列”。总的来说，二级结构预测仍是未能完全解决的问题，一般对于α螺旋预测精度较好，对β折叠差些，而对除α螺旋和β折叠等之外的无规则二级结构则效果很差。二级结构预测我们仍然用ANTHEPROT 4.3软件进行。对于蛋白位点和序列模式预测在expasy.ch/swissmod/SWISSMODEL.html网站上进行。

1.6 EOLA1编码蛋白的同源性比对分析和三维结构预测

蛋白质的三维结构是蛋白质在体内发挥功能的存在形式，能够提供丰富的功能信息。本研究应用SWISSMODEL Workspace蛋白质模建平台对EOLA1编码的蛋白质进行同源性比对分析和三维结构预测[1516]。该平台可以提供在线分析，网址是:http:swissmodel.expasy.org/.根据提示，输入EOLA1氨基酸序列即可反馈同源性蛋白信息和三维结构预测结果。

2 结果

2.1 人新基因EOLA1在GenBank中的序列比对结果

ncbi.nlm.nih.gov/BLAST/，输入EOLA1的全长序列，应用BLAST工具进行比对分析，共有67条序列和EOLA1具有同源性，其中分值大于或等于200且E值小于0.01的共有14条，多为人类新mRNA或假想蛋白的编码序列(图1)。EOLA1和鼠RIKEN基因有77%的同源性，关于该基因的相关信息可以参考文献[15]。

2.2 EOLA1在人染色体上的定位

以EOLA1 cDNA序列检索GenBank数据库中的UniGene库，查找与其对应UniGene序列簇，获得1个同源UniGene序列簇UniGene Cluster Hs.82171(ncbi.nlm.nih.gov/UniGene/clust.cgi).UniGene来自于对GenBank中序列(尤其是EST)自动拼接而形成的序列簇，每一个序列簇可以代表1个唯一的基因，且经网上辐射杂交细胞系(RH)作图系统(ncbi.nlm.nih.gov/genemap)已将每个序列簇在染色体上位置作了确定，因此，UniGene将基因的染色体定位、组织表达谱和同源序列有机地整合在一起。通过比较EOLA1序列与UniGene序列簇的同源性可将其定位于染色体的相应位置，如图2所示将EOLA1定位于人染色体Xq27.4.表1 EOLA1基因的内含子大小及内含子/外显子边界以EOLA1 cDNA序列为起始，查找人X染色体，显示其从152370221～152376515跨越了6 294 bp，被内含子分割为5个外显子，见图3，其中外显子用黑框显示，内含子大小用kb显示。所有的外显子内含子边界序列遵循AG/GT规则(表1)。

图3 EOLA1基因的基因组DNA结构

Fig.3 The genome DNA structure of EOLA1

分析第一个外显子上游5′侧翼区2 kb序列，在-704 kb～-681 kb含预测的启动子，但无典型的TATAbox结构，在该区域附近可找到几个推导的转录因子结合位点，如SP1、GATA1、TFⅢA、GREB、Pit1、AP2B和NF1.至于该区域内是否含真正转录启动子尚须进一步的实验研究。

ncbi.nlm.nih.gov/ORF，在EOLA1基因全长cDNA中找到1个完整的ORF结构，其推导的编码蛋白EOLA1一级结构由158个氨基酸组成(图4)。经同源性检索，与任何已知人类蛋白质无高度同源性。

2.4 EOLA1编码蛋白的理化性质分析

在ANTHEPROT 4.3软件的编辑页面里输入EOLA1的氨基酸序列，另存为EOLA1.seq文件。打开EOLA1.seq文件进行相应的分析。表2显示的是EOLA1各种氨基酸的含量:亮氨酸含量最高(12.65%)，谷氨酸、甘氨酸、缬氨酸次之(均为8.22%)，其余氨基酸含量均小于7%.EOLA1的分子量为17.89 kDa，等电点为6.43，亲水性强(-0.189)。表2 EOLA1各氨基酸残基含量

2.5 EOLA1编码蛋白的二级结构和序列模式预测

图5为ANTHEPROT 4.3软件对EOLA1蛋白二级结构的分析结果，EOLA1存在螺旋、折叠和转角等二级结构模式。H代表螺旋，图中表示为蓝色;E代表折叠，图中表示为橙色;T代表转角，图中表示为绿色;C代表其它松散结构，图中表示为黑色。

对于蛋白位点和序列模式预测在expasy.ch/swissmod/WISSMODEL.html网站上进行，发现EOLA1存在1个螺旋转角螺旋(HTH)基序;无信号肽及跨膜区域，提示EOLA1为胞内可溶性蛋白;经查找PROSITE位点，结果找到(1)N糖基化位点:位于氨基酸3639(NCTI);(2)PKC磷酸化位点:位于氨基酸79(SFR)和氨基酸3335(SQR);(3)酪氨酸激酶Ⅱ磷酸化位点:位于氨基酸100103(TPDE);(4)2个N肉豆蔻酸化位点:位于氨基酸6267(GMTPAQ)和氨基酸8186(GVIAGL).EOLA1蛋白序列及其结构分析见图6.其中，HTH基序用下划波浪线表示:氨基酸5273;N糖基化位点以下划直线表示:氨基酸3639;磷酸化位点分别为:(1)PKC用方框表示:氨基酸79和3335;(2)酪氨酸激酶Ⅱ用下划虚线表示:氨基酸100103;(3)N肉豆蔻酸化用阴影表示:氨基酸6267和8186.

2.6 EOLA1编码蛋白的同源性比对和三维结构预测

应用SWISSMODEL Workspace平台对EOLA1编码的蛋白质进行同源性比对分析和三维结构预测。反馈结果提示EOLA1和Activating Signal Cointegrator 1(ASC1)有17.93%的氨基酸序列一致。SWISSMODEL Workspace平台以ASC1为模板预测出EOLA1的三维结构(图7)。E值为9.20e32，SWISSMODEL Workspace平台估计预测准确度为99.90%以上。图7a为模板蛋白ASC1的三维结构，图7b为预测的EOLA1三维结构图。

3 讨论

疾病相关新基因的功能研究是一项复杂而有重要意义的系统工程。当前人类已步入后基因组研究时代，人类基因组的全部序列已经获得，意味着人类基因组的研究将全面进入信息提取和数据分析阶段，即生物信息学发挥重要作用的阶段。同时功能基因组和蛋白质组的大量数据已开始涌现。如何分析这些数据，从中获得生物结构、功能的相关信息是基因组研究取得成果的决定性步骤。生物信息学是在此背景下发展起来的综合运用生物学、数学、物理学、信息科学以及计算机科学等诸多学科的理论方法的崭新交叉学科。目前已经开发出了非常多的模块和算法[17]，应用于了解新基因基本信息之后进行蛋白质空间结构模拟和预测，然后依据特定蛋白质的功能进行药物设计。了解基因表达的调控机理也是生物信息学的重要内容，根据生物分子在基因调控中的作用，描述人类疾病的诊断、治疗内在规律。它的研究目标是揭示“基因组信息结构的复杂性及遗传语言的根本规律”，解释生命的遗传语言。

对一个新发现的人类疾病相关新基因，我们首先需要应用生物信息学技术对其进行初步分析，预测其生物学功能，为后期的研究指引方向。EOLA1系本课题组于2002年新发现的人类基因，系LPS刺激ECV304细胞后表达上调的基因，在此，我们应用生物信息学技术对EOLA1进行了比较全面的分析。其编码的蛋白EOLA1经网上同源性比对没有发现与之高度同源的人类已知蛋白。EOLA1与鼠111002L19蛋白高度同源，但到目前为止，对鼠111002L19蛋白功能也不清楚。对其二级结构进行预测，发现在EOLA1蛋白分子中存在酪氨酸激酶Ⅱ和蛋白激酶C磷酸化位点以及1个HTH基序。三维结构预测和蛋白质同源性分析发现EOLA1和ASC1有17.93%的氨基酸序列一致性。ASC1系HanJong Kim于1999年确认的一种新的核受体转录辅激动子(transcription coactivator of nuclear receptors)[18]。2006年Lakshminarayan将其归类为ASCH超家族，并认为该家族存在1个和PUA功能域相关的折叠结构，是一个新的功能域，可能参与RNA的代谢。经比对发现EOLA1和ASC1三维结构非常类似，因此可以推测EOLA1可能系ASCH超家族的一员，参与核受体信号的传递。应用生物信息学发现EOLA1具有的这些生物学特征赋予EOLA1具有转导信号的能力，可以作为信号分子发挥作用。在抑制消减杂交实验中，EOLA1属于LPS刺激后表达上调基因。结合该信息我们推测EOLA1可能作为信号分子参与了LPS激活内皮细胞的过程。但对其功能的推测尚须实验证实。

将生物信息学与实验研究有机结合起来，可以显著加快实验进程，并对实验结果有所预期。由于生物信息学分析可以依靠互联网快速进行，且花费低廉，用以指导实验，可以做到有的放矢，避免巨大的浪费;反过来生物信息学分析的结果需要实验验证，并通过实验修正错误。

参考文献

[1] Hubbard MJ.Functional proteomics:the goalposts are moving[J].Proteomics，2002，2(9):10691078.

[2] Bassett DE，Eisen MB，Boguski MS，et al.Gene expression informatics-it's all in your mine[J].Nature genet，2000，21(Suppl):5155.

[3] Thongboonkerd V，Klein JB.Practical bioinformatics for proteomics[J].Contrib Nephrol，2004，141:7992.

[4] NaabyHansen S，Waterfield MD，Cramer R.Proteomicspostgenomic cartography to understand gene function[J].Trends Pharmacol Sci，2001，22(7):376384.

[5] Gevaert K，Vandekerckhove J.Protein identification methods in proteomics[J].Electrophoresis，2000，21(6):11451154.

[6] Yu U，Lee SH，Kim YJ，et al.Bioinformatics in the postgenome era[J].J Biochem Mol Biol，2004，37(1):7582.

[7] MartinSanchez F，Iakovidis I，Norager S，et al.Synergy between medical informatics and bioinformatics:facilitating genomic medicine for future health care[J].J Biomed Inform，2004，37(1):3042.

[8] Marijuan PC.Bionformation:untangling the networks of life[J].Biosystems，2002，64(13):111118.

[9] Oti M，Brunner HG.The modular nature of genetic diseases[J].Clin Genet，2007，71(1):111.

[10] 梁自文，罗向东，杨宗城.应用抑制消减杂交克隆内皮细胞内毒素刺激后相关基因[J].解放军医学杂志，2002，17(4):349351.

[11] Frommlet F，Futschik A，Bogdan M.Admin:on the significance of sequence alignments when using multiple scoring matrices[J].Bioinformatics，2004，20(6):881887.

[12] Miller RT，Christoffels AG，Gopalakrishnan C，et al.A comprehensive approach to clustering of expressed human gene sequence:the sequence tag alignment and consensus knowledge base[J].Genome Res，1999，9(11):11431155.

[13] Kaur H，Raghava GP.Prediction of alphaturns in proteins using PSIBLAST profiles and secondary structure information[J].Proteins，2004，55(1):8390.

[14] Horng JT，Huang HD，Wang SH，et al.Computing motif correlations in proteins[J].J Comput Chem，2003，24(16):20322043.

[15] Arnold K，Bordoli L，Kopp J，et al.The SWISSMODEL Workspace:a webbased environment for protein structure homology modelling[J].Bioinformatics，2006，22:195201.

生物信息学分析例5

【关键词】生物信息学数据库应用

现代社会是一个信息化的社会，人们每天进行各种信息的交流愈加频繁，在这个信息化的时代，计算机以及信息技术为人们信息的交流提供了重要的工具。生物信息学数据库的建设与应用就是利用了现代的计算机信息技术对生物信息进行存储、检索与分析。

1 生物信息学数据库

生物信息学是建立在应用数学、计算机科学以及生命科学等多学科基础之上的交叉学科，这门学科的主要任务就是探究如何高效地获取生物学信息，对信息进行处理与分析，存储信息以及应用生物学信息。数据库技术主要解决了将世界海量的生物学数据、已有的研究成果以及技术信息等收纳并存储在数据库中，这样可以大大方便人们的生物研究与信息的查询与借鉴。

2 数据库的分类与特点

生物信息学数据库中的数据种类极为多样，其数据库中的信息覆盖面也极为广泛，数据信息很全面；数据库的信息更新速度快，信息的内容更新的也很丰富；数据库的规模在不断地扩大，数据库的复杂性也在不断增加；在使用上更加地网络化、便捷化。

2.1 一级数据库（一次数据库）

在生物信息学数据库中的一级数据库主要包括了核酸和蛋白质一级结构序列数据库，基因组数据库以及生物大分子（主要为蛋白质）的三维空间结构数据库，通常称为基本数据库。一级数据库的明显优势就是在这个数据库中数据的信息量很大，海量信息存储在数据库中并且数据每天都在增加，数据的信息也会及时更新并且更新速度很快，一级数据库的用户量也很多并且用户面也很广泛。因此以及数据库的建立是需要性能高的、磁盘的容量很大的并且拥有专门的数据库信息管理系统的计算机作为载体来支撑这些功能的完成。另外，数据信息还需要一些大型的商业软件作为数据管理的支撑。例如，在我国的生物信息学研究所中使用的是Oracle数据库系统，这种软件管理系统可以较好地将数据进行管理与分类。研究所中针对基因组的数据库进行管理以及运行则主要是基于Sybase数据库系统来完成的。

2.2 二级数据库

所谓的二级数据库主要是以一级数据库以及文献资料为基础建立起来的数据库，也称专业数据库。二级数据库相较于一级数据库，其数据信息的容量也小得多，数据信息的更新速度也相对要慢一些。二级数据库不需要大型的商业软件来支撑数据库的管理，可以直接使用一些基本的浏览器，如web浏览器。二级数据库有很多种类，例如，基于核酸数据库建立的二级数据库中有真核基因顺式调控元件和反式作用因子数据库的TransFac数据库，以及真核基因启动子数据库EPD，密码子使用表数据库CUTG等。基于三维空间结构为基础构建的数据库有蛋白质二级结构构象参数数据库DSSP，已知空间结构的蛋白质家族数据库FSSP等。

3 生物信息学数据库的应用

3.1 序列的比较

所谓的序列的比较主要是指将两个序列中的各个元素放在一起然后按照对应等同的关系对元素进行有关的排列。对于两个序列中共有的那些排列顺序表示的是这两个序列的相似程度是较高的，是对序列的一种较为定性的描述。对于最优的排列主要是反应在这两个序列中的最大相似程度以及最少相异处，现在较为普遍寻找最优排列的方法是通过动态的规划算法来寻找最优序列。一般来说，对于一个新的序列以及数据库中的某个序列的比较是可以在非常短的时间内就可以比较出来的，但是由于基因数据库中的数据极为繁多，因此在这个序列中的比较会相对花费较长的时间才可以比较出来，尤其是逐个对比的时候，所需要的时间更长。所以，现在对于基因数据库中的序列的比较主要是使用搜索计较算法来进行序列的比较。另外，关于序列的搜索主要是有两种使用较为普遍的使用程序，一个是BLASR程序，另外一个是FASTA程序，这两个程序在实践应用中是比较成功的，其可以根据给定的序列，然后在基因数据库中快速地找出一些同源的序列，进而提高搜素与比较的速度。例如，在BLASR这个程序中主要使用的是一种对于序列的数据进行局部的对比与分析，这可以较快找出一些同源的序列，然后进行比较找出较优的序列，因为这种程序可以较快提高比较速度，软件的使用性能也不错，因而在实践中应用度较广。

3.2 数据挖掘技术

随着生物信息学的数据库的数据在飞速增长，怎样在海量的信息中提取出用户需要的信息成为一个问题的关键，也是在生物技术信息数据库的应用中需要解决的一个问题。另外，如何在已有的数据信息中以及从基因数据库中识别出编码的蛋白质的基因，如何对识别的基因进行多种信息的表达与控制，如何解读出生物的遗传密码，分析出蛋白质的相关结构以及功能等都是需要面对以及解决的问题，也在当下生物信息学数据库中面临着的比较棘手的困难。针对上述问题，在实践应用中比较常用的是一种数据的挖掘技术。这种信息挖掘技术可以高效地从数据库的海量信息中挖掘出有效的信息或者生物知识。这种数据挖掘的技术主要就是从数据库中这些海量的信息、随机的信息数据中提取出一些人们以前不知道的但确实是有用的信息来提供给用户使用。用户通过这种技术可以高效地找出自己需要的信息与知识，因此这种技术具有很强的应用性，值得推广与应用。

4 结束语

关于生物信息学数据库以及应用方面还有很多需要探究的方面，本文主要是对其进行了一些简单的介绍，并没有很详细的延展开来，需要在今后继续分析与研究。但可以肯定的是很多的生物技术的研究都是需要数据库的支撑来促进世界生物技术的发展与进步。

参考文献

[1]赵屹，谷瑞升，杜生明.生物信息学研究现状及发展趋势[J].医学信息学杂志.2012，33（5）：2-6.

生物信息学分析例6

［abstract］ objective: to clone and analyze lactase gene from lactobacillus delbrueckii bulgaricus. methods: cloned lactase gene from lactobacillus delbrueckii bulgaricus with pcr, made sequencing and bioinformatics analysis. results: cloned lactase gene (3 024 bp) successfully. it was presumed that the lactase gene encode 1 008 amino acids, with protein molecule 114 kda, isoelectric point 4.9, 9 potential glycosylation sites in amino acid sequence. made homology comparison with other lacteses. conclusion: the lactase gene is cloned successfully and the bioinformatics analysis is made by biological analysis software to investigate its character. it provides foundation for further study and colonization at low cost.

［key words］ lactase gene; clone; bioinformatics analysis

乳及乳制品含有丰富的优质蛋白质、脂肪、碳水化合物以及几乎全部已知的维生素和多种矿物质，还含有免疫球蛋白等抗病因子，易被人体消化吸收，是人类改善营养、增强体质的理想食品［1］。除此之外，在牛乳等制品当中还含有5%左右的乳糖,它是牛奶中主要的碳水化合物，对人体有着重要的作用。主要表现在于乳糖能促进钙质吸收及整理肠道的功效，特别是乳糖被分解后的半乳糖是婴儿脑发育的必需物质，与婴儿大脑的迅速成长有密切关系。然而，人体却不能直接利用乳糖，它必须被乳糖酶分解为单糖的葡萄糖及半乳糖后才能被吸收和利用。据研究发现，世界各国人口都有不同程度的乳糖酶缺乏，东方人乳糖酶缺乏高达85%［2］，从而导致“乳糖不耐症”的发生。

乳糖酶(ec3．2．1．23，又名β?半乳糖苷酶)能将牛乳中的乳糖水解为葡萄糖和半乳糖，并具有半乳糖苷的转移作用［3］。利用该酶生产低乳糖制品或口服酶制剂，能够有效解决“乳糖不耐症”问题。乳糖酶广泛存在于扁桃、桃、杏、苹果和咖啡豆等植物中，大肠杆菌、乳酸杆菌、酵母菌和霉菌等微生物中，以及有效哺乳动物的小肠等器官和皮肤组织中。然而，不同来源的乳糖酶，其酶学性质相差很大。本研究从保加利亚德氏乳杆菌中成功的克隆出乳糖酶基因，并利用生物分析软件对其进行生物信息学分析。了解该酶的性质特征，为进一步研究及低成本表达该酶奠定基础。

1 材料与方法

1.1 材料

1.1.1 菌株与质粒保加利亚德氏乳杆菌购买于广东省微生物研究所菌种保藏中心；大肠杆菌dh5α由本室保存；pgm?t vector购于北京天根生化科技有限公司。

1.1.2 试剂材料细菌培养试剂购于sigma公司；引物由上海生工合成；la dna聚合酶购于自大连宝生物公司；细菌基因组提取试剂盒、dna胶回收试剂盒、小量质粒提取试剂盒、dna ladder购于北京天根生化科技有限公司；t4连接酶、琼脂糖、荧光染料由本室保存。

1.2 方法

1.2.1 保加利亚德氏乳杆菌基因组dna的提取

用灭菌双蒸水溶解干冻管里的保加利亚德氏乳杆菌，并划平板到mrs固体培养基，37 ℃培养72 h，挑取单个菌落于mrs液体培养基进行增菌（37 ℃摇床）。利用细菌基因组提取试剂盒提取保加利亚德氏乳杆菌基因组dna，并用1%的琼脂糖凝胶电泳检测纯度。

1.2.2 引物设计与合成从genbank数据库中检索到保加利亚德氏乳杆菌中乳糖酶基因序列（genbank序列号：gi149564）设计引物如下：p1：5'?5' cgcggatccgcgatg agc aa taagtta?3'；p2：5'?ccgctcgagcggttattttagtaaaaggg?3'。上述引物由大连宝生物工程有限公司合成(下划线碱基分别为bamh i和xho i酶切位点)。

1.2.3 乳糖酶基因的pcr扩增与鉴定反应总体积为25 μl：模板dna(1 μg/μl) 3 μl，10×buffer2.5 μl,mg2+( 25 mm)2.0 μl, dntp(2．5 mm)2.5 μl,引物p1(10 pmol／μl) 0.4 μl,引物p2 (10 pmol／μl)0.4 μl,la dna聚合酶(5 u/ul)0.2 μl,双蒸水14 μl；反应条件：98 ℃，1 min;94 ℃,30 sec;50 ℃,30 sec;72 ℃,4 min; 30个循环；72 ℃，5 min.然后用1％的琼脂糖凝胶电泳检测，同时加上500 bp ladder对pcr产物进行初步鉴定。

1.2.4 乳糖酶基因的克隆与鉴定 pcr扩增出目的基因，1%琼脂糖电泳，切胶后用dna胶回收试剂盒进行纯化，得到纯化的pcr产物与pgm?t vector进行连接（4 ℃，24 h），转入新制备［4］的感受态大肠杆菌dh5α，再涂于含氨苄青霉素的lb培养基上37 ℃培养过夜，用接种针分别挑取仅有的4个菌落于含氨苄青霉素的lb液体培养基上增菌培养（做好标记）。采用小量质粒提取试剂盒分别对4管菌液提取质粒。采用三酶切(bamh i、xho i和pvu i)和pcr两种方法对重组子进行鉴定。经鉴定的阳性重组质粒由北京天根生化科技有限公司测序。

1.2.5 乳糖酶基因序列的生物信息学分析利用生物软件dnassist version2.0对该序列进行物理化学性质的分析，推测其氨基酸序列。利用在线分析软件sopma对其进行二级结构分析以及在线分析软件netnglyc1.0进行蛋白质功能位点预测。并利用在线分析软件blast在genbank 数据库中进行同源性分析［5］。并利用dnaman软件绘制其同源关系图。

2 结果与分析

2.1 乳糖酶基因克隆与鉴定

用细菌基因组提取试剂盒提取保加利亚德氏乳杆菌基因组dna，1%琼脂糖凝胶电泳，可见到清晰的条带，说明获得高质量的基因组dna。以该基因组dna为模板，进行目的基因的pcr扩增，结果可扩出3 024 bp的目的片段。将该目的基因片段进行胶回收纯化后，与pgm?t vector进行连接，转化感受态大肠杆菌dh5α，通过氨苄青霉素筛选，得到4个菌落，4个菌落分别在含有氨苄青霉素的lb液体培养基上增菌培养，采用小量质粒提取试剂盒分别对4管菌液提取质粒。pcr及酶切（如图1）所得质粒，电泳结果发现第3号质粒成功地被三酶切，得到3 024 bp的目的基因，初步证明包含乳糖酶dna的重组质粒pgm?t?lacz构建成功。注：1、2、3、4号为质粒三酶切，5号为500 bp ladder

2.2 测序结果及生物信息学分析

序列测定证明．构建的重组载体中含有乳糖酶全长编码序列，经blast同源性分析，与genbank中登录的序列完全一致。利用生物软件dnassist 2.0对已克隆基因进行分析，其结果推测出肽链具有1 008个氨基酸，该蛋白分子量为114kda，等电点为4.9。利用在线分析软件sopma对其蛋白序列进行二级结构分析，结果发现该蛋白氨基酸序列中有205个氨基酸组成α?螺旋，占氨基酸总数的20.34%；64个氨基酸组成β?折叠，占总数的6.35%；489个氨基酸随意缠绕，占总数的48.51%；250个氨基酸组成扩展链，占总数的24.8%（如图2）。蓝条带代表α-螺旋的位置；绿条带代表β-折叠的位置利用在线分析软件netnglyc1.0对该蛋白功能位点进行预测，结果发现该蛋白序列共有9处潜在糖基化位点：nasf?258、nqsl?389、nesy?464、nsss?635、nesy?878、nfsp?900、nrsk?912、nlsa?938、nytw?961。

2.3 乳糖酶基因同源性比较

将本实验已克隆出的乳糖酶基因翻译成氨基酸序列，通过在线分析软件blast与genbank 数据库中含有乳糖酶基因的氨基酸序列进行同源性比较，结果发现与乳糖分解酵素的同源性高达到99%，而其他却较低，分别是链球菌49%；乳酸菌46%；酪酸梭状芽胞杆菌45%；产气荚膜梭菌45%；长双歧杆菌45%。利用dnaman软件对同源性比较所得结果进行同源关系图的绘制（如图3）。

3 讨论

乳糖是牛奶中主要的碳水化合物，全脂牛奶中约30％的热量和脱脂牛奶中60％的热量都是由乳糖提供。然而对于“乳糖不耐症”的人群来讲，无法充分利用这种能量，一旦身体的能量需求不能得到满足(营养不良的儿童)，蛋白质就仅被用于满足能量需要，而不能作为构成人体蛋白的单元。除此之外，乳糖还是矿物质成分的载体，可促进矿物质元素的吸收。因此，假如乳糖不被吸收，它将被排放到肠中被肠道微生物发酵产酸产气，从而导致胃肠功能失调，并造成有价值的蛋白质和矿物质的损失，如铁、锌、钙质的丢失，这与小儿佝偻病和成年人的骨质疏松症都有着密切的关系。然而，乳糖是一种双糖，因为分子太大，不能被人体直接吸收，需要被小肠中的乳糖酶分解为葡萄糖和半乳糖，然后再被人体吸收［6，7］。

据研究发现，随着人类的生长发育，体内乳糖酶活性却呈规律性衰减，其中我国就有75%～95%［8］，最终造成“乳糖不耐症”的发生。由此可见，人体不断补充乳糖酶至关重要。当今乳糖酶广泛应用于食品行业，特别是乳品行业，需求量逐年增加。然而，国内大量的乳糖酶的需求都基本须来自于进口，价格昂贵，因此，研发出一套能够低成本生产乳糖酶的方法迫在眉睫。本研究通过保加利亚德氏乳杆菌，成功的克隆出乳糖酶基因。并利用生物软件对其进行生物信息学分析，了解该酶的理化性质，为下一步表达及制作口服片剂奠定基础。并通过二级结构及糖基化位点的预测为今后对该酶的进一步研究和应用提供很好的数据平台。

【参考文献】

1 许牡丹，范金波，檀志芬，等．米曲氍β?半乳糖苷酶的纯化与性质研究［j］．陕西科技大学学报，2003，2l(4):13?16．

2 calloway dh， colassito dj, mathens rd. gases produced by human intestinal microflora［j］. nature, 1966, 212:1238?1239.

3 高焕春．乳糖酶的特性及其在乳品工业中的应用［j］．中国乳品工业，1996，24(3):19?21．

4 sambrook joseph sambrook, t.maniatis. eds.2nd ed．molecular cloning: a laboratory manual［m］．new york:cold sping harbour laboratory press,1989.10．

5 altschul sf, madden tl, schaffer aa, et al. gapped blast and psi?blast: a new generation of protein database searchprograms［j］. nucleic acids res, 1997,25(17):3389?3402.

生物信息学分析例7

中图分类号：R318.04 文献标识码：A 文章编号：0439-8114（2014）17-4199-06

Bioinformatics of the Transcription Factor NAC with Stress Resistance

KANG Mei-ling， ZHOU Zhen-hua， TIAN Zhong-jing， MING Dong-feng， MA Li

（College of Life Science， Zaozhuang University， Zaozhuang 277160，Shandong，China）

Abstract：Physicochemical property， hydrophobic/hydrophilic，membrane structure，secondary structure，functional domains of resistance-realated members in the family of plant transcription factor NAC were analyzed with bioinformatics. The results showed that primary structure of 17 NAC members had obvious hydrophobic and hydrophilic areas， -helix and β-sheet were discovered in their primary structure prediction. Their secondary structure was composed of -helix， β-sheet and irregular curl. Three-dimensional structure of the NAC proteins was established by homology modeling. Phylogenetic analysis showed that they were divided into four groups. By the alignment of multiple sequence，conservative sections of these members were obtained and a pair of primer was designed. The work will pave the way for further studing the expression regulation of the NAC transcription factors related with resistance.

Key words：transcription factor；NAC；bioinformatics analysis；resistance

生物体内有大量的转录因子存在，它实际上是一种反式作用因子，存在于众多不同的信号转导途径中，可以特异地与顺式作用元件结合，从而调控目标基因的表达，是各种生化生理活动调节的关键所在[1]。根据DAN结构域的不同可以把转录因子分为很多家族，其中NAC家族就是一种具有多种生物功能的植物特异转录因子。1996年，Souer等[2]在矮牵牛中获得了第一个NAC基因。之后，研究者在拟南芥中发现了CUC2[3]。CUC2和NAM同属于NAM亚族，水稻的ONAC300、金鱼草的CUP和南瓜的CmNACP也属于这个亚族[4]。Vroemen等[5]从拟南芥中分离到与CUC1和CUC2同源的CUC3。CUC促进茎尖分生组织的分化，参与器官边界的形成。随后，AtNAM的发现及其相关功能的研究表明，分生组织的形成和器官边界的建立与AtNAM密不可分[6]。2003年，Ooka等[7]首次将NAC家族分为2个大组和18个亚组。之后对NAC亚家族成员的研究基本上都是以Ooka的分类为依据展开的。作为具有重要功能的转录因子，利用生物信息学的方法对其进行全面分析，有助于获取关于NAC家族更多的信息，从而为其功能基因组学的研究提供更为详尽的数据。

1 转录因子NAC的结构特点与生物学功能

NAC转录因子有着鲜明的特点，在其蛋白质的N端有高度保守的约150个氨基酸组成的NAC结构域。NAC结构域不包含任何已知的蛋白质结构域，而是由几个不规则的卷曲螺旋围绕着一个扭曲的β-折叠片构成，与典型的螺旋-转角-螺旋结构有较大差别[8]。典型的NAC蛋白质的N端有一段高度保守区，该区可进一步分成A～E五个亚结构域，可结合蛋白质或DNA，也可参与二聚化过程。碳端是高变区，对转录过程起调控作用[9]。

NAC转录因子是植物中最大的转录因子家族之一，广泛分布于苔鲜植物到高等双子叶植物中。研究表明，NAC转录因子具有诸多生物功能，详见表1。

2 数据与方法

从NCBI网站的GenBank数据库中筛选了17种NAC家族中与抗逆性有关的核苷酸序列及其对应的氨基酸序列，以此作为试验分析数据（表2）。

分析方法：NAC编码蛋白质的理化性质采用Protparam预测；疏水性/亲水性采用ProtScale进行预测；跨膜结构域采用TMPred预测；卷曲螺旋采用COILS预测；蛋白质二级结构采用GOR4预测；蛋白质亚细胞定位采用WOLF PSORT预测；蛋白质三维结构分析与同源建模采用CPHmodels和RasMol-Raindy进行；进化树的构建采用软件ClustalW2和MEGA 4.1进行分析，各分析软件的网址见表3。

3 结果与分析

3.1 蛋白质的一级结构分析

3.1.1 氨基酸序列的理化性质分析利用在线分析软件Protparam对17种NAC家族成员逐一进行分析，得出对应氨基酸序列的理化性质分析结果。结果（表4）表明，这些成员的氨基酸残基数为293～464，分子量为33 164.7～51 493.5，差异比较小，PI值多在6～8范围内。经分析发现，含量最丰富的氨基酸有Ser、Gly、Pro、Ala等。这些氨基酸使蛋白质序列有较多的负电荷。通常不稳定系数小于40，则认为该蛋白质是稳定的，反之则不稳定。供试的17种NAC成员有8种是不稳定的，推测这8种成员在植物体内可能是阶段性出现，如在受到胁迫诱导时才会表达的一些蛋白质，会表现出一定的不稳定性，而长期存在于植物体内的NAC成员则相对稳定。另外，这17种成员的平均疏水性皆为负值，都在-0.6左右，说明这些蛋白质是亲水性蛋白质。

3.1.2 疏水性/亲水性的预测和分析蛋白质亲疏水性氨基酸的组成是蛋白质折叠的主要驱动力，通过亲水性预测可以反映蛋白质的折叠情况。蛋白质疏水区域可以作为评判潜在跨膜区的参考依据。采用ProtScale对17种NAC家族成员蛋白质序列进行分析（图1），发现这17种成员在40～50区、110～130区有较强的疏水性，表明这些区段很可能以-螺旋的形式存在，在60～80区域有着强烈的亲水性，表明该区段是由一些非-螺旋的二级结构组成。

3.1.3 跨膜结构的预测和分析跨膜结构是蛋白质和膜内在蛋白质通过静电作用和氢键键合作用与膜结合而形成的一段氨基酸片段，一般由20个左右的疏水性氨基酸残基组成，主要形成-螺旋。用在线工具TMPred对这17种NAC成员进行分析，结果（图2）表明，没有强烈的推荐模型，推测NAC是通过核孔复合体进入细胞核的，并不像膜结合蛋白质那样，通过一些跨膜结构域固定在细胞膜上或细胞器膜上。

3.1.4 卷曲螺旋预测利用在线分析工具COILS对17种NAC成员进行分析，结果（图3）表明，这些成员都没有太多的卷曲螺旋，只在150～200氨基酸残基位置出现少量的卷曲螺旋，在这些转录因子的N段、C段都有极少量的卷曲存在。卷曲螺旋是一种无规则结构，在蛋白质中起固定作用，即稳定已形成的转录因子复合物。150～200区段虽然不在保守区范围内，但在长久的进化过程中，这种结构却相当保守，这段无规则卷曲的存在对于NAC发挥其作用是必需的。

3.1.5 亚细胞定位预测利用在线工具WOLF PSORT分别对17种NAC成员蛋白质的亚细胞定位进行分析，结果表明，它们都定位于细胞核，这也从侧面表明了这些转录因子的存在及其发挥功能的场所是细胞核。

3.2 蛋白质二级结构的预测和分析

二级结构指蛋白质多肽链本身的折叠和盘绕的方式。二级结构主要有-螺旋、β-折叠、β-转角、无规则卷曲。采用GOR4分析17种NAC家族成员的二级结构，结果表明，这17种NAC家族成员在二级结构上也具有很高的相似性。如图4所示，列出的这3种成员的二级结构预测结果显示在0～50、150～250氨基酸残基的位置上，一般出现-螺旋，100～150氨基酸残基的位置上则出现较多的β-折叠，其他位置则被无规则卷曲填充。总体来看，17种成员的二级结构有着较高的相似性，这从某种程度上反映了它们在三级结构上的相似性。

3.3 蛋白质三维结构分析与同源建模

蛋白质三级结构的预测和分析，对理解蛋白质结构和功能之间的关系有一定的作用。生物信息学的快速发展，使通过生物软件构建蛋白质的结构得以实现。利用CPHmodels对17种NAC家族成员进行同源建模，并用RasMol-Raindy将结果进行处理（图5）。结果表明，17种成员在三级结构上表现出了非常高的相似性，基本上都是几个螺旋元件包围着一个扭曲的β-折叠片，推测它们是以这种结构结合DNA，进而发挥作用。另外，在这些结构群之外都有一段较长的无规则卷曲，推测这个小尾巴的功能是在转录因子NAC结合顺式作用元件时的稳定结合体。

3.4 NAC蛋白质家族系统进化树的构建

根据蛋白质的序列或结构差异关系可构建分子进化树或种系发生树。采用MEGA 4.1中的Neighbor-Joining算法，自检举1 000次，构建了17种成员的进化树（图6），这17种成员主要分为4个类群，最早在0.4水平形成两个分支，一支是类群Ⅳ，另一支在0.3水平形成明显的3个新的分支，它们是类群Ⅰ、类群Ⅱ、类群Ⅲ。总的来说，这些NAC家族成员在0.4水平才出现分支，说明它们的亲缘关系相近。

3.5 相似性比对分析及保守区的获得

利用在线程序ClustalW2进行序列比对，找到了NAC家族中的保守区段。如图7所示，能明显看出N端的5段保守区。这5段保守区对应的二级结构可以根据对应的氨基酸残基顺序，从二级结构预测中找到对应的结构。在此基础上可以设计出这类抗逆性相关的NAC成员的保守区引物（图8）。利用该引物可进一步克隆到NAC基因的保守区，再通过RACE技术就能进一步获得NAC全长基因，为未鉴定过的植物获得NAC基因奠定了基础。

4 小结

近年来的研究表明，多达几十种植物中的NAC转录因子被发现，并对其空间结构和生物学功能的研究进行了探讨，但是由于种类的多样性和生物功能的复杂性，还未能明确阐明不同的NAC转录因子其空间结构与调控机制之间的关系，因此通过多种生物信息学方法，对与抗逆性相关的NAC转录因子成员进行多角度的分析，为其高效利用提供参考，也为植物在抗逆性方面的遗传改良奠定理论基础。

参考文献：

[1] 彭辉，于兴旺，成慧颖，等.植物NAC转录因子家族研究概况[J].植物学报， 2010， 45（2）： 236-248.

[2] SOUER E， VAN HOUWELINGEN A， KLOOS D， et al. The no apical meristem gene of petunia is required for pattern formation in embryos and flowers and is expressed at meristem and primordia boundaries[J]. Cell，1996， 85（2）： 159-170.

[3] AIDA M， ISHIDA T， FUKAKI H， et al. Genes involved in organ separation in Arabidopsis：An analysis of the cup-shaped cotyledon mutant[J]. Plant Cell Online， 1997， 9（6）： 841-857.

[4] KUSANO H， ASANO T， SHIMADA H， et al. Molecular characterization of ONAC300， a novel NAC gene specifi cally expressed at early stages in various developing tissues of rice[J]. Mol Genet & Genomics， 2005， 272（6）： 616-626.

[5] VROEMEN C W， MORDHORST A P， ALBRECHT C， et al.The CUP-SHAPED COTYLEDON3 gene is required for boundary and shoot meristem formation in Arabidopsis[J]. Plant Cell Online， 2003， 15（7）：1563-1577.

[6] DUVAL M， HSIEH T F， KIM S Y， et al. Molecular characterization of AtNAM： A member of the Arabidopsis NAC domain superfamily[J]. Plant Mol Biol， 2002， 50（2）： 237-248.

[7] OOKA H， SATOH K， DOI K， et al. Comprehensive analysis of NAC family genes in Oryza sativa and Arabidopsis thaliana[J]. DNA Res， 2003， 10（6）：239-247.

[8] ERNST H A， OLSEN A N， SKRIVER K， et al. Structure of the conserved domain of ANAC， a member of the NAC family of transcription factors[J]. EMBO Reports， 2004， 5（3）： 297-303.

[9] PURANIK S， SAHU P P， SRIVASTAVA P S， et al. NAC proteins： Regulation and role in stress tolerance[J]. Trends in Plant Science，2011，17（6）：369-381.

[10] KIM S G， LEE A K， YOON H K， et al.General A membrane bound NAC transcription factor NTL8 regulates gibberellic acid mediated salt signaling in Arabidopsis seed germination[J]. Plant J， 2008， 55（1）： 77-88.

[11] JENSEN M K， RUNG J H， GREGERSEN P L， et al. The HvNAC6 transcription factor： A positive regulator of penetration resistance in barley and Arabidopsis[J]. Plant Mol Biol， 2007， 65（1/2）： 137-150.

[12] COLLINGE M， BOLLER T. Differential induction of two potato genes， Stprx2 and StNAC， in response to infection by Phytophthora infestans and to wounding[J]. Plant Mol Biol， 2001， 46（5）： 521-529.

[13] LIN R， ZHAO W， MENG X， et al. Rice gene OsNAC19 encodes a novel NAC-domain transcription factor and responds to infection by Magnaporthe grisea[J]. Plant Sci， 2007， 172（1）： 120-130.

[14] OH S K， LEE S， YU S H， et al. Expression of a novel NAC domaincontaining transcription factor （CaNAC1） is preferentially associated with incompatible interactions between chili pepper and pathogens[J]. Planta， 2005， 222（5）： 876-887.

[15] OHNISHI T， SUGAHARA S， YAMADA T， et al. OsNAC6， a member of the NAC gene family， is induced by various stresses in rice[J]. Genes & Genet Syst， 2005，80（2）： 135-139.

[16] NAKASHIMA K， TRAN L S P， VAN NGUYEN D， et al. Functional analysis of a NAC type transcription factor OsNAC6 involved in abiotic and biotic stress responsive gene expression in rice[J]. Plant J， 2007， 51（4）： 617-630.

[17] TAKASAKI H， MARUYAMA K， KIDOKORO S， et al. The abiotic stress-responsive NAC-type transcription factor OsNAC5 regulates stress-inducible genes and stress tolerance in rice[J]. Mol Genet & Genom， 2010， 284（3）： 173-183.

[18] HU H， YOU J， FANG Y， et al. Characterization of transcription factor gene SNAC2 conferring cold and salt tolerance in rice[J]. Plant Mol Biol， 2008， 67（1/2）： 169-181.

生物信息学分析例8

【Abstract】 Objective To investigate the structure and function of type 2 diabetes gene (SLC30A8) by bioinformatic methods. Methods Based on the human genome resource database， the programs of BioEdit， DANMAN and on line tools SMART， MHMM Server v. 2.0， NetPhos2.0 Serve， 3djigsaw were used for the analysis of protein basic characters， 3D structure and function prediction. Results The protein of gene SLC30A8 encoding was a transmembrane protein，it was important to transport zinc. Conclusions Protein encoded by SLC30A8 gene probably regulates and controls insulin secretion.

【Key words】 Bioinformatics; Type 2 diabetes; SLC30A8

众多研究显示，遗传因素在2型糖尿病(T2DM)发病中起着非常重要的作用〔1，2〕，但由于T2DM系多基因遗传病，研究的进展非常缓慢，直到2005年，不管是采用候选基因法还是连锁定位克隆法，只有极少数几个T2DM的易感基因在一些种族的研究中得到重复验证，而它们仅轻度增加T2DM的发病风险〔3〕。近2年多来，随着高通量SNPS检测技术的出现和全基因组关联(GWA)研究策略的运用，T2DM遗传学的研究取得了一些突破性进展，美国和欧洲多个基因研究组织采用全基因组分析法对1 464例T2DM患者和1 467例糖耐量正常个体的基因结构进行了系统研究，确认了几个与糖尿病相关的新基因位点——TCF7L2、SLC30A8、CDKN2A、CDKN2B、GF2BP2、CDKAL1〔4〕，这些基因的功能和调控机制还不十分清楚。在国内，邬莹等〔5〕研究发现在中国汉族人群中，CDKAL1、CDKN2A/B、SLC30A8等基因上的数个SNP位点与T2DM风险显著相关。SLC30A8基因也是中国人T2DM的一个易感基因，但对SLC30A8基因的研究还不够深入。因此，本文利用生物信息学工具和数据库，对SLC30A8进行分析，研究SLC30A8基因的功能，了解中国人糖尿病的遗传学基础，对预防和控制糖尿病具有重要的理论和临床意义。

1 材料与方法

1.1 材料人类糖尿病基因SLC30A8核苷酸序列来源于已经提交到GenBank数据库(GI：224589820)的序列。

1.2 SLC30A8基因结构分析及SLC30A8基因编码蛋白质的理化性质分析通过NCBI的ORF Finder、Protparam、Computer pI/MW确定其完整编码框并预测蛋白质的理化性质;信号肽序列分析采用SignalP工具;蛋白质翻译后修饰的糖基化位点和磷酸化位点分析分别采用DictyOGlyc在线软件和NetPhos 2.0 Server分析;氨基酸序列的同源性比对用ClustalW在线工具完成，通过蛋白分析专家系统Expasy所提供的在线分析工具ProtScale分析蛋白的疏水性。

1.3 SLC30A8基因编码蛋白质的结构和功能分析利用互联网ExPaSy数据库进行SLC30A8蛋白质的跨膜结构域分析;利用PUMA2服务器的SOPM软件进行蛋白序列的二级结构的分析;利用ExPasy的3djigsaw工具(bmm.icnet.uk/servers/3djigsaw/)向蛋白质立体结构数据库PDB(Protein Data Bank)提交蛋白质的序列;利用RasMol软件显示蛋白的三维分子结构。利用在线工具TMHMM分析蛋白质的跨膜结构域;利用COILS进行卷曲螺旋分析;利用Pfam进行蛋白的结构域功能分析〔6〕。

2 结果

2.1 SLC30A8在染色体上的定位及基因结构人类糖尿病基因SLC30A8的Gene ID是169 026，定位在8q24.11。SLC30A8基因核苷酸序列全长41 617 bp(NC000008.9)，含8个外显子。mRNA序列长5 373 bp，编码369个氨基酸的蛋白质(NP776250)，有2个PolyA信号区域分布位于1 933～1 938、 5 353～5 338，5个PolyA位点分别位于1 955、1 961、2 750、2 754、5 373。见表1。表1 SLC30A8外显子序列和对应的mRNA序列

2.2 SLC30A8基因编码的蛋白基本性质分析

2.2.1 开放阅读框(ORF)分析 ORF从第231个核苷酸开始，终止于第1 340个核苷酸，由其推导的氨基酸序列以甲硫氨酸为起始氨基酸，长为369个氨基酸。

2.2.2 疏水性分析疏水性是氨基酸的一种重要性质，疏水性氨基酸倾向于远离周围水分子，将自己包埋进蛋白质的内部，这一趋势加上空间立体条件和其他一些因素最终决定了一个蛋白质折叠形成的三维空间构象〔7〕。通过分析可以得到蛋白质的亲疏水区域，这一结果一方面为二级结构预测结果提供参考，另一方面还可为结构域及功能域的划分提供依据。ProtScale预测结果表明：疏水性最大值为3.044，最小值为-2.889(图1)。

图1 SLC30A8氨基酸序列的疏水性2.2.3 信号肽、跨膜结构域及翻译后修饰分析进行信号肽分析有助于蛋白质功能域的区分及蛋白质细胞定位。根据SignalP分析，蛋白质C分值、Y分值和S分值分别在248、157和150位点，分别为0.142、0.228和0.833，其信号肽计算结论为“NO”，表明其N端不含信号肽(图2)，推测其不是分泌蛋白。图2 SLC30A8氨基酸序列的信号肽预测分析

跨膜结构域是膜中蛋白和膜脂相结合的主要部位，它可能作为膜受体起作用，也可能定位于膜的锚定蛋白或离子通道蛋白等，通过跨膜结构域预测可以正确认识蛋白质结构、功能及在细胞中的作用部位。笔者利用通过TMPRED服务器分析，表明该蛋白质是一个6次跨膜的蛋白质，在4和5螺旋之间有一个富含组氨酸的环(图3)。用Smart对 SLC30A8基因的产物进行蛋白质序列结构功能域分析，结果表明蛋白质含有2个N糖基化位点，2个N酰基化位点。NetPhos 2.0Server磷酸化位点分析结果表明：分值>0.5的磷酸化位点有:丝氨酸(Ser)磷酸化位点8个、苏氨酸(Thr)磷酸化位点1个、酪氨酸(Tyr)磷酸化位点2个，计11个磷酸化位点，这些位点均匀分布于整个多肽链中。见图4。图3 SLC30A8氨基酸序列的跨膜结构域分析图4 SLC30A8氨基酸序列的磷酸化位点分析　图5 SLC30A8蛋白质三级结构的同源建模2.3 基因编码蛋白质结构分析

2.3.1 三级结构构建与功能域分析图5可见，三级结构是蛋白质结构预测的最终目的。要充分研究蛋白质的功能，就需把蛋白质的高级结构研究清楚。从氨基酸序列预测三级结构的技术很多，其中之一是同源建模，它通过比较未知结构蛋白质序列与已知结构的蛋白质序列来预测蛋白质结构，可以通过同源建模以击中序列的已知结构为模板，对蛋白质进行精确的结构模型构建。作者利用Expasy的3djigsaw工具预测蛋白质的三维结构，利用Ramol软件察看预测结果。

hhhhhhhhcccccccccccchhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhcccc

WHRAEILGALLSILCIWVVTGVLVYLACERLLYPDYQIQATVMIIV

eeeeeeeeeeehhhhhhhhhhhhhhhhhhhccccchhhhhhhhhhhhhhhhhhhhhh

SSCAVAANIVLTVVLHQRCLGHNHKEVQANASVRAAFVHALG

hhhhhhhhheeeccccccchhhhhhhhhhhhhhhhhhhhhhhheeehcccccccc

DLFQSISVLISALIIYFKPEYKIADPICTFIFSILVLASTITILKDFSILL

chhhhhhhhhhcchhhhhhheehhhchhhhhhhhhhhcccccchhhhhhhhhhhhh

MEGVPKSLNYSGVKELILAVDGVLSVHSLHIWSLTMNQVILSA

HVATAASRDSQVVRREIAKALSKSFTMHSLTIQMESPVDQDP

DCLFCEDPCD

hccceceeeeeecccccccccccccccccc(总长度369 bp)

图6 SLC30A8氨基酸序列的二级结构分析

3 讨论

从以上的研究和分析可以看出，糖尿病相关基因SLC30A8编码的蛋白质是一种多次跨膜蛋白，并且蛋白经过了多种形式的修饰。磷酸化和去磷酸化是细胞内信号传导的重要方式，而此蛋白有11个位点发生了磷酸化，蛋白质通过磷酸化和去磷酸化而发生构象改变导致其活性或性质的改变，从而调节细胞中各个生命活动过程，所以推测SLC30A8基因编码的蛋白质是一个有功能的比较活跃的蛋白质。另外蛋白质还发生了糖基化和酰基化，推测蛋白质具有传导信号的功能。研究表明SLC30A8编码的是一种在胰岛细胞大量表达的锌离子转运蛋白，其主要功能是将胞浆内的锌离子转运到胰岛素分泌囊泡中，参与胰岛素结晶六聚体的形成〔8〕。因此推测SLC30A8异常，可能会影响胰岛细胞胰岛素的正常分泌。本文利用生物信息学工具盒数据库资源对SLC30A8基因的染色体定位、基因结构及所编码的蛋白质性质、结构等进行了分析，为进一步研究SLC30A8基因在糖尿病发生中的作用提供参考依据。目前关于SLC30A8基因的研究还很少，其编码的蛋白质是如何调控锌离子转运的以及如何参与胰岛素分泌的都将有待于进一步研究。

参考文献

1 Kahn SE.The importance of betacell failure in the development and progression of type 2 diabetes〔J〕.J Clin Endocrinol Metab， 2001;86(19):404758.

2 Bergman RN，Ader M，Huecking K，et al.Accurate assessment of βcell function.The hyperbolic correction〔J〕.Diabetes，2002;51(suppl 1):21220.

3 Sladek R，Rocheleau G，Rung J，et al.A genomewide association study identifies novel risk loci for type 2 diabetes〔J〕.Nature，2007;445(7130):8815.

4 Scott LJ，Mohlke KL，Bonnycastle LL，et al.A genomewide association study of type 2 diabetes in Finns detects multiple susceptibility variants〔J〕.Science，2007;316(5829):13415.

5 Wu Y，Li HX，Ruth J，et al.Common Variants in CDKAL1，CDKN2A/B，IGF2BP2，SLC30A8，and HHEX/IDE Genes are associated with type 2 diabetes and impaired fasting glucose in a chinese han population〔J〕. Diabetes，2008;57(10):283442.

生物信息学分析例9

中图分类号：Q786 文献标识码：A 文章编号：0439-8114（2013）24-6182-05

GATA家族是一类能识别GATA基序（motif），并能与之结合的转录调节因子，在动物、真菌、植物等生物中存在比较广泛。脊椎动物中已发现6种GATA结合蛋白，分为GATA-1/2/3和GATA-4/5/6两大类，前者与红细胞、淋巴及性腺的发育有关，后者控制心、肠及外胚等组织分化的转录[1，2]。GATA-2的cDNA大小为2.6 kb，编码的转录因子为474个氨基酸。GATA-2属于锌指结构家族，可调控造血干/祖细胞的增殖和分化，在整个造血过程中对细胞的系统分化十分重要[3]。GATA-2还可调控其他造血相关因子的表达，与多种造血系统疾病相关。另外，GATA-2可作为胚胎发育过程中原肠胚期外胚层腹部的分子标记，还表达于胚胎发育时期和成年个体垂体中的[4]，GATA-2失活后胚胎会因为造血功能的缺失而在怀孕中期死亡。GATA-2还可以与其他因子交互作用，从而在多方面发挥调控造血作用[5]。本研究利用生物信息学方法分析了GATA-2基因编码区种内和种间变异，研究了该基因不同种内及种间的遗传分化，为更好地研究该基因及GATA家族中其他成员的结构和功能奠定了基础。

1 材料与方法

1.1 序列来源

1.2 方法

2 结果与分析

2.1 不同物种GATA-2基因核苷酸分析

2.1.1 多态位点、单倍型及核苷酸多样性分析在所分析片段长度为1 443 bp的52条序列中，发现344个多态位点，百分率为23.84%，其中单一多态位点65个，百分率为4.50%，简约多态位点279个，百分率为19.33%；共发现25种单倍型，单倍型的多样性为0.967，说明GATA-2基因种间和种内变异较大。不同物种的多态位点数和单倍型多样性不一致，表明GATA-2基因的种间存在遗传变异。17个物种种间的平均核苷酸差异数（k）为76.676，核苷酸多样性为0.053。其中，人的GATA-2基因平均核苷酸差异数和核苷酸多样性最高，与其他物种差异较大，这表明人的GATA-2基因存在丰富的遗传多样性（表2）。

2.1.2 核苷酸歧异度、遗传分化和净遗传距离分析不同物种GATA-2基因遗传分化（Gst）在0.093～1.000之间，核苷酸歧异度（Dxy）和净遗传距离（Da）都在0.001～0.109之间（表3）。不同物种间核苷酸歧异度和遗传分化、净遗传距离的变化范围均很大，说明了不同物种间遗传分化明显。其中黑猩猩和倭黑猩猩、大猩猩、人的核苷酸歧异度、净遗传距离最小，说明黑猩猩与倭黑猩猩、大猩猩、人之间的亲缘关系较近，小家鼠、褐家鼠与其他物种间的核苷酸歧异度、净遗传距离最大，说明小家鼠、褐家鼠与本研究中其他物种间亲缘关系较远。

2.2 不同物种GATA-2基因氨基酸多样性分析

2.2.1 密码子偏爱性 ENC值是评价基因整体密码子偏爱性，其取值范围为20（每个氨基酸只使用1个密码子的极端情况）～61（各个密码子均被平均使用），其值越低说明偏爱性越强，越高则说明偏爱性越低[6]。CBI值反映了一个基因中高表达优越密码子的组分情况，说明外源基因在目的宿主中可能的表达情况[7]。所选不同物种GATA-2基因序列编码区中密码子有效值（ENC）为42.383 （0），说明GATA-2基因对密码子有较强偏爱性。

2.2.2 同义替换和非同义替换 17个物种52条GATA-2基因序列编码区中同义替换平均位点数为365.80个，非同义替换平均位点数为1 071.20个。不同物种同义替换位点数（SS）为364.50～367.50（表4），同义替换核苷酸多样性均值[π（s）]为0.189；非同义替换位点数（NSS）为1 072.50～1 075.50，非同义替换核苷酸多样性均值[π（a）]为0.006。GATA-2基因的非同义替换位点数均明显高于同义替换位点数，亚马逊松鼠猴的非同义替换位点数较其他物种多，其次是家猫、小家鼠，说明亚马逊松鼠猴GATA-2基因编码区的非同义替换较其他物种高，家猫、小家鼠分别为第二、第三。由于达尔文的正向选择有些基因中非同义替代速率远远高于同义替代[8]，因此推测本研究中的GATA-2基因在进化过程中可能受到了正向选择的影响。

2.2.3 不同物种GATA-2基因遗传关系分析根据不同物种间的核苷酸歧异度（Dxy），用MEGA5.0软件的UPGMA方法进行聚类分析，构建不同物种分子聚类图（图1）。由图1可以看出，人与黑猩猩、倭黑猩猩、大猩猩的亲缘关系较近，小家鼠与褐家鼠与其他物种的亲缘关系较远，基本上与NCBI中的动物学分类相符合。

2.2.4 不同物种GATA-2基因的G+C含量亲缘关系相近的生物，核苷酸的碱基组成中的G+C含量相似，若生物之间G+C含量差别大，则表明它们的亲缘关系远。本研究中的GATA-2基因的碱基组成，发现它们之间的G+C含量的均值为64.60%，不同物种的G+C含量在62.20%～66.10%之间（表4），说明GATA-2基因在不同物种间发生了遗传变异。小家鼠和褐家鼠GATA-2基因的G+C含量分别为62.60%、62.20%（表4），与其他物种GATA-2基因的G+C含量相差较大，说明小家鼠和褐家鼠与本研究中的其他物种亲缘关系最远，与本研究之前的结果相符。

2.3 不同物种氨基酸序列预测和分析

2.3.1 信号肽的预测与分析一般认为，每一个需要运输的多肽都含有一段氨基酸序列，称为信号肽序列（Signal peptide，SP），引导多肽至不同的转运系统[9]。信号肽帮助蛋白质穿膜，与蛋白质的细胞定位有关，通过分析蛋白序列N端信号肽的有无，可以初步判断某个蛋白是否为分泌蛋白[10]。利用蛋白分析专家EXPASY 工具里的SignalP 4.0 Server对17个物种GATA-2氨基酸序列进行预测，结果显示所研究17个物种的GATA-2氨基酸序列均无信号肽，推测GATA-2不是分泌蛋白，在游离核糖体上起始合成后就于合成处发挥作用，可能不存在运输，而保留在细胞基质中合成，运输到细胞器中起作用的蛋白质。

2.3.2 导肽的预测和分析导肽促使前体蛋白和细胞器膜相互作用，穿越过膜后被细胞器的蛋白酶切下转运，继续使整个蛋白穿越过膜，或直到中部导致转运停止。利用在线工具TargetP1.1 Server 对13个物种GATA-2氨基酸序列进行预测，结果显示本研究中17个物种的GATA-2氨基酸序列均没有氨基酸残基裂解位点，故推断GATA-2氨基酸序列不具有导肽。

2.3.3 跨膜结构域的预测和分析蛋白的跨膜结构域主要是膜内在蛋白和细胞膜的膜脂相结合的部位，一般是由以α-螺旋形式存在的20个左右疏水氨基酸残基构成[11]，利用在线工具TMHMM 2.0 Server对17个物种GATA-2氨基酸序列的跨膜结构域进行预测，结果显示本研究中17个物种的 GATA-2氨基酸序列均不存在跨膜结构域，整条肽链位于细胞外，推测该蛋白不是定位于生物膜的膜蛋白。结合信号肽的预测，说明GATA-2蛋白质属于定位在细胞基质中的蛋白质，不属于膜蛋白或分泌蛋白。

2.3.4 疏水性/亲水性的预测和分析疏水性和亲水性分析对于预测蛋白质的二级结构和功能域具有重要的生物学意义。疏水性的氨基酸倾向于远离周围水分子，将自己包埋进蛋白质的内部，亲水氨基酸通常处于蛋白质分子的表面[12]。利用在线工具 ProtScale 对17个物种GATA-2氨基酸序列的疏水性/亲水性进行预测，结果显示本研究17个物种的GATA-2氨基酸序列最低分值为-4.500，亲水性最强；最高分值为4.500，疏水性最强。总体上看，亲水区域大于疏水区域，故整条多肽链表现为亲水性，因此认为GATA-2蛋白是亲水性蛋白，处于蛋白质分子的表面。

2.3.5 二级结构的预测和分析二级结构主要指多肽链依赖氢键排列成在一维方向上具有周期性结构的构象，对其进行预测与分析，有助于认识蛋白的空间结构[13]。用 PBIL LYON-GERLAND信息库对17个物种GATA-2氨基酸序列的二级结构进行预测，结果显示本研究中17个物种的GATA-2蛋白质二级结构的主要结构元件是无规卷曲（72.71%～75.83%），其次α-螺旋（11.46%～13.33%）、β折叠（7.29%-9.38%）、β转角（3.75%～5.83%）。

2.3.6 氨基酸序列的组成成分及生化特性分析用ProtParam在线工具分析17个物种GATA-2基因编码的氨基酸序列，结果表明，理论等电点为9.43，GATA-2蛋白呈碱性，Pro是17个物种中最主要的氨基酸，含量在11.2%～11.7%；其次是Ala，含量在10.8%～11.5%；再次是Ser，含量在10.0%～11.0%。17个物种 GATA-2 蛋白的不稳定系数在57.11～62.63之间，表明这种蛋白质不稳定[14]。

3 小结与讨论

不同物种间GATA-2基因的核苷酸歧异度、净遗传距离和单倍型间的遗传距离差异都较大，种内及种间遗传分化明显。GATA-2基因对密码子有较强的偏爱性，非同义替换位点数均明显高于同义替换位点数，GATA-2基因在进化过程中可能受到正向选择的影响。GATA-2基因物种间的亲缘关系与动物学分类相符。

GATA-2蛋白N端无信号肽，无导肽，无跨膜结构域，整个多肽链表现为亲水性，蛋白质二级结构的主要元件为无规则卷曲和α-螺旋，除此之外还有少量β折叠和β转角，GATA-2蛋白质不属于膜蛋白或分泌蛋白，应定位在细胞基质。

参考文献：

[1] MORRISEY E E， IP H S， TANG Z， et al. GATA-4 activates transcription via two novel domains that are conserved within the GATA-4/5/6 subfamily[J]. Journal of Biological Chemistry，1997，272（13）：8515-8524.

[2] ONODERA K， YOMOGIDA K， SUWABE N， et al. Conserved structure， regulatory elements， and transcriptional regulation from the GATA-1 gene testis promoter[J]. Journal of Biochemistry，1997，121（2）：251-263.

[3] IKONOMI P， RIVERA C E， RIORDAN M， et al. Overexpression of GATA-2 inhibits erythroid and promotes megakaryocyte different iat ion[J]. Exp Hematol，2000，28（12）：1423-1431.

[4] SUH H， GAGE P J， DROUIN J， et al. Pitx2 is required at multiple stages of pituitary organogenesis： Pituitary primordium formation and cell specification[J]. Development，2002，129（2）： 329-337.

[5] 吴秀丽，李扬秋.转录因子GATA-2的研究进展[J]. 现代临床医学生物工程学杂志，2003，9（5）：387-389.

[6] WRIGHT F. The‘effective number of codons’ used in a gene[J]. Gene，1990，87（1）：23-29.

[7] NOVEMBRE J A.Accounting for background nucleotide composition when measuring codon ussge bias[J]. Mol Biol Evol，2002，19（8）：1390-1394.

[8] GUO Z P . Introduction to Population Genetics[M]. Beijing： Agricultural Press，1993.298-332.

[9] 彭佳师，龚继明.信号肽与蛋白质的分选转运[J].植物生理学报，2011，47（1）：9-17.

[10] 孙翰昌，杨帆，徐敬明，等.草鱼含信号肽分泌蛋白的预测分析[J].水产科学，2011，30（3）：164-167.

[11] 张耿，王赞，关宁，等.中间偃麦草Na+/H+逆向转运蛋白的分子克隆及生物信息学分析[J].遗传，2007，29（10）：1263-1270.

生物信息学分析例10

通过多重序列比对筛选保守序列是生物信息学方法的基础，几乎所有的注释序列的意义、研究序列结构的方法都是建立在此基础上的。保守序列是指病毒在进化过程中基因组序列保持不变或变异很小的序列。在进化过程中，变化很小或者不变的序列往往承担着极其重要的功能，一旦出现变化，功能就会受影响或者被破坏，物种就有被淘汰的危险。因此，保持不变或变化很小的序列可能具有相同的功能。国际上已有专门的数据库（如Blocks、PROSITE和IDENTIFY）和分析软件（如BLAST、DNAsis、FASTA、GCG、MOST、Emotif和Tool）用于保守序列的分析。

本研究利用生物信息学方法对欧文氏杆菌基因组进行分析，发现了71个与铁代谢相关的基因，分别参与了欧文氏杆菌中铁载体的生物合成以及铁的运输、吸收、贮存和调控。

参考文献：

[1] BULTREYS A， GHEYSEN I， MARAITE H， et al. Characterization of fluorescent and non-fluorescent peptide siderophores produced by Pseudomonas syringae strains and their potential use in strain identification[J]. Applied and Environmental Microbiology，2001，67（4）：1718-1727.

[2] DERBYSHIRE P， BALDWIN T， STEVENSON P， et al. Expression in Escherichia coli K-12 of the 76， 000-dalton iron-regulated outer membrane protein of Shigella flexneri confers sensitivity to cloacin DF13 in the absence of Shigella O antigen[J]. Infection Immunity，1989，57（9）：2794-2798.

[3] BELL M， SEBAIHIA L， PRITCHARD，et al. Genome sequence of the enterobacterial phytopathogen Erwinia carotovora subsp. atroseptica and characterization of virulence factors[J]. Proceedings of the National Academy of Science of the United State of America，2004，101（30）：11105-11110.

[4] RAYMOND K N， EMILY A， DERTZ， et al. Enterobactin： An archetype for microbial iron transport[J]. Proceedings of the National Academy of Science of the United State of America，2003，100（7）：3584-3588.

[5] VELAYUDHAN J， HUGHES N J， MCCOLM A A， et al. Iron acquisition and virulence in Helicobacter pylori： a major role for FeoB， a high-affinity ferrous iron transporter[J]. Journal of Molecular Biology，2000，37（2）：274-286.

[6] LILLARDJR J W， BEARDEN S W ， FETHERSTON J D， et al. The haemin storage （Hms+） phenotype of Yersinia pestis is not essential for the pathogenesis of bubonic plague in mammals[J].Microbiology，1999，145（1）：197-209.

[7] PERRY R D，SHAH J， BEARDEN S W， et al. Yersinia pestis TonB： role in iron， heme， and hemoprotein utilization[J]. Infection and Immunity，2003，71（7）：4159-4162.

[8] MAZMANIAN S K， SKAAR E P， GASPAR A H， et al. Passage of heme-iron across the envelope of Staphylococcus aureus[J]. Science，2003，299（5608）：906-909.

生物信息学分析例11

中图分类号：S543+.601文献标识号：A文章编号：1001-4942（2016）10-0001-06

黑麦草属禾本科（Poaceae）黑麦草属（Lolium）植物。其中最具有商业价值的两个种为多年生黑麦草（Lolium perenne L.）和多花黑麦草（Lolium multiflroum L.），作为草坪草和优质牧草在我国均有大面积栽培和利用[1，2]。

目前，黑麦草中常用的分子标记技术主要有RAPD[3]、CAPS[4]、AFLP[4，5]、SSR[6]、EST-SSR[7]等。SSR（simple sequence repeat）标记在遗传图谱的构建[8]、遗传多样性和亲缘关系分析[9]、品种指纹图谱及纯度鉴定[10]、功能基因标记[11]等方面具有公认的优越性和广阔的应用前景。但传统的基因组SSR标记开发投入多、耗时长。近年来，随着GenBank中大量EST（expressed sequence tags）序列的公布，许多植物基于EST的SSR（EST-SSR）标记开发成为可能。与基因组SSR相比，EST-SSR具有开发成本低、物种间通用性高、可直接反映相关基因的多样性等突出优点。目前许多作物如小麦、大麦、高羊茅、蒺藜苜蓿等的EST-SSR已被开发并用于遗传作图、遗传多样性、基因发掘、比较作图等研究[12-15]。

本研究利用NCBI上的黑麦草EST序列查找SSR，对其进行信息分析，设计EST-SSR引物，开发黑麦草EST-SSR分子标记，并对相应EST进行功能分析。

1材料与方法

1.1EST序列来源

从http：//ncbi.nlm.nih.gov/dbEST/下载黑麦草EST序列。

1.2EST-SSR的查找

登陆网站http：///db/markers/ssrtool，利用SSRIT（simple sequence repeat identification tool）软件在线查找二、三、四、五、六核苷酸5种类型的SSR。识别标准为：重复基序最小长度≥18 bp，即二、三、四、五、六核苷酸重复次数分别大于或等于10、7、5、4、3。

1.3EST-SSR引物设计

利用Primer Premier 5.0软件，根据SSR的侧翼区域设计引物。引物设计的主要参数：EST序列长度大于100 bp；SSR序列的开始和结束位置分别距5′和3′端不少于20 bp；引物长度18～22 bp；退火温度Tm值 50～65℃，而且上游和下游引物的Tm值相差不大于5℃；PCR扩增产物长度100～300 bp；得分90分以上，尽量避免引物二级结构的出现。

1.4EST功能分析

利用NCBI网站对筛选出的黑麦草EST序列进行Blast比对，包括BlastN和BlastX两种比对，得到与其他植物已知基因或蛋白相似的功能，获得该EST在草坪草中的预测功能。利用BlastN程序在核苷酸水平上进行同源性分析，认为序列比分值大于200，e-value ≤1×10-20的序列具有同源核苷酸片段，而比对的片段长度小于50 bp结果不予采纳；对符合上述要求的EST序列利用BlastX程序在翻译水平上对其进行分析，序列比分值大于80的结果认为有相似性显著的同源蛋白质。

2结果与分析

2.1源于黑麦草EST的SSR查找

从NCBI上共下载到黑麦草的25 752条EST序列（其中多年生黑麦草19 784条，多花黑麦草5 968条）。经SSR查找，共发现346条SSR序列，占整个EST数据库的1.344%；这些EST序列全长17 720 kb，平均每1 000 kb 出现19.53个SSR，即每51.21 kb出现1个SSR。含有二、三、四和五核苷酸重复基序分别占SSR总数的31.79%、39.60%、11.27%和17.34%，无六核苷酸重复基序，三核苷酸基序出现频率最高，次之为二核苷酸基序（表1）。

2.2黑麦草EST-SSR的特征分析

346个SSR中，二核苷酸基序以CT/GA出现频率最高，占SSR总数的14.45%，其次是GA/CT（10.98%）和AT/TA（1.73%）。三核苷酸基序以GGC/CCG出现的频率最高，为8.38%，其次是CGC/GCG（7.51%）、GCC/CGG（4.05%）和ATG/TAC（2.02%），其他类型出现频率较低。四核苷酸基序以GTTG/CAAC出现频率最高，为0.87%。五核苷酸以TGTCG/ACAGC（2.31%）和CTCAT/GAGTA（2.02%）出现频率较高，其余出现频率均较低（表2）。

2.3黑麦草EST-SSR引物的开发

利用Primer Premier 5.0软件，对346个EST-SSR序列进行引物设计，共设计引物193对（55.78%），分值在90分以上的有113对（32.66%），见表3。

2.4功能分析

利用NCBI的BlastN和BlastX程序，对113条EST-SSR引物相应的EST序列进行比对分析。有78条EST序列与具有生物功能的核酸有同源性（未列出），有72条EST序列与具有生物功能的蛋白质有同源性（表4）。这72条蛋白序列分属于51种蛋白，大部分的同源产物来源于二穗短柄草（31.94%）或乌拉尔图小麦（15.28%）。

3讨论

目前，水稻[16]、小麦[17-19]、玉米[20]等主要粮食作物的EST-SSR标记已得到大量开发和应用。草类植物EST-SSR标记的开发和应用还较少。随着草坪草、牧草等草类植物EST和cDNA大规模测序的开展，相应EST数目也在急剧增加，其EST-SSR引物的开发与利用展现了广阔的前景[14，21-24]。截至2015年11月14日，在GenBank数据库（http：//ncbi. nlm.nih. gov/dbEST）中找到的黑麦草的EST序列已达到25 752条。我们利用这25 752条EST序列，对346个EST-SSR序列进行引物设计，设计了113个分值90以上的引物对，为黑麦草增加了新的分子标记。

前人对EST-SSR的出现频率及重复基元出现频率进行了大量研究。关于EST中SSR出现频率，Chen等[17]对小麦EST-SSR进行开发时，每57.44 kb出现一个SSR；而李杰勤等[21]在高粱中研究结果为平均3.93 kb。这可能是由所研究的EST数据库不同及不同的EST-SSR搜索标准和统计标准所致。本研究在25 752条黑麦草EST序列中，共找到346条SSR序列，占整个EST数据库的1.344%，平均分布距离为51.21 kb。本研究结果和Chen等[17]研究结论相近。关于EST中不同核苷酸数目的重复基元出现频率，本研究中三核苷酸基序出现频率最高（39.60%），次之为二核苷酸基序（31.79%）。三核苷酸基序以GGC/CCG出现的频率最高，为8.38%，其次是CGC/GCG（7.51%），二核苷酸基序以CT/GA出现频率最高，占SSR总数的14.45%，其次是GA/CT（10.98%）。前人多数研究结果也为三核苷酸重复基元出现频率最高[25，26]。在水稻、玉米、大豆、高粱中二核苷酸重复基序出现频率最多的都是GA/CT[19]，在水稻、玉米、大麦中，三核苷酸的CCG/GGC和AGG/TCC出现频率高[19，26，27]。本研究结果与在大多数植物基因组中三核苷酸重复出现频率较高的结果是一致的，二、三核苷酸不同基序出现频率也与多数结果一致。

利用生物信息学对EST序列进行功能分析，可推测该EST序列的功能，使随机测序而获得的EST序列与特定的生物功能相联系，有助于EST-SSR的进一步利用。而那些通过比对不能发现同源核苷酸或蛋白质的EST序列，可能是新的功能基因，EST-SSR引物就可作为这些新基因的分子标记，为基因克隆与功能验证奠定标记基础。高瑞娟等[28]在比对结球白菜EST时，94.8%（1102/1162）的EST可在蛋白质或核苷酸水平上找到同源类似物，大约77%的功能已知蛋白质来自拟南芥。本文利用NCBI的BlastN和BlastX程序对113条EST-SSR引物对应的EST序列进行了比对分析。结果表明，72条EST序列有生物学意义上的同源序列（63.72%），与高瑞娟等研究结果类似。我们比对的大部分的同源产物来源于二穗短柄草（31.94%）或乌拉尔图小麦（15.28%），得益于这两个物种特别是草类模式植物二穗短柄草近年来基因组研究的飞速发展。

4结论

在GenBank/dbEST中检索到黑麦草的EST序列25 752条，其中346个EST序列含有SSR（1.344%），共设计了分值90以上的EST-SSR引物113对。EST-SSR信息分析表明，三核苷酸基序最多，并以GGC/CCG出现的频率最高；次之为二核苷酸基序，并以CT/GA出现频率最高。对113条EST-SSR引物相应的EST序列进行Blast比对分析表明，有72条EST序列与具有生物功能的蛋白质有同源性，且分为51种蛋白质，大部分的同源产物来源于二穗短柄草（31.94%）或乌拉尔图小麦（15.28%）。

参考文献：

[1]

李杰勤，王丽华，詹秋文，等. 20个黑麦草品系的SRAP遗传多样性分析[J]. 草业学报， 2013， 22（2）： 158-164.

[2]刘春英，孙学映，朱体超，等. 不同黑麦草品种生产性能比较与优势品种筛选[J]. 草业学报， 2014， 23（4）： 39-48.

[3]董晓宁，张晓佩，李文杨. 18个黑麦草品种（系）的RAPD分析[J]. 福建农业学报， 2009， 24（3）： 266-269.

[4]Miura Y， Ding C， Ozaki R， et al. Development of EST-derived CAPS and AFLP markers linked to a gene for resistance to ryegrass blast （Pyricularia sp.） in Italian ryegrass （Lolium multiflorum Lam.） [J]. Theoretical and Applied Genetics， 2005， 115（5）： 811-818.

[5]Bert P F， Charmet G， Sourdille P， et al. A high-density molecular map for ryegrass （Lolium perenne） using AFLP markers [J]. Theoretical and Applied Genetics， 1999， 99（3）： 445-452.

[6]Studer F， Klliker R， Muylle H， et al. EST-derived SSR markers used as anchor loci for the construction of a consensus linkage map in ryegrass （Lolium spp.） [J]. BMC Plant Biology， 2010， 10：177.

[7]Hirata M， Cai H， Inoue M， et al. Development of simple sequence repeat （SSR） markers and construction of an SSR-based linkage map in Italian ryegrass （Lolium multiflorum Lam.） [J]. Theoretical and Applied Genetics， 2006， 113（2）：270-279.

[8]卢杰，吕媛媛，李杰勤，等. 高丹草SSR引物设计及分子遗传框架图谱构建[J]. 中国草地学报， 2009， 31（2）：28-33.

[9]Ipek A， Barut E， Gulen H， et al. SSR analysis demonstrates that olive production in the southern Marmara region in Turkey uses a single genotype [J]. Genetics and Molecular Research， 2009， 8（4）： 1264-1272.

[10]Aitken K S， Jackson P A， McIntyre C L. A combination of AFLP and SSR markers provides extensive map coverage and identification of homo（eo）logous linkage groups in a sugarcane cultivar [J]. Theoretical and Applied Genetics， 2005， 110（5）： 789-801.

[11]Li Y， Niu Y C， Chen X M. Mapping a stripe rust resistance gene YrC591 in wheat variety C591 with SSR and AFLP markers [J]. Theoretical and Applied Genetics， 2009， 118（2）： 339-346.

[12]Holton T A， Christopher J T， McClure L， et al. Identification and mapping of polymorphic SSR markers from expressed gene sequences of barley and wheat[J]. Molecular Breeding， 2002， 9（2）： 63-71.

[13]Saha M C， Rouf M A， Eujayl I， et al. Tall fescue EST-SSR markers with transferability across several grass species [J]. Theoretical and Applied Genetics， 2004， 109（4）： 783-791.

[14]Barrett B， Griffiths A， Schreiber M， et al. A microsatellite map of white clover [J]. Theoretical and Applied Genetics， 2004， 109 （3）： 596-608.

[15]Gupta S， Prasad M. Development and characterization of genic SSR markers in Medicago truncatula and their transferability in leguminous and non-leguminous species [J]. Genome， 2009， 52（9）： 761-771.

[16]Yu J K， Rota M L， Kantety R V， et al. EST derived SSR markers for comparative mapping in wheat and rice[J]. Molecular Genetics and Genomics， 2004， 271（6）： 742-751.

[17]Chen H M， Li L Z， Wei X Y， et al. Development， chromosome location and genetic mapping of EST-SSR markers in wheat [J]. Chin. Sci. Bull.， 2005， 50： 2328-2336.

[18]Song W， Xie H， Liu Q， et al. Molecular identification of Pm12-carrying introgression lines in wheat using genomic and EST-SSR markers[J]. Euphytica， 2007， 158 （1）： 95-102.

[19]Li L Z， Wang J J， Guo Y， et al. Development of SSR markers from ESTs of gramineous species and their chromosome location on wheat [J]. Proceedings of the Academy of Natural Science， 2008， 18： 1485-1490.

[20]Galvao K S， Ramos H C， Santos P H， et al. Functional molecular markers （EST-SSR） in the full-sib reciprocal recurrent selection program of maize （Zea mays L.） [J]. Genetics and Molecular Research， 2015， 14（3）： 7344-7355.

[21]李杰勤，王丽华，詹秋文，等. 高粱EST-SSR标记的建立及其在苏丹草中的应用初探[J]. 草业科学， 2010， 27（3）： 112-117.

[22]陈永霞，张新全，谢文刚，等. 利用EST-SSR标记分析西南扁穗牛鞭草种质的遗传多样性[J]. 草业学报， 2011， 20（6）： 245-253.

[23]温莹，逯晓萍，任锐，等. 高丹草EST-SSR标记的开发及其遗传多样性[J]. 遗传， 2013， 35（2）： 225-232.

[24]Zeid M， Yu J K， Goldowitz I， et al. Cross-amplification of EST-derived markers among 16 grass species [J]. Field Crops Research， 2010， 118（1）： 28-35.

[25]Gao L F， Tang J F， Li H W. Analysis of microsatellites in major crops assessed by computational and experimental approaches [J]. Molecular Breeding， 2003， 12： 245-261.