*新动态

生物信息学在蛋白质组学中的应用


生物信息学在蛋白质组学中的应用

摘要: 生物信息学是一门新兴的边缘学科,基因组合蛋白质组研究与生物信息学技术互相推动,并行发展,而生物信息学在蛋白质研究中将发挥特殊作用。本文就生物信息学技术在蛋白质数值库以及蛋白质结构分析与功能预测中的应用做一综述。

关键词: 生物信息学 蛋白质组 数值库 结构分析功能预测

1 前言

20 世纪 80 年代,随着基因组学和蛋白质组学的发展,数值量迅速增加,生物信息学 (bioinformatics) 就应运而生。它研究的重点内容为基因组 (Genomics) 和蛋白质组学 (Proteomics) 。其在基因组学中的应用已经相当成熟,各种数值库已经被人们广泛的使用。而今 , 随着功能基因组学的信息量不断的增加 , 生物信息学在蛋白质组学中的应用也显得越来越重要。 [1] [2]

2 生物信息学在蛋白质组学中的应用 [4]

2.1 蛋白质组学的产生及其重要意义

在 20 世纪中后期,随着 DNA 双螺旋结构的提出和蛋白质空间结构的解析,生生命科学的研究进入了分子生物学时代,而遗传信息载体 DNA 和生命功能的体现者蛋白质的研究,成为了其主要内容。 90 年代初期启动的庞大的人类基因组计划,已经取得巨大的成就,人类基因组序列草图绘制完成后,生命科学研究跨入了后基因组时代。然而,人们清醒地识到基因仅是遗传信息的载体,而生命活动的执行者是基因的表达产物—蛋白质,它是生命现象复杂性和多变性的直接体现者。《自然》和《科学》杂志在 2001 年 2 月公布人类基因组草图的同时,分别发表了“ And now for the proteome ”和“ Proteomics in genomeland ”的评述和展望,将蛋白质组学的地位提到前所未有的高度,认为蛋白质组学将成为新世纪大战略资源—人类基因争夺战的战略制高点之一,从此蛋白质组学的研究受到了广泛的关注。

蛋白质组一词是澳大利亚学者马克威尔金斯在 1994 年先提出来的,它是指基因组表达的所有相应的蛋白质,也可以说是指细胞或组织或机体全部蛋白质的存在及其活动方式。蛋白质组学是从整体的蛋白质水平上 , 在一个更加深入、更加贴近生命本质的层次上去探讨和发现生命活动的规律和重要生理、病理现象的本质等。蛋白质组学的研究对揭示生命活动规律,探讨重大**机制,**诊断和防治、新药的开发提供重要的理论基础。 [3]

2.2 生物信息学在蛋白质组学中的蛋白质数值库的应用 [5]

2.2.1 蛋白质组数值库

蛋白质组数值库是蛋白质组学研究的主要内容之一。通过构建不同环境条件下组织或细胞全部蛋白质的数值库来研究蛋白质表达的差异情况。与其他数值库相比 , 目前大部分蛋白质组数值库都有以下几个方面的特点 : ( 1 )由于蛋白质相关数值的种类繁多 , 蛋白质组数值库的种类也多种多样 , 如双向电泳数值库、基于蛋白序列的数值库、蛋白质上等或上等结构数值库、蛋白质相互作用数值库等等 ; ( 2 )新速度快 , 网络上的蛋白质组数值库的数值每天都在更新 ; ( 3 )网共享程度高 , 越来越多的数值库资源与互联网相互配合 , 使得蛋白质相关数值的利用率空前的提高。蛋白质组数值库的主要内容即集中在基于双向电泳结果的数值库和基于蛋白质序列信息的数值库。

2.2.1.1 基于双向电泳图谱的数值库

双向电泳技术是蛋白质组学研究中重要的实验技术之一,所以基于双向电泳图片的数值库也成了蛋白质组学研究中主要内容。

2.2.1.3 其他蛋白质组数值库

蛋白质生物信息学包含很多方面的内容:如蛋白质大分子的结构、相互作用等等,所以,除了上述的一些数值库之外,还有很多关于构象、相互作用等方面的数值库

2.2.2 生物信息学与蛋白质分析 [7]

在蛋白质组分析过程中,生物信息学的作用不仅仅体现在数值库的查阅和资料的整合中,生物信息学软件在蛋白质组研究领域的作用根式至关重要的。蛋白质分析软件应用主要集中在结合蛋白质组研究中的分离技术和坚定技术识别蛋白质(如 2-DE )图像分析、 Edman 降解的序列组合、质谱数值的综合分析等),对有价值的未知蛋白质进行分析和预测(包括序列分析、结构预测、结构域、电点等性质的检测等)、针对蛋白质的分析预测方法应用的工具有 4 个方面。

2.2.2.1 蛋白质上等结构分析

根据 20 中氨基酸的理化性质可以分析电泳等实验中的未知蛋白质,同样也可以分析已知蛋白质的物化性质。 ExPASy(ExPASy 是由 Swiss2Prot ; TrEMBL ;EMBL 等多个数值库的集合 , 主要专注的领域是蛋白质分子和蛋白质组学。 ) 工具包中提供了一系列相应程序 , ① AACompIdent 。它与把氨基酸序列在 SWISS-PROT 库中搜索不同 ,AACompIdent 利用未知蛋白的氨基酸组成去确认具有相同组成的已知蛋白。这个程序需要的信息比较多,包括有氨基酸组成、蛋白质的名称、 pI 和 Mw( 如果已知 ) 以及它们的估算误差、所属物种、标准蛋白的氨基酸组成、标准蛋白的 SWISS-PROT 编号等 , 用户还需要在 6 种氨基酸“组合”中作出选择。然后在 SWISS-PROT 或 TrEM2BL 数值库中搜索组成相似蛋白。② AACompSim 。与前者类似 , 是 AACompIdent 的一个变种。但比较多在 SWISS-PROT 中进行。也可以用于发现蛋白质之间较弱的相似关系。③ PROPSEARCH 。不属于 ExPASy 工具包 , 是蛋白质氨基酸序列同源性的检索 , 提供的查询 , 并通过电子邮件的形式反馈给提问者的网页。设计 PROPSEARCH 的目的是为了通过排比方法查询一个新的蛋白质序列失败时 , 查找公认的蛋白质家族而设计的。 PROPSEARCH 可以通过氨基酸组分来查询 , 同时也可以通过其他的特性来进行查询 , 如从序列中计算所得的分子量、 挑选的二肽组分的含量等。

2.2.2.2 蛋白质的物理性质预测

从蛋白质序列出发,预测蛋白质的许多物理性质,包括等电点、分子量、酶切特性、疏水性、电荷分布等。相关工具有:① Compute pI/MW( 等电点和分子量工具 ) 。是 ExPASy 工具包中的程序 , 对 PI 的确定是基于早起研究中将蛋白质从中性到酸性变性条件下迁移过程所获的 PK 值。但对于碱性蛋白质有局限,计算出的等电点可能不准确。分子量的计算是把序列中的每个氨基酸的同位素的品军分子量加在一起,再加一个水分子的分子量。② PeptideMass ( 酶切特性工具 ) 。是 ExPASy 工具包中的程序 , 主要针对肽段图谱的分析试验 , 分析蛋白质在各种蛋白

酶和化学试剂处理后的内切产物。可预测水解结果的酶和试剂包括胰蛋白酶、糜蛋白酶、 LysC 、溴化氰、 ArgC 、 AspN 和 GluC( 双羧酯或磷酸酯 ) 等。半胱氨酸和甲硫氨酸可在计算产物肽段前加以修饰。③ TGREASE( 疏水性工具 ) 。是 FAS-TA 工具包中的程序 , 能够沿着蛋白质序列长度计算其疏水性 ( 疏水性是每种氨基酸的固有特性 , 影响蛋白质的三级空间结构 ) 。这个程序的疏水性预测方法依赖与疏水性的衡量尺度,它将每种氨基酸的物理性质与疏水性相联系 , 沿着蛋白质序列计算每个残基位点的移动平均疏水性 , 并给出疏水性和序列曲线。用这个程序还可以发现膜蛋白的跨膜区和高疏水性区的明显相关性。④ SAPS( 电荷分布工具 )

蛋白质序列统计分析 , 对提交的序列给出大量的分析数值。输出结果是按照种类对氨基酸的统计计数 , 然后是电荷分布分析 ( 包括正 / 负电荷聚集区的位置 , 高度带电和不带电区域,电荷传播和模式等 ) ,后给出高疏水性和跨膜域、重复结构和多重态以及周期性分析。

2.2.2.3 蛋白质二级结构预测

二级结构是指α螺旋和β折叠等规则的蛋白质局部结构元件。蛋白质的二级结构预测的基本依据是每一段相邻的氨基酸残基具有形成二级结构的倾向。因此 , 进行二级结构预测需要通过统计和分析发现这些倾向或者规律。蛋白质二级结构预测的方法有 3 种。一是由已知结构统计各种氨基酸残基形成二级结构

的构象趋势 , 其中常用的是 Chou 和 Fasman 法 ; 二是基于氨基酸的物理化学性质 , 包括堆积性、疏水性、电荷性、氢键形成能力等 ; 三是通过序列比对 , 由已知三维结构的同源蛋白推断未知蛋白的二级结构。各种方法预测的准确率随蛋白质类型的不同而变化。一般对于α螺旋预测精度较好 , 对β折叠差些 , 而对除α螺旋和β折叠等之外的无规则二级结构则效果很差。① nnPredict 。用神经网络方法预测二级结构 , 使用 FASTA 格式文件。蛋白质结构类型分为全α蛋白、全β蛋白和α / β蛋白 , 输出结果包括“ H ” ( 螺旋 ) 、“ E ” ( 折叠 ) 和“β” ( 转角 ) 。该方法在实际的实例预测中 , 准确率超过 65% ,而对全α蛋白则能达到 79% 的准确率。② Predict2Protein 。提供了序列搜索和结构预测服务 , 它先在 SWISS-PROT 中搜索相似序列,用 MaxHom 算法构建多序列比对的 profile ,再在数值库中搜索相似的 profile ,然后用一套 PHD 程序来预测相应的结构特征 , 不仅仅给每个残基分配 1 个二级结构类型 , 他还对序列的每个位点的预测可信度给予统计分析。这个方法的平均预测准确率达到 72 % , 佳残基预测准确率可高达 90 % 。③ SSPRED 。与 PredictProtein 相似 , 特点是在对比时特别注意非保守位点的替换 , 并利用比对结果作出预测结果 , 然后删除简单不合理的结果单元。

2.2.2.4 蛋白质的三维结构

蛋白质三维结构是预测时复杂和困难的预测技术。序列差异较大的蛋白质序列也可能折叠成类似的三维构象。由于蛋白质的折叠过程并不十分清晰 , 从理论上解决蛋白质折叠的问题还有待进一步的科学发展 , 但也有了一些有作用的三维结构预测方法。


尊敬的客户:本公司主营实验技术服务、核酸化系列试剂盒 、细胞株等,您可以通过网页拨打本公司的服务电话了解更多产品的详细信息,至善至美的服务是我们永无止境的追求,欢迎新老客户放心选购自己心仪产品,我们将竭诚为您服务!



上一篇:暂无
下一篇:暂无

沪公网安备 31011302004463号