SYBYL7.3之同源蛋白搜索模块-FUGUE介绍
FUGUE (Find Homologues of Uncharacterized Gene products Using Environment-specific substitution tables)是由剑桥大学Professor Sir Tom Blundell实验室的Kenji Mizuguchi, Ph.D.开发的。它能寻找目标序列和已知蛋白结构的序列之间的相关性;通过考察进行比对的序列所在位置的结构环境能产生一个突变表单(mutation tables),与仅仅基于序列信息或折叠方法相比,突变表单的方法可能提供一种更有效的手段。HOMSTRAD是一个提供同源蛋白家族基于结构的比对数据库,作为FUGUE程序的一部分,它能为想模建的序列找到相关性很远的蛋白并生成精确的序列/结构比对。
FUGUE中的几个组成部分用到了SYBYL内嵌的二进制蛋白库(PRODAT)。这是由Tripos公司提供的,里面的序列和结构信息来源于Protein Data Bank。也可以通过mkprodat程序或Biopolymer模块中的功能来创建自己的“Protein Data Bank”。
通过FUGUE产生的序列/结构比对能用于ORCHESTRAR来建立目标序列的结构模型。
1.1同源蛋白结构识别
在很多情况下,了解目标蛋白序列和已知结构蛋白之间的关系能获得关于这个蛋白的更多信息。
在多大程度上能把一个既定蛋白做为药物靶点能从预测得到的三维结构上得到启发,这些启发能对靶点识别和确认起很大的帮助作用。
从与保守结构相关的残基上能获得功能信息,不论这些残基本身保守与否。这些信息能帮助靶点识别和确认,并为选择一组进行筛选的先导候选物提供一个起点。
通过序列叠和能认识序列-结构关系。目标序列与已知结构蛋白序列的叠和提供了模建蛋白结构的基础。通过这种方法模建的蛋白能用于进行基于结构的药物设计,并用Unity, Surflex, RACHEL等进行虚拟筛选。
识别目标蛋白和已知结构蛋白之间的关系有几种方法。
1.1.1 标准序列方法(Standard Sequence Techniques),如BLAST。
序列唯一方法(sequence only technique)采用general 和constant突变表格来描述进化过程中一个残基突变为另一个残基时的相似性。这种方法在探测远同源性方面有些问题,并且在相似性很低的匹配下不能产生准确的叠合。序列技术仅决定序列之间的进化关系。它只识别与目标序列有相同进化背景(如属于同家族或超家族)的蛋白序列,但不能解决折叠识别中的普遍问题。
值得注意的是,较新的序列技术,如PSI-BLAST,在它们的迭代搜索中,并没有考虑位置特异性突变的可能性。
1.1.2 串线法(threading,也称反相折叠或折叠识别法),如MatchMaker。
串线法看到序列和结构之间的统一性(i. e., 折叠识别)。折叠识别能在同家族或同超家族(i.e., 这些蛋白在进化方面是相关的-分裂进化)的2个蛋白中进行,但串线法不会告诉我们进化关系,除非共有的折叠间有相似性。串线法也能发现进化无关的蛋白之间的关系,但要求这些蛋白有相似的折叠(趋同进化)。当其它方法不能提供序列-结构关系或想寻找模建结构的错误时可以考虑用串线法。
1.1.3 结构辅助的序列方法 (Structure-aided Sequence Techniques), 如Genefold 和FUGUE
这些技术与序列技术基本上是相同的,但是序列比对是由蛋白结构信息指导的,不仅仅用到了序列信息。只考虑分裂进化,这意味着2个进化无关的蛋白之间的折叠相似性是不可能被发掘的。Genefold 依赖预测到的目标序列的二级结构与模板序列的实际结构进行比较;FUGUE完全采用由实验得到的结构信息来修改序列方法采用的置换表格。
当考虑涉及进化关系的蛋白家族或超家族时,对序列同源性>20-30%的折叠识别,序列技术通常比串线法更敏感;但是序列同源性<20-30%就相反了。增加结构信息,如GeneFold 或 FUGUE,充分的增加了序列技术的能力,使它们在所有有进化关系的情况下优于串线法的序列-结构同源性探测。
FUGUE与以上提到的方法的几点关键的区别在于:
采用HOMSTRA数据库
环境特异性置换表单和断点(gap)罚分
自动选择排列方法
采用从多个序列和多个结构中得来的综合信息
1.1.4 FUGUE假设
FUGUE的基本前提是结构比序列更具有保守性。经过一段时间的进化,蛋白中的氨基酸残基会发生突变,但只有在蛋白结构允许的情况下才能发生特定的突变,如突变必须保证不能使蛋白的功能失效,因此不能引起结构发生大的混乱。任何能引起蛋白功能丧失的突变都可能导致生物体的死亡,因此都可能从进化的道路上退出。
1.2. 结构剖面(Structural Profiles)
FUGUE搜索HOMSTRAD数据库,并且比较目标序列(或序列比对)与数据库中每个家族的structural profile。Structural profile 是HOMSTRAD中蛋白家族多重序列比对与环境特性置换表单和断点(gap)罚分的联合,其中序列比对是由COMPARER程序对家族结构进行结构排列得来的。下面用一个图来说明什么是structural profile。
Seq / A C D E F……
--PP 16 -149 8 17 -47……
T-KS -1 -94 9 16 -44……
L-DK 0 -92 -11 -7 -33……
A-VV -4 -70 -17 -15 -28……
D-SA -10 -73 -7 -5 -28……
G-GG -22 -87 11 -1 -60……
DGRK -12 -66 5 4 -37……
……
在上面的structural profile中,每一行对应HOMSTRAD中序列比对的一个位置。很多列中的数字表明一个残基被替代为另一个特异性残基的分数和由列指定的叠和位置的突变/断点罚分。这些分数是从环境特异性置换表单和断点罚分以及从相关叠和位置找到的结构环境中得来的。FUGUE的叠和算法能把目标序列(或序列比对)与structural profile进行对比,以决定分数并且由此决定目标序列和HOMSTRAD家族的关系。
可以通过阅读 HOMSTRAD 得到关于它的数据库的更多信息。
1.3序列比对
FUGUE采用一个动态的程序算法(象很多序列比对技术一样)。如果用户指定用自动叠和方法,程序将运行所有的方法,给它们打分并且报告最佳结果。
比对技术主要有两种:全局的(global)和局部(local)的。当然在FUGUE中它们能通过多种方式结合起来变成新的叠和技术:
全局-全局序列比对技术-在目标序列和structural profile有相似的长度时采用。
全局-局部技术-当目标序列和structural profile 长度差别很大时采用。在Run Fugue对话框中这种技术呈现出两种可能性:
Global, Local for Sequence—当目标序列含有更多的残基时不进行罚分。
Global, Local for Profiles—当profile中的含有更多的残基时不进行罚分。
局部-局部技术-当目标序列和structural profile 长度差别很大时采用。当然这种情况下不采用罚分。在Run Fugue对话框中这种技术呈现为Local, Local for All.
在FUGUE的结构中将会告知用户采用了哪种方法。
Additional Information:
o More information on the global technique can be found in Smith, T. F. & Waterman, M.S., "Identification of common molecular subsequences," J. Mol. Biol., 147, 195-197 (1981).
o More information on the local technique can be found in Needleman, S. B. & Wunsch, C. D., "A general method applicable to the search for similarities in the amino acid sequence of two proteins," J. Mol. Biol., 48, 443-453 (1970).
o Automatic Selection of Alignment Algorithms.
页:
[1]