代谢组学及其研究进展
1 代谢组学的定义和特点近年来, 随着人类基因组测序工作的完成, 人们对生命过程的理解有了很大的提高, 研究的热点转移到基因的功能和几个“组学”研究, 包括研究核糖核酸(RNA) 转录过程的转录组学、研究某个过程中所有蛋白及其功能的蛋白组学、研究代谢产物的变化及代谢途径的代谢组学。代谢组学作为一门新发展的技术, 它是通过考察生物体系受刺激或扰动后(如将某个特定的基因变异或环境变化后) 其代谢产物的变化或其随时间的变化, 来研究生物体系的代谢途径的一种技术[1 ] ; 它所关注的是相对分子质量为1,000以下的小分子。代谢组学的代表性研究是Fiehn 等[2~5 ] 的工作,他们用气相色谱/ 质谱(GC/MS) 在拟南芥叶抽提物中自动定量了326 个峰, 并确定了其中149个化合物的化学结构。根据研究的对象和目的的不同, Fiehn 等[4 ]将代谢组学分为4 个层次, 即
1) 代谢物靶标分析(metabolite target analysis) :
对某个或某几个特定组分的分析。在这个层次中, 需要采取一定的预处理技术, 除掉干扰物, 以提高检测的灵敏度。
2) 代谢轮廓(谱) 分析(metabolic profiling analysis) :
对少数所预设的一些代谢产物的定量分析。如某一类结构、性质相关的化合物(如氨基酸、顺二醇类)、某一代谢途径的所有中间产物或多条代谢途径的标志性组分。进行代谢轮廓(谱) 分析时,可以充分利用这一类化合物的特有的化学性质, 在样品的预处理和检测过程中,采用特定的技术来完成。
3) 代谢组学(metabonomics) :
对限定条件下的特定生物样品中所有代谢组分的定性和定量。进行代谢组学研究时, 样品的预处理和检测技术必须满足对所有的代谢组分具有高灵敏度、高选择性、高通量的要求,而且基体干扰要小。代谢组学涉及的数据量非常大,因此需要有能对其数据进行解析的化学计量学技术。
4) 代谢指纹分析(metabolic fingerprinting analysis) :
不分离鉴定具体单一组分, 而是对样品进行快速分类(如表型的快速鉴定) 。 严格地说, 只有第3 层次才是真正意义上的代谢组学研究。目前, 代谢组学的最终目标还是不可完成的任务, 因为还没有发展出一种真正的代谢组学技术可以涵盖所有的代谢物而不管分子大小和性质。但是,它和代谢轮廓(谱)分析有着显著的差别, 在具体的实验中, 代谢组学研究会设法解析所有的可见峰, 因此代谢组学研究的特征也可以表述为它会设法分析尽可能多的代谢组分。在代谢组学的研究中, 经常出现的另一个单词metabolomics 是用来专指细胞层次上的代谢组学研究[3] 。与转录组学和蛋白组学比较,代谢组学有以下优点[4 ] : 1)基因和蛋白表达的微小变化会在代谢物上得到放大, 从而使检测更容易; 2)代谢组学的研究不需建立全基因组测序及大量表达序列标签( EST)的数据库; 3)代谢物的种类要远小于基因和蛋白的数目(每个组织中大约为103 数量级,即使在最小的细菌基因组中也有几千个基因); 4) 研究中采用的技术更通用, 这是因为给定的代谢物在每个组织中都是一样的缘故。
2 代谢组学的技术平台
完整的代谢组学分析的流程包括样品的采集和预处理、数据的采集和数据的分析及解释。代谢组学力求分析生物体系(如体液和细胞)中的所有代谢产物,整个分析过程应能尽可能地保留和反映总的代谢产物的信息。由于实际的研究对象不同,采用的样品采集、预处理技术也就千差万别。限于篇幅,这里我们仅对代谢组学研究中所用的数据采集和数据分析技术作简要的介绍。
2.1 数据采集技术
在完成对样品的预处理后,样品中的所有代谢产物需要通过合适的方法进行测定。与原有的各种组学技术只分析特定类型的化合物不同,新兴的代谢组学所分析的对象的大小、数量、官能团、挥发性、带电性、电迁移率、极性以及其他物理化学参数差异很大,要对它们进行无偏向的全面分析,单一的分离分析手段难以胜任。色谱、质谱、核磁共振(NMR) 、红外光谱、库仑分析、紫外吸收、荧光散射、发射性检测、光散射等分离分析手段及其组合都出现在代谢组学的研究中。其中,色谱以其高分离度、高通量,质谱以其普适性、高灵敏度和特异性,核磁共振技术特别是H12NMR 以其对含氢代谢产物的普适性而成为最主要的分析工具;由于液2质联用(LC/MS) 和气-质联用能分析范围很广的代谢组分,因此也成为代谢组学研究分析中的很重要的工具。
2.1.1 色谱及其联用技术
在过去的几十年里,色谱技术因其卓越的分离性能、高灵敏度已被广泛用于复杂体系(如体液) 中的靶标分析(如标记物分析) 。近年来,越来越多的研究者将色谱及其色谱联用技术用于代谢组学的研究。据文献[5]报道,Larson 等应用液相色谱实现了对酰基辅酶A 酯类(CoA2acyl esters) 的fmol 级的检测,完成了对该类化合物的代谢轮廓分析;Nikolau等利用气相色谱技术通过对玉米上表皮蜡状化合物中正己烷提取物的检测,对其中的脂肪醇类、醛类、酮类、酯类、烷烃、酸类化合物进行了代谢轮廓分析,描述了蜡层(wax layer) 生物合成的复杂过程。许国旺等[6~10]采用基于液相色谱或毛细管电泳的方法实现了对尿中核苷代谢产物的靶标分析和代谢轮廓分析。Fraser 等[11]将基于液相色谱的代谢组学技术应用于转基因、突变西红柿的基因型及阿布属植物变异的筛选。作为代谢组学的工具,色谱技术存在的主要问题是:大量色谱峰的识别问题以及方法的重现性问题。Hai 等[12]经过优化分离参数、严格控制分离条件,获得了尿液和细胞样品的稳定的代谢轮廓和指纹图;采用高流速、快速梯度洗脱方法实现了在短整体柱上对尿液的快速分离,显示了液相色谱利用新发展的技术实现高通量分析的潜力。质谱由于其普适性、高灵敏度和特异性,被广泛地应用于代谢组学研究领域[4 ,5 ,13 ] 。Fiehn等[4 ]采用GC/MS 研究了一种叫做阿布属(阿_黨襙<拉伯荠Plumb 等[13 ]应用LC/MS完成了制药研究中对鼠尿中代谢产物的筛选。近年来一些适合于直接进样的质谱分析技术[5 ,15]得到了发展,其采用的“软”电离技术能很好地提供分子离子的指纹图。Castrilloa 等[15 ]应用电喷雾质谱直接进样,完成了对酵母的代谢组学分析。
2.1.2 核磁共振技术
NMR 是当前代谢组学研究中的主要技术[16~32 ],它的优势在于能够对样品实现非破坏性、非选择性的分析。1H2NMR对含氢化合物均有响应,能完成代谢产物中大多数化合物的检测,满足了代谢组学中的对尽可能多的化合物进行检测的目标。Nicholson研究小组采用了一种近年来新发展的魔角旋转(magic angle spinning ,MAS)技术,将NMR技术广泛地应用于药物毒性、基因功能、疾病的临床诊断中[1 ,17 ,20~22 ,24 ,26,28 ,31 ,32 ] 。MAS 技术让样品与磁场方向成5417°旋转,从而克服了由于偶极耦合(dipolar coupling) 引起的线展宽、化学位移的各向异性。应用MAS技术,研究者能够获得高质量的NMR谱图,样品中仅加入非常少量的D2O 而不必进行预处理,样品量只需约10 mg。值得注意的是,Daykin等[18 ]在研究中采用了色谱技术,利用LC2NMR联用对心血管疾病患者血中的脂蛋白代谢产物进行了检测。NMR虽然可对化学组成知之甚少的复杂样品如尿液、血液等进行非破坏性分析,但由于其对每个分子的化学和物理环境敏感,因此样品制备的要求很高。同时,NMR的动态范围有限,很难同时测定生物体系中共存的浓度相差较大的代谢产物,所需硬件的投资也较大。
2. 2 数据分析
代谢组学得到的是大量的、多维的信息。为了充分抽提所获得的数据中的潜在信息,对数据的分析需要应用一系列的化学计量学方法。在代谢组学的研究中,大多数情况是要从检测到的代谢产物信息中进行两类(如基因突变前后的响应)或多类(如杂交后各不同表型间代谢产物) 的判别分类,因此在数据分析过程中应用的技术也就集中在模式识别技术上。
2.2.1 归一化与滤噪
在得到分析对象的原始谱图后,首先需要对数据进行预处理(一般包括归一化和滤噪),处理后保留与分类有关的大部分信息,消除多余的干扰因素的影响。广泛应用的滤噪技术是正交信号校正技术(orthogonal signal correction , OSC) [17 ,20 ,22 ] 。与普通的谱图滤噪技术不同,OSC 滤掉与类别判断正交(不相关) 的变量信息,只保留与类别判断有关的变量,从而使类别判别分析能集中在这些与类别的判别相关的变量上,提高了判别的准确性。OSC等效于从数据中去除了额外的影响因素,因此该方法经常用于易受环境因素影响的分析,例如在微量药物引发的生化效应中,分析结果经常被研究对象的性别、饮食和其他环境因素所淹没,在这种情形下,应用OSC能收到较好的效果[19] 。
2.2.2 非监督(un-supervised) 学习方法
这类方法用于从原始谱图信息或预处理后的信息中对样本进行归类,并采用相应的可视化技术直观的表达出来。该方法将得到的分类信息和这些样本的原始信息(如药物的作用位点或疾病的种类等)进行比较,建立代谢产物与这些原始信息的联系,筛选与原始信息相关的标记物,进而考察其中的代谢途径。用于这个目的的方法没有可供学习利用的训练样本,所以称为非监督(无师)学习方法。应用在此领域的方法有: 主成分分析(principal components analysis , PCA) [3 ,16 , 23 , 27 , 31 , 32 ] 、非线性映射( nonlinear mapping ,NLM) [20 ] 、簇类分析(hierarchical cluster analysis ,HCA) [4 ]等。
2.2.3 有监督(supervised )学习方法
这类方法用于建立类别间的数学模型,使各类样品间达到最大的分离,并利用建立的多参数模型对未知的样本进行预测。在这类方法中,由于建立模型时有可供学习利用的训练样本,所以称为有监督(有师)学习。在这种方法中经常需要建立用来确认样品归类(防止过拟合) 的确认集(validation set)和用来测试模型性能的测试集(test set) 。应用于该领域的主要是基于PCA、偏最小二乘法(partial least squares ,PLS) 、神经网络( neural network ,NN) 的改进方法,常用的有SIMCA ( soft independent modeling of class analogy) [17 ,19 ,22 ,27 ]和偏最小二乘法2显著性分析(PLS-discriminant analysis ,PLS-DA) [3 ,16 ,22 ,27 ,31 ,32 ] 。作为非线性的模式识别方法,人工神经元网络(ANN)技术也得到广泛应用[4 ,18~20 ,28 ] 。
2.2.4 数据库及专家系统
作为代谢组学的数据分析,其最终目的在于建立可利用的该研究领域的相应数据库及专家系统。为了将基于NMR的代谢组学用于药物的毒性筛选, 伦敦大学的皇家科学院实验室和Pfizer 等6 家制药公司于2001 年1 月启动了一个为期3 年的关于药物毒性研究的研究小组(COMET),拟在药物的发现到开发阶段用代谢组学的方法来评价药物的毒性, 以缩短药物开发的时间,减少损失,并试图建立一个用于药物毒性预测的专家系统[20 ,28 ] 。该专家系统分为3个独立的级别:正常/异常的判别、对未知样本进行数据库中已知毒性或疾病的识别、病理学的生物标记物的识别。关于该专家系统的描述可参见文献[20] 。
3 代谢组学的应用
3.1 疾病诊断
由于机体的病理变化,使得机体的代谢产物也产生了某种相应的变化。对这些由疾病引起的代谢产物的响应进行分析,即代谢组学分析,能够帮助人们更好的理解病变过程及机体内物质的代谢途径,有助于疾病的生物标记物的发现和辅助临床诊断的目的。Brindle 等[27 ]应用1H2NMR 技术,以36 例严重心血管疾病患者(triple vessel disease , TVD) 和30 例心血管动脉硬化患者(normal coronary arteries , NCA) 的血清和血浆为研究对象,进行了代谢组学分析,结合PCA、SIMCA、PLS2DA、OSC2PLS等模式识别技术实现了对心血管疾病及其严重程度的判别,得到了高于90 %的灵敏度及专一性。该方法具有最小限度的侵入性,仅需几滴血液,就可利用核磁共振指纹谱和计算机模式识别技术,判断出心脏病的严重程度。它优于传统的血管造影术,用于检测心脏病时具有快速、廉价、安全的优点且副作用少。许国旺等[6~8]采用毛细管电泳方法(CE) ,通过代谢靶标分析,以尿中13~15 种核苷浓度为数据矢量,用PCA 法处理数据,对分别患有10 多种癌症的68 位癌症病人和54位正常人进行分类研究,识别率达72 %。对用高效液相色谱法(HPLC) 测定的206 位正常人和296 位肿瘤患者尿中15 种核苷排放水平进行研究,也可得到类似的结果。采用人工神经元网络软件对数据进行处理,肿瘤患者的识别率可达83 %。该项目已通过中国科学院组织的鉴定,被鉴定为达国际领先水平,目前正在国家科技部和辽宁省重点基金的支持下,对肿瘤诊断专用仪器及相关试剂盒进行研究。
3.2 药物的毒性评价
Nicholson 研究小组[1 ,17 ,20~22 ,24 ,26 ,28 ,31 ,32]利用基于NMR 的代谢组学技术,在药物的毒性评价方面做了大量的卓有成效的工作。其工作涵盖分析平台的建立[1 ] 、方法的重现性[24 ] 、基因改变及相应代谢响应的特性研究[21 ] 、化学计量学方法[20 ]等。在COMET 的研究项目[28 ] 中,主要是利用1H2NMR技术、模式识别和专家系统,根据已知毒性物质的病理效应完成对被检测的生物组织的分类。该项目的主要目标是: (1)对实验对象(老鼠的尿液、血清和组织) 中代谢物的病理和生化变化进行详细的多维描述; (2)建立加入“有毒药物”后代谢产物的NMR 谱图数据库; (3) 建立毒性预测的专家系统;(4)找寻各类组合生物标记物; (5) 通过对有毒和无毒类似物的分类,测试所建立的专家系统。现在, COMET正在建立老鼠尿中和雄性动物血清中代谢物的NMR 谱图库,研究人员大约要对150 种典型药物进行研究。由Nicholson 等人建立的Metabometrix公司与Waters 公司于2002年3 月10 日签署了一个为期3 年的协议, 由Waters 提供LC/MS 仪器, Metabometrix帮助Waters 开发代谢组学技术,包括基于LC/MS 和NMR的数据处理方法、信息学和化学计量学模型等。双方合作的重点放在疾病诊断和药物毒性的代谢组学研究。
3.3 植物的细胞代谢组学研究
代谢组学的很多研究集中在植物的细胞代谢组学这个相对独立的分支。有代表性的是Fiehn 研究小组的工作[2~4] 。他们利用GC/MS 技术,通过对不同表型阿拉伯荠的433种代谢产物进行代谢组学分析,结合化学计量学方法(PCA、ANN 和HCA) 对这些植物的表型进行了分类,找到了4种在分类中起着重要作用的代谢物质:苹果酸(malic acid)、柠檬酸、葡萄糖和果糖,结果与线粒体和叶绿体中的基因型结果一致。随着植物的细胞代谢组学的迅速发展,人们已经开始利用这一技术的成果。Metanomics 公司的成立就是一个典型的代表,他们的目标是寻找植物代谢过程中的关键基因,如能够让植物耐寒的基因;其思想就是遵循代谢组学的研究方法,在改变植物的基因后, 进行植物的代谢分析或记录代谢产物,从而更迅速地掌握有关植物代谢途径的信息。
4 代谢组学研究的展望
目前,代谢组学正日益成为研究的热点,越来越多的人已加入到代谢组学的研究中[33~47 ] 。2001 年12月在美国举行的题为“Metabolic Profiling : Pathways in Discovery”,2002 年4 月和2003 年4 月分别在荷兰和德国举行的第一届、第二届植物代谢组学国际会议的召开更加速了代谢组学的发展。同时,2002 年11月在美国加州召开的系统组学国际会议也特别强调了代谢组学。西方国家先后成立了多个关于代谢组学研究的研究中心或公司, 如德国MAX- PLANCK-INSTITUT 的分子植物生理所、英国的Metabometrix Ltd、荷兰的Platform Plant Metabolomics (PPM) 、美国的The Metabolomics group 、加拿大的Phenomenome Discoveries Inc. 等,我们建立的基于尿中代谢物的异常来诊断恶性肿瘤的方法也正向着实用性方向发展,此方面的研究越来越热。随着研究的深入,代谢组学研究必将在揭示基因功能的功能基因组学研究中发挥更大的作用:它能帮助人们更好更深地了解生物体中各种复杂的相互作用、生物系统对环境和基因变化的响应,为人们提供一个了解基因表型的独特途径。药物开发、临床诊断和营养科学将从代谢指纹图谱研究中大大受益。此外,代谢组学技术还可用于微生物和植物表型的快速鉴定,并可指导开发具有重要应用价值的新型代谢产物。
致谢: 特别感谢卢佩章院士和杨胜利院士的鼓励和指导。
页:
[1]