文本挖掘技术在生物学中的应用
转一篇相关或不相关的文章:文本挖掘技术在生物学中的应用
2006-9-7
出自: 黄利辉,中华医学会医学信息学分会
【摘要】文本挖掘是利用数据挖掘技术在大量的文本集合中发现隐含的知识的过程。近年来许多研究人员利用计算机技术对生物医学文献全文或摘要进行了分析,本文综述了各项研究中所采用的文本挖掘技术。文本挖掘的任务包括在大量文本中进行信息抽取、语词识别、发现知识间的关联等,还包括提高同源查找的效率,进行细胞定位等复杂的目标。
大多数的生物学知识被记载在各类文献中,其中大量文献以电子出版物形式存在。生物信息学的一个分支即是利用自然语言处理技术挖掘大量的生物学本文集合。本文综述了近年来用于挖掘生物学文本的方法,这些方法大多涉及了自然语言处理技术的各个领域。一般对生物学文本挖掘的目的在于发现基因及其相互作用关系,以及利用文本挖掘技术提高数据分析的效率。
1. 解决生物学问题的新方法:文本挖掘
大量的生物学数据是以结构化的形式存在于数据库中的,例如基因序列、基因微阵列实验数据和分子三维结构数据等,而大量的生物学知识以非结构化的形式被记载在各种文本中。文本型的知识无疑对分析海量的生物学数据是非常重要的。但是传统的印刷型生物学文献数量巨大,缺乏结构化特征,难以被计算机自动处理分析。近年来随着计算机网络技术的发展,期刊文献出现了网络版本,在PubMed中也收集了大量的生物医学文献摘要,另外在互联网中也出现了如High- Wire和PubMed Central这样的全文数据库。
自然语言处理技术的研究目标是采用各种技术自动化理解和解释文本信息。这些技术同样也可以用来分析生物学文献。传统的NLP系统采用基于规则的推理方法,近年来随着计算机运算能力的提高和海量文本信息的出现,研究人员发现基于文本统计分析的方法更加有效,现在的文本分析方法大多是基于统计学原理的。
利用统计学原理分析文本所遇到的第一个问题是如何将文本转换成计算机可处理的数字形式。基本的步骤包括抽词、过滤停用词、确定句子和段落的边界,将文本转换成可以进行统计学分析向量。
文本被转换成向量之后可以利用统计学方法比较文本之间的相似性,或对文本进行聚类或分类。但是文本分析往往比较困难,因为文本向量空间的维度(例如单词的个数)太大,因此如何降低文本向量的纬度非常重要。
近年来文本挖掘技术在生物学领域中的应用多是通过挖掘文本发现生物学规律,例如基因、蛋白及其相互作用,进而对大型生物学数据库进行自动注释。例如现在研究这已经可以对蛋白质数据库加注功能关键词,并利用这项功能发现大分子间的相互作用关系。
文本分析技术也可以用来提高生物信息学算法的效率,例如提高序列比对的效果。也有研究者利用文本挖掘方法提高基因表达数据集的分析效果。
2. 数据的预处理:文本转换
如何将文档转换成数值形式具有一定的难度。大多数统计学文本分析方法将文档转换成词频向量空间。在任何一个文本分析系统中首先要考虑哪些词是应该被分析的元素。
抽词的任务是将连续的文档转换成单个的单词集合,最简单的方法是根据词与词之间的空格进行分词,复杂的抽词的方法这需要考虑同义词合并、词组的确定等问题。 例如词组 “sodium ion channel ”应该被当作一个词处理,而非三个词。这样的复合名词短语在生物学中非常常见。另外抽词时还应该考虑单词的词形变化,将不同的词形转换为标准化用词。例如将“kinases”和“kinase”作为相同的词处理。
在许多实例中都考虑了停用词的过滤。所谓停用词是指那些词频过高,没有实质意义的词,或者那些词频很低,不能代表文本主题的词。过滤停用词的常用方法是将文档中词频高于某个数值和次品低于一定数值的词剔除。
有些文本分析方法需要对句子进行详细地分析解释,因此需要进行标注和分析。标注算法是对利用标准词库对文本中的词进行注释,分析算法是句子的语法结构进行分析。
对文档进行了抽词处理后需要将其转换成为计算机可识别的结构化格式,现在普遍采用文本向量空间方法进行转化。这种方法将本档转化成计算机可处理的矩阵。
因为有些低频次可能更加能够代表文档的主题内容,人们往往用词的权重来代替词频。现在已经有多种计算词的权重的方法。
3. 数据挖掘方法:文档分析
将文档转换成向量空间后就可以利用统计学和计算方法进行分析。常用的文本分析方法是聚累,既将文档划分几个子集,各子集间的区别尽量大,子集内的差异性尽量小。也可以利用监督的机器学习方法将文档划分到预先设定的类中。因为词向量是高维度的,且很稀少
许多用于基因表达数据分析的分类算法不适用于文本分析。对于文本集合,有时需要对其内容进行自动文摘化,例如利用关键词来描述文档,该方法在网络文本挖掘中尤其重要。
3.1 监督的机器学习方法:分类
监督的机器学习方法既可以应用于基因表达数据的分析,也可以用来进行文本分类。其中朴素贝叶斯分类方法是一种简单有效的监督机器学习方法。它的分类效果甚至超过了最大熵模型和最大似然性方法。
朴素贝叶斯方法是一种基于概率的分类方法,它通过样本的属性值计算事例属于某一个类的可能性。为了降低计算复杂度,朴素贝叶斯分类架设一个属性值对给定类的影响独立于其他属性值,既属性值相互条件独立,在属性间不存在依赖关系,既“朴素的”。在朴素贝叶斯分类算法中,每个词出现在某类文档中的概率直接由训练集估计得出。同时在计算过程中社定“假权值”来估算那些在训练集中不存在的词——类组合。朴素贝叶斯方法的计算前提是假设文档中的词是相互独立的。虽然这个假设在实际中并不存在,但是贝叶斯的运算效果良好。
极大似然方法是传统的参数估计的最常用的方法,其处理的信息完全来自于样本。四然原理的主要思想是如果一次观察中一个事件出现了,则可以认为此事件出现的可能性很大。最大似然性分类方法此次采用距离矩阵(如Euclidean metric)计算代分类文档和训练集合中每一文档的距离,并将文档划分到得到最大积分得类中。
最大熵模型(检索中文资料)已经被许多研究项目中被证明是有效的文本分类方法。与朴素贝叶斯方法相识,最大熵模型采用似然性原理进行文本分类。在分类中可以用熵判定似然性模型,低熵模型过分依赖在文档分类时作出确定性判断,导致队训练集合的过度解释。高熵模型不依赖于对训练集合的假定,但是也损失了其中的信息,最大熵模型基于以下假设,最好的模型是那些最大熵,同时充分考虑训练集信息的模型。
现在已经有很多关于生物学文档的分类研究。Marcotte利用贝叶斯分类法对关于蛋白质相互作用的文献进行分类。Usuzaka 利用文档分类技术提高检索系统的效率;(Usuzaka Sim et a1 1998). Eisenhabe利用机遇规则的系统对SWISS-PROT中的蛋白质记录进行定位。(Eisenhaber and Bork 1999).
3.2 非监督的机器学习方法:聚类和降维
一些聚类方法,如分层次聚类、自组织图和K均值聚类可以用于文本聚类。.
许多聚类算法采用距离函数(如Euclidean距离或Manhattan距离)来判定两个文档词向量之间的相异性。利用词的权重代替词频可以获得更好的效果。
聚类方法可用来发现文献中隐含的知识。一个研究组发现关于果蝇发育的文献与胚胎发育的文献聚集成类; (1liopoulos Enright et a1 2001). 另一个研究组发现根据文献对基因聚类的结果与根据基因表达数据对基因聚类的结果非常相似。(Shatkay Edwards et al, 2000). Wilbur认为对文档进行“软聚类”,即允许一篇文档聚在多个类中,更加有效,并据此对AIDS显现进行分析。(Wilbur 2002).
3.3 文档自动摘要化
一些研究者对大的文本集合进行了自动文摘处理。手工方法要求人们必须通读全篇后判断与文本主题相关的关键词。现在可以利用统计学方法自动抽取那些与文本内容相关的词语,特别是那些在某类文档集合中常出现的词可以用来描述该类别的属性。这种方法已经被用来描述微阵列中的基因属性;自动注释序列家族;自动描述疾病;自动描述文档聚类的结果。
4. 应用:从文本中提取生物学关系
文本挖掘的目的在于从非结构化的文本中发现知识。在生物学领域,信息抽取发现基因与基因、蛋白质与蛋白质间的相互作用。其中的方法有的非常简单,如查找文摘中“共发生”的基因名称,也有些很复杂,例如进一步通过句法分析来判定共发生的基因间的确定关系。
4.1 概念识别
信息抽取的一个基本应用是识别文本中出现的概念,这是许多研究项目的基础。例如一个系统要在文献中确定基因与蛋白质的相互作用,首先该系统要判定哪些词表示基因,那些代表蛋白质。一个有效的系统必须能够扫描文档,并提取出相关的概念。
EDGAR是一个确定药物、疾病和细胞株名称的程序。他首先将文档转化为名词集合。然后利用UMLS确定其中的药物名称。由于该此表中基因和细胞株名称不完全,因此采用基于规则的方法来确定。例如“expression”之前出现的此应为基因名称。
Fukda利用基于规则的系统判定文档中的蛋白质名称。它通过察看词的上下文、词的语法属性、词串自身的特点来判定该词是否是蛋白质名称。
Hatzivassiloglou采用监督的机器学习方法来判断文档中的词是否是信使RNA、基因、还是蛋白质。他发现朴素贝叶斯分类和决策树算法的效果相似,但是朴素贝叶斯算法的计算强度较低。他们还发现对于数据的钱其处理可以影响系统的性能。(Hatzivassiloglou Duboue et a1 200 1)。
4.2 从数据中寻找关系
信息抽取更加复杂的任务是在文本中发现概念之间的相互关系,例如确定文本中有基因和蛋白质名称,下一步就是确定它们之间的关系。例如“基因表达蛋白质”、“蛋白质是基因的转录因子” 或者“蛋白质抑制基因表达”等关系。
Blashke采用基于规则的方法研究了蛋白质间的相互关系。该系统从一个参考列表中确定蛋白质名称和他们之间的相互关系。它在文本中查找符合“protein A-action-protein B”的短语。他们用该种方法研究了细胞循环的控制过程。
Ng和Wong利用生物医学文献来寻找蛋白质的代谢路径。首先他们利用Fukuda的方法确定蛋白质名称,然后利用基于预先设定的规则确定蛋白之间的相互关系。
4.3 利用文本分析的方法优化生物学算法
利用对于文本分析的结果可以提高对于生物学数据的分析效果。有两个研究小组研究通过对 SWISS-PROT进行PSI-BLAST比对后获得的文献记录进行挖掘,提高比对的效果。两个小组发现通过对文本的分析,序列比对的效果更加准确。
通过分析蛋白质的氨基酸组分可以判断该蛋白的细胞下定位。一个研究小组结合了文本挖掘的方法研究蛋白质的细胞下定位。通过对文章摘要的分析为每个蛋白质建立一个词向量,然后他们词向量和蛋白质组分作为参数训练一种支持向量机算法,预测蛋白质在11个细胞下定为中的归属,这种方法得到的结果要比仅仅依靠分析氨基酸组分要精确。
参考文献
1 Blaschke. C.; Andrade, M.A.1999, Automatic extraction of biological information from scientific text: protein-protein interactions. Proc Int Conf Intell Syst Mol Biol 2: 60-7
2 Eisenhaber. F. and Bork.P. 1999, Evaluation of human-readable annotation in biomolecular sequence databases with biological rule libraries. Bioinformatics 15: 528-35
3 Fukuda. K. and Tamura. A., 1998, Toward information extraction: identifying protein names form biological papers. Pac Symp Biocomput: 707-18
4 Hataivassiloglou V. Dboue. P.A. 2001 Disambiguating proteins, genes, and RNA in text : a machine learning approach. Bioinformatics 17 1: S97-1-7
5 Lliopoulos. I. Enright. A.J. 2001: Textquest: doument clustering of Medline abstracts for concept discovery in molecular biology. Pac symp biocomput: 384-95
6 Marcotte, E.M. Xenarios, I. 2001. Mining literature for protein-protein interactions. Bioinformatics 17: 359-363
7 Ng. S.K. and Wong. M. 1999 Toward Routine Automatic Pathway Discovery from on-line scientific Text Abstract Genome inform ser workshop genome inform 10: 104-112
8 Shatkay, H. Edwards S. 2000 Genes, themes and microarrays: using information retrieval for large-scale gene analysis. Proc int conf intell syst mol boil 8: 317-28
9 Usuzaka, S. Sim, K.L. 1998 A machine learning approach to reducing the work of experts in article selection form database: a case study for regulatory relations of s. cerevisiac genes in medline Genome Inform ser Workshop GenomeIinform 9: 91-101
10 Willbur. W.J. Hazard, G.F. 1999 Analysis of biomedical text for chemical names: a comparison of three methods. Proc AMIA Symp:176-80
页:
[1]