Gene function prediction with knowledge from Gene Ontology
文件大小:
254k
资源说明:基因功能预测是生物信息学中的一个重要问题。随着高通量技术的发展,基因表达数据的积累日益增多,然而,由于基因表达数据中固有的噪声,尝试使用新的分类技术来提高预测精度是有限的。随着基因本体论(Gene Ontology,简称GO)的出现,可以从GO中提取关于基因产品的额外知识,有助于解决基因功能预测问题。
GO是一个国际标准化的、针对基因和基因产品的功能描述的数据库,它包含了大量关于基因和蛋白质功能的注释信息。GO的主要内容分为三大类:生物过程(Biological Process, BP)、分子功能(Molecular Function, MF)和细胞成分(Cellular Component, CC)。它通过定义一组标准的词汇来描述基因和蛋白质在分子水平上的生物学功能,从而使得来自不同研究背景和实验技术的基因功能描述具有可比性。
文章中提出了一种新的方法,该方法利用GO信息来提高基因功能预测分类器的性能。具体来说,该方法是在GO知识的监督下,使用距离学习技术来学习一个距离度量。与传统距离度量相比,学习得到的距离度量可以产生更好的性能,从而提高分类准确性。文章中的实验结果证明了所提方法的有效性。
该方法的实现涉及到几个关键技术领域,包括知识的获取和处理、距离度量学习以及生物数据挖掘。知识获取和处理方面,研究人员需要从GO数据库中提取相关的功能注释信息。距离度量学习是一种利用训练数据来学习样本间相似性度量的技术,它可以将数据映射到一个度量空间中,以便能够更好地反映样本间的相似性或差异性。生物数据挖掘则是从大量的生物数据中提取有价值信息的过程,这在基因功能预测中非常关键。
在基因功能预测中使用GO信息可以增加预测的准确性和可靠性。这是因为GO不仅提供了一套描述基因和蛋白质功能的标准词汇,而且通过其层级结构来展现不同功能之间的关系。例如,子节点表示的功能相对于其父节点更为具体。这种层级关系可以用来计算基因之间的语义相似性,进一步用作特征选择或加权等,以改进机器学习算法的分类性能。
生物信息学作为一门交叉学科,它涵盖了生物学、计算机科学和信息技术等多个领域的知识。在基因功能预测的背景下,生物信息学的研究人员需要掌握生物数据的分析技术、算法设计、统计学以及机器学习等多个方面的知识。只有这样,研究人员才能从海量的生物数据中提取有价值的信息,并利用它们来构建有效的预测模型。
参考Ying Shen和Lin Zhang在2015年的研究论文,作者们展示了通过利用GO的知识来改进基因功能预测分类器性能的新方法。这种方法通过学习一个在GO知识监督下的距离度量来实现,并且相较于传统方法能够提高分类的准确性。这一成就不仅对生物信息学领域的研究者具有重要意义,同时也为其他使用基因表达数据进行生物医学研究的科学家们提供了新的思路和工具。
本源码包内暂不包含可直接显示的源代码文件,请下载源码包。