An Improved Correlation Measure-based SOM Clustering Algorithm for Gene Selection
文件大小: 490k
源码售价: 10 个金币 积分规则     积分充值
资源说明:本文标题和描述表明,这篇文章讨论了一种改进的相关性度量方法为基础的自组织映射(SOM)聚类算法,并将其应用于基因选择。这种算法专注于基因表达数据的降维,这对于执行特定的诊断测试十分有效。接下来,我们将详细分析文档中提到的知识点。 文章标题中提到了“基因选择”,这是指在海量基因中选取对于特定诊断任务有效的基因子集。在微阵列基因表达数据中,成千上万的基因中只有一小部分是有效的。因此,为了提高诊断的准确性和效率,必须减少基因表达数据的维度,这就是基因选择的重要性所在。 “自组织映射(SOM)”是一种特殊的数学聚类分析方法,非常适合处理复杂、多维数据中的特征识别和分类。SOM模型通常由输入层和输出层(也就是神经元网格)组成。在训练过程中,输入数据会被映射到输出层的神经元上,并调整神经元之间的连接权重。这些连接权重的调整使得输入数据能够在输出层上形成拓扑有序的地图。 文章描述中提到,本文提出了一种基于邻域互信息相关性度量的改进SOM聚类算法。相关性度量是数据分析中用于评估两个变量之间相关程度的方法。在这里,"邻域互信息"可能指的是考虑到神经元邻域内的信息,并用互信息来度量这些神经元之间的相关性。互信息是信息论中的一种度量,用来衡量两个随机变量共享的信息量。在SOM的上下文中,互信息可以用于评估神经元之间的相似性,从而指导聚类过程。 接下来,“基因表达谱(GEP)”是研究基因表达水平的集合。它被用于分子诊断,特别是肿瘤诊断中,以实现精确和早期的肿瘤诊断。但是,由于肿瘤数据集通常具有高维性但样本量小,因此存在“维度的诅咒”,这严重挑战了肿瘤分类的准确性。因此,从数以千计的基因中选择重要的基因子集,以大幅减少肿瘤数据集的维度,是解决这一问题的关键步骤。 “聚类分析”是探索性数据挖掘的主要任务之一,也是机器学习、模式识别、图像分析、信息检索和生物信息学等许多领域中统计数据分析的常用技术。在基因表达数据的处理中,传统的聚类算法(如K-means和层次聚类算法)面临的问题是基因(属性)数量巨大而样本数量有限。 文章中还提到了实验部分,作者将改进的算法应用于六个著名的基因表达数据集,并与其他方法获得的结果进行了比较。通过实验结果,验证了提出的基因选择方法的有效性。 文章列出了一些索引术语,如“自组织映射”、“邻域互信息”、“相关性度量”和“聚类算法”。这些术语帮助我们更好地理解文章的研究内容和目标。 总结来说,这篇文章所探讨的是一种使用改进的SOM算法,通过相关性度量特别是邻域互信息来提高基因选择效率的科学方法。该方法试图通过降低高维基因表达数据的维度来解决肿瘤分类的问题,并通过实验验证了其有效性。这些内容对于基因表达数据分析、机器学习方法优化以及生物信息学领域的研究具有重要意义。
本源码包内暂不包含可直接显示的源代码文件,请下载源码包。