相对行常量差异共表达双聚类挖掘算法

龙源期刊网 http://www.csgoeats.com/doc/info-b8c98d974531b90d6c85ec3a87c24028905f8508.html

相对行常量差异共表达双聚类挖掘算法

作者:谢华博尚学群王淼

来源:《计算机应用》2013年第08期

摘要:在生物信息学上,挖掘差异共表达双聚类有助于研究衰老、癌变类变化的生物过程。以往的差异共表达双聚类定义仅仅从一组基因的角度来衡量差异,导致包含了很多噪声。为了克服上述缺点提出新的差异共表达支持度MiSupport,可以将一组基因的差异细化到基因级别;并由此定义提出MiCluster算法,可以在两个真实的基因芯片数据中挖掘最大的差异共表达双聚类。MiCluster算法首先基于两个基因芯片数据构建差异共表达权值图,然后基于权

值图,采用样本扩展和层次扩展,并利用精确的候选产生方法和高效的剪枝策略,挖掘出最大的差异共表达双聚类。实验结果证明,MiCluster算法比现有的算法快速高效,而且通过均方

误差(MSE)测试和基因本体(GO)评价,挖掘出来结果具有更大的统计意义和生物学意义。

关键词:基因芯片;基因共表达;双聚类;差异;行常量

中图分类号: TP311

文献标志码:A

0 引言

在生物信息学上认为,疾病常常是由维持细胞健康状态的基因网络及其衍生物的扰动所造成的,而基因芯片技术是大规模研究此类扰动和探究基因作用的最流行的技术之一。基因芯片技术中广泛使用的方法是双聚类。双聚类是在基因表达数据中,识别和一组实验条件相关的共表达的基因组。双聚类一般有以下类型[1]:固定值双聚类[2]、行是常量或者列是常量的双聚类[3]、行与列之间都紧密的双聚类[4]、行与列的变化紧密的双聚类[5]。这些不同类型的双聚类可以从真实数据挖掘出不同意义的重要知识。

差异共表达双聚类方法是基因芯片技术中另外一种流行的方法,它能识别有差异共表达的双聚类,即基因组在一组数据集中有很强的关联关系而在另外一组没有。差异共表达双聚类方法有助于发现和衰老、癌变类变化的生物过程相关的基因。例如,通过比较两个年龄段的基因表达数据可以发现一组和衰老相关的基因。在生物学上,差异共表达双聚类可以预示出错的调控网络[6]。

近年来有很多挖掘差异共表达双聚类的算法。Okada等[7]采用了两步挖掘方法,先分别在两个基因芯片数据集中产生双聚类,然后把在两个数据集间有差异的双聚类保留下来。DeBi

算法[8]也采用类似的步骤,在单个数据集产生双聚类后采用MAFIA算法[9]挖掘具有差异的正

调控或负调控模式。由于在每一个数据集都要产生双聚类或者基因模式,而这些双聚类在下一

相关文档
188彩票计划群 极速赛车技巧分享 9万彩票计划群 极速赛车登陆 极速赛车怎么看规律 上海11选5计划 上海11选5走势图 福建快3计划 PK10哪个平台赔率高 北京赛车pk10玩法