一种基于变分贝叶斯的半监督双聚类算法
优先出版
计 算 机 应 用 研 究
第32卷
一种基于变分贝叶斯的半监督双聚类算法
蒲国林1, 2,邱玉辉2
(1.四川文理学院 计算机学院,四川 达州 635000;2.西南大学 计算机与信息科学学院,重庆 400715 ) 摘 要:机器学习中的双聚类算法同时对矩阵的行和列进行聚类,有着广泛的应用。为了进一步提高双聚类结果的性能,本文提出了一种基于变分贝叶斯的半监督双聚类算法。首先,在双聚类过程中引入了行和列的辅助信息,并提出了相应的联合分布概率模型。其次,基于变分贝叶斯学习方法对联合概率分布中的参数进行估计。最后,通过合成数据集和真实的基因表达式数据集对提出的算法的性能进行评估。实验表明,本文提出的算法在进行双聚类分析时,其归一化互信息量明显优于相关的双聚类算法。
关键词:双聚类算法;变分贝叶斯;半监督学习;概率模型 中图分类号:TP181 文献标志码:A
Variational Bayes based semi-supervised biclustering algorithm
PU Guo-lin1, 2, QIU Yu-hui2
(1. School of Computer, Sichuan University of Arts & Science, Sichuan Dazhou 635000, China; 2. School of Computer & Information Science, Southwestern University, Chongqing 400715, China)
Abstract: In machine learning, Bicluetering algorithms cluster matrix with row and column simultaneously, and have a wide application area. In order to improve the performance of result by Biclustering algorithms, this paper proposes a Variational Bayes based semi-supervised Biclustering algorithm. Firstly, we introduced the row and column auxiliary information, and proposed a corresponding joint distribution probabilistic model. Secondly, we estimated the parameters of the joint probabilistic distribution based on Variational Bayes learning. Finally, we validated the performance of the proposed algorithm with synthetic and real gene expression datasets. The experiments show that, while evaluating the performance of Biclustering algorithms, the normalized mutual information of the proposed algorithm is obviously higher than related works. Key Words: Biclustering algorithm; variational Bayes; semi-supervised learning; probabilistic model
解决的问题。在推荐系统中,矩阵中的每一行表示一个用户,每一列表示一个商品。传统的推荐方法往往按照用户或者商品的相似性找到相似的候选项,然而基于这些相似的候选项对待估商品进行预测。采用双聚类方法不但可以发现相似的用户,同时也可以发现相似的商品,即相似用户对相似商品的评价[4]。应用这些评价值可以更好的对待估商品的评价值进行预测。在生物信息学中的基因表达式分析时,矩阵中的每一行数据表示一个基因,每一列表示一个条件,如正常状态,异常状态,癌症状态等。此时,双聚类算法可以对相似的基因在相似的条件下进行分组,从而更好的对病人的病理进行分析[5]。
传统的双聚类方法以单聚类方法为基础,其基本思想是通过传统聚类分别对矩阵的行和列进行聚类,然后合并聚类结果。典型的方法有耦合双向聚类[6],模糊c均值双聚类[7],和BCCA算法[8]等。为摆脱传统聚类的局限性,并且更好地提高聚类算法的运行效率,研究人员分别采用了贪婪迭代搜索[9-11]和双聚类穷举策略[12,13]对双聚类算法进行优化。此外,利用数学中
0 引言
在给定的数据矩阵中,聚类技术按照数据之间的相似性将数据划分为若干个组。在划分的组中,每个组内数据之间的相似性很高,同时不同组之间的数据要具有尽可能小的相似性。聚类技术是数据挖掘领域最基础的研究内容之一,有着非常广泛的应用。例如,在社会网络应用领域,可以按照用户的交际圈并应用聚类技术将用户划分为不同的社团。
经典的聚类算法有k-means[1],谱聚类算法[2],以及基于混合模型的概率模型方法[3]等。这些算法按照数据矩阵的行(或列)对数据进行划分,都是单聚类算法。然而,当矩阵的维度很高(特征空间大),或者矩阵中的内容很稀疏时(矩阵中的大部分内容是未知的),单聚类算法的分类性能受到了极大的制约。采用双聚类算法对矩阵中的数据进行分类时,可以同时考虑矩阵中的行与列元素之间的相似性,因而可以很好的提高算法的聚类性能。此外,双聚类方法还可以解决单据类方法难以
--------------------------------
基金项目:国家自然科学基金项目(61152003)
作者简介:蒲国林(1971-),男,四川宣汉人,副教授,博士,主要研究方向为服务计算、人工智能研究;邱玉辉(1938-),男,教授,博导,主要研究方向为人工智能、自动化技术等.
文章预览已结束
获取全文请访问 http://www.arocmag.com/article/02-2015-08-010.html