一种基于变分贝叶斯的半监督双聚类算法

06-26

优先出版

计算机应用研究

第32卷

一种基于变分贝叶斯的半监督双聚类算法

蒲国林1, 2，邱玉辉2

(1．四川文理学院计算机学院，四川达州 635000；2．西南大学计算机与信息科学学院，重庆 400715 ) 摘要：机器学习中的双聚类算法同时对矩阵的行和列进行聚类，有着广泛的应用。为了进一步提高双聚类结果的性能，本文提出了一种基于变分贝叶斯的半监督双聚类算法。首先，在双聚类过程中引入了行和列的辅助信息，并提出了相应的联合分布概率模型。其次，基于变分贝叶斯学习方法对联合概率分布中的参数进行估计。最后，通过合成数据集和真实的基因表达式数据集对提出的算法的性能进行评估。实验表明，本文提出的算法在进行双聚类分析时，其归一化互信息量明显优于相关的双聚类算法。

关键词：双聚类算法；变分贝叶斯；半监督学习；概率模型中图分类号：TP181 文献标志码：A

Variational Bayes based semi-supervised biclustering algorithm

PU Guo-lin1, 2, QIU Yu-hui2

(1. School of Computer, Sichuan University of Arts & Science, Sichuan Dazhou 635000, China; 2. School of Computer & Information Science, Southwestern University, Chongqing 400715, China)

Abstract: In machine learning, Bicluetering algorithms cluster matrix with row and column simultaneously, and have a wide application area. In order to improve the performance of result by Biclustering algorithms, this paper proposes a Variational Bayes based semi-supervised Biclustering algorithm. Firstly, we introduced the row and column auxiliary information, and proposed a corresponding joint distribution probabilistic model. Secondly, we estimated the parameters of the joint probabilistic distribution based on Variational Bayes learning. Finally, we validated the performance of the proposed algorithm with synthetic and real gene expression datasets. The experiments show that, while evaluating the performance of Biclustering algorithms, the normalized mutual information of the proposed algorithm is obviously higher than related works. Key Words: Biclustering algorithm; variational Bayes; semi-supervised learning; probabilistic model

解决的问题。在推荐系统中，矩阵中的每一行表示一个用户，每一列表示一个商品。传统的推荐方法往往按照用户或者商品的相似性找到相似的候选项，然而基于这些相似的候选项对待估商品进行预测。采用双聚类方法不但可以发现相似的用户，同时也可以发现相似的商品，即相似用户对相似商品的评价[4]。应用这些评价值可以更好的对待估商品的评价值进行预测。在生物信息学中的基因表达式分析时，矩阵中的每一行数据表示一个基因，每一列表示一个条件，如正常状态，异常状态，癌症状态等。此时，双聚类算法可以对相似的基因在相似的条件下进行分组，从而更好的对病人的病理进行分析[5]。

传统的双聚类方法以单聚类方法为基础，其基本思想是通过传统聚类分别对矩阵的行和列进行聚类，然后合并聚类结果。典型的方法有耦合双向聚类[6]，模糊c均值双聚类[7]，和BCCA算法[8]等。为摆脱传统聚类的局限性，并且更好地提高聚类算法的运行效率，研究人员分别采用了贪婪迭代搜索[9-11]和双聚类穷举策略[12,13]对双聚类算法进行优化。此外，利用数学中

0 引言

在给定的数据矩阵中，聚类技术按照数据之间的相似性将数据划分为若干个组。在划分的组中，每个组内数据之间的相似性很高，同时不同组之间的数据要具有尽可能小的相似性。聚类技术是数据挖掘领域最基础的研究内容之一，有着非常广泛的应用。例如，在社会网络应用领域，可以按照用户的交际圈并应用聚类技术将用户划分为不同的社团。

经典的聚类算法有k-means[1]，谱聚类算法[2]，以及基于混合模型的概率模型方法[3]等。这些算法按照数据矩阵的行（或列）对数据进行划分，都是单聚类算法。然而，当矩阵的维度很高（特征空间大），或者矩阵中的内容很稀疏时（矩阵中的大部分内容是未知的），单聚类算法的分类性能受到了极大的制约。采用双聚类算法对矩阵中的数据进行分类时，可以同时考虑矩阵中的行与列元素之间的相似性，因而可以很好的提高算法的聚类性能。此外，双聚类方法还可以解决单据类方法难以

--------------------------------

基金项目：国家自然科学基金项目(61152003)

作者简介：蒲国林(1971-)，男，四川宣汉人，副教授，博士，主要研究方向为服务计算、人工智能研究；邱玉辉(1938-)，男，教授，博导，主要研究方向为人工智能、自动化技术等．

文章预览已结束

获取全文请访问 http://www.arocmag.com/article/02-2015-08-010.html

与《一种基于变分贝叶斯的半监督双聚类算法》相关的范文

04-30 通信工程认识实习报告

　　前言内容　　作为学习通信工程专业的学生，作为以后即将成为一名通信人的学生来说，了解通信基础知识，掌握通信专业的学习方法，明白通信行业最前沿的科技知识，是关系到自己前途，关系到自己人生价值能否实现的人生大事。　　通过近一周的学习，我们从感性上学到了很多东西，也对我们将来的学习和研究方向的确定产生了深远的影响。通过这次参观实习丰富了本人的理论知识，增强了本人观察能力，开阔了视野，并使我对以后的 ...

08-17 标兵现场演讲稿

标兵现场演讲稿尊敬的各位老师，亲爱的同学们：大家晚上好！我是来自电子与信息学院08级的同学曹x，今天很荣幸站在这里与大家一起回忆我大学生活的点点滴滴。把老师和家长的期望背在肩上，将高中岁月获得的荣誉藏进行囊，我在自己18岁生日的那一天走进了华南理工大学，人生的新一段旅程开始起航。刚进大学的时候，和很多人一样，告别了“小学生、初中生、高中生”的身份，我在思考如何重新诠释“大学生”这个充满希 ...

10-19 环境保护计划工作意见

一、*年环境保护计划执行情况 *年在区委、区政府的正确领导下，在市环保局的指导下，我区的环保工作有了新的成就，基本实现和完成了20XX年提出的计划目标和任务。*年度我区城区空气污染指数良好以上的天数比例达到90%，饮用水水质各项指标均符合《国家饮用水卫生标准》（GB5749-85），达标率100%;北沙河入黄河口水质满足《地表水环境质量标准》四类标准;.城区交通干线噪声平均值小于70分贝，区域环境 ...

09-28 政府财政基本建设支出预算管理办法

第一条为了建立健全财政基本建设支出预算管理体系，强化财政基本建设支出预算的管理与监督职能，加强宏观调控，提高财政基本建设资金使用效益，根据《中华人民共和国预算法》（以下简称《预算法》）、《中华人民共和国预算法实施条例》（以下简称《实施条例》）及有关法律法规，特制定本办法。第二条财政基本建设支出预算是各级政府预算的重要组成部分。对其管理的职权、收支范围、预算编制程序、预算的审查和批准、预算的执行、 ...

12-14 文化市场管理制度

第一章总则第一条为加强文化市场管理，繁荣社会主义文化事业，活跃人民群众的文化生活，促进社会主义精神文明建设，根据有关法律、法规的规定，结合本市实际，制定本条例。第二条凡在*市行政区域文化市场从事经营、管理活动的单位和个人以及消费者，必须遵守本条例。第三条文化市场管理必须坚持为人民服务、为社会主义服务的方向，坚持百花齐放、百家争鸣的方针，依法维护文化市场秩序，保护经营者和消费者的合法 ...

06-26 网络传媒系工作总结

网络传媒系工作总结时光飞逝，一个学期过去了，回顾这一年所从事的教学工作，总的说来是比较顺利地完成任务。在工作中我享受到收获的喜悦，当然也发现一些问题。现将本学年工作情况总结如下: 在思想方面，本人能积极参加政治学习，关心国家大事，拥护党中央的正确领导，坚持四项基本原则，拥护党的各项方针政策，遵守劳动纪律，团结同志；教育目的明确，态度端正，钻研业务，勤奋刻苦。从教学上讲我主要做了这样一些工作： ...

10-19 财政局农业财政资金意见

党中央、国务院反复强调，解决“三农”问题是今后一段时期内全党、全国工作的重中之重，是全面建设小康社会的重要任务。农业财政资金是贯彻落实党和政府各项农业农村政策的重要手段，加强农业财政资金管理，提高农业财政资金使用效益，对于提高政府支持保护农业效率，推进全面建设农村小康社会具有非常重要的意义。近年来，为了提高农业财政资金使用效益，各地区和有关部门在加强农业财政资金管理方面做了大量的工作，管理制度不断 ...

06-29 高一数学下学期教学计划

一、指导思想：使学生在九年义务教育数学课程的基础上，进一步提高作为未来公民所必要的数学素养，以满足个人发展与社会进步的需要。具体目标如下。 1．获得必要的数学基础知识和基本技能，理解基本的数学概念、数学结论的本质，了解概念、结论等产生的背景、应用，体会其中所蕴涵的数学思想和方法，以及它们在后续学习中的作用。通过不同形式的自主学习、探究活动，体验数学发现和创造的历程。 2．提高空间想像、抽象概括、 ...

07-29 高一数学下学期教学计划2

09-04 转移深化分税制改革

　　*年开始实行的分税制改革，经过xx年的发展，显示出仍然存在着一些问题，最突出的就是导致了基层财政困难和地区间差距的日益扩大。其中转移支付制度的薄弱和不规范则是导致地区间差距拉大的因素之一。目前改革的任务，除了缓解基层政府的收支矛盾外，更为重要的是构建一个具有自律机制的能有效运行的基层财政体制。　　分税制导致的问题之一：基层政府财政陷入困境　　1.分税制使基层政府财源缩减，只能把筹资目光集 ...

随机推荐

猜你喜欢

一种基于变分贝叶斯的半监督双聚类算法

·食堂主管工作小结

·董事长致辞--一切源于自信和努力

·军营广播稿励志100字

·融合之路――信息技术与美术教育的变革

·我寄人间雪满头

·2013创卫工作计划

·1910年中国第一幅区域地质图

·体育2000字读后感

·加油机中文说明书资料

·精益生产 | 3个小故事让我恍然大悟!

·镇人口普查阶段性工作总结

·见习班主任心得体会

·毕业十周年欢聚宴讲话

·毕业感言:别了,我的母校

·创建学习型党组织改进基层组织建设

·充气玩具里的科学

·陕西省实施[道路交通安全法]办法(2013年修订)

·我爱故乡的酸枣树 (1)

·创业CEO俞敏洪

·[优秀作文]青春,需要勇气