基于句子级情感的中文网络评论的情感极性分类
第16卷第9期
2013年9月
管理科学学报
JOURNALOFMANAGEMENTSCIENCESINCHINA
V01.16No.9Sep.2013
基于句子级情感的中文网络评论的情感极性分类①
王洪伟1,郑丽娟1,尹
裴1,何绍义2
(1.同济大学经济与管理学院,上海200092;2.加州州立大学圣马可斯分校商学院,圣马可斯,美国)
摘要:为提高网络评论段落的情感极性分类准确率,在考虑AA'1表达.--j惯和语料粒度的基础上,提出一种基于句子情感的段落情感极性分类方法.该方法通过句子的情感极性和句子的情感极性贡献度来对段落进行情感分类,采用传统分类方法预测句子的情感极性,提出等权重、相关度、情感条件假设3种方法,能够根据训练语料的统计数据动态地确定段落中不同位置句子的情感极性贡献度.最后,以超过2个句子的手机和酒店网络评论为对象进行实验分析,实验结果显示,与传统方法相比,考虑了人们表达习惯的相关度和情感条件假设方法显著提高了段落分类的准确率,且具有一定的自适应性.
关键词:情感极性;句子情感;段落情感;中文网络评论;情感极性贡献度
中图分类号:C931.6;H042文献标识码:A文章编号:1007—9807(2013)09—0064—1l
0引言
杂等特点.如果将面向句子的方法直接应用在面向段落的(即整篇评论)情感极性分析中,准确率将降低.为此,一些学者主张按照产品(服务)特征,将混
近年来,越来越多的用户愿意在线分享自己的观点.这些评论反映了用户对产品(服务)的看法.另一方面,在电子商务环境下,由于缺少线下体验,用户更倾向于先看网络评论,后做购买决策.然而,由于分析手段薄弱,面对海量的评论,商家难以识别用户的情感倾向,更无法根据用户反馈及时改进产品和调整价格,从而影响商家的业绩.为此,情感极性分析(sentiment
polarityanaly.
合观点评论分割成若干个评论片段,然后采用面向
句子的方法对评论片段进行情感极性分析【l。3J.诚然,这种做法可以细粒度地分析用户的情感倾向,却无法给出用户对该产品(服务)的整体观点.
基于上述原因,在考虑用户表达习惯和语料粒度的基础上,本文提出一种基于句子情感的段落情感极性分类方法.该方法具有一定的自适应性,可以给出用户对产品(服务)的整体观点,且能显著提高段落的分类准确率.
sis)技术应运而生,也就是对网评的文本进行分
析,判断用户的观点是“赞同”还是“反对”,或识
别情感趋向是“高兴”还是“伤悲”.
最初的研究关注面向句子的情感极性分析.然而,用户的情感表露错综复杂,常常发表混合观点评论,既肯定某方面,同时又在批评其它方面.混合观点评论具有句子多、信息量大、噪音多、情感表达复
1.1传统的情感分类方法
情感极性分类主要基于两种研究范式:情感
1相关研究综述
①收稿日期:2011—06—27;修订日期:2013—03—04.
基金项目:国家自然科学基金资助项目(70971099;71371144);中央高校基本科研业务费专项资金资助项目(1200219198);上海市哲学
社会科学规划课题一般资助项目(2013BGL004);上海市科技发展基金软科学研究博士生学位论文资助项目(12692193000).
作者简介:王洪伟(1973一),男,辽宁大连人,博士,副教授,博士生导师.Email:hwwang@tongji.edu.cn
第9期王洪伟等:基于句子级情感的中文网络评论的情感极性分类一65一
词汇语义特性和统计自然语言处理.
1)基于情感词汇语义特征的方法
这类方法是利用词汇的感情倾向来判断评论文本的情感极性.首先计算或判断词汇或词组的褒贬倾向性,再对段落中极性词汇或词组计数,或对其褒贬程度值求和或求均值,或结合句法分析等获得句子或段落的整体情感极性.
Turney【41提出基于情感词组的SO-PMI语义分类方法.该方法提取符合一定模式的形容词或副词双词词组作为情感词组,并计算抽取出的词组与情感词“excellent”和“poor”的PMI值和SO(semantic
opinion
汇相似度判断词汇的倾向性,并结合句法分析结果和词汇语义倾向性衡量句子褒贬倾向性.实验结果表明,该方法的计算结果与人工判别结果比较接近.闻彬等帕1提出基于语义理解的文本情感分类方法.该方法首先提取符合一定规则的由形容词、名词、动词构成的5种情感词组,并通过语义处理计算抽取出的情感词组的情感值,最后采用统计的方法,将所有词组的情感值进行累加从而得到文本的情感值,并根据该值的大小判定文本的情感倾向性.
2)基于统计自然语言的方法
这类方法的流程如图1,即经过预处理、文本表示(特征项选择、特征项降维、特征项权重设置)、分类器处理,最终得到情感类别.
orientation)值,最后通过计算评
论中所有提取出的情感词组的平均SO值来区分
情感极性.熊德兰掣51选取褒贬基准词,根据词
1文档UI—I
预处理
|l
H
特征项
选择
、L
H
特征项降维
H
特征项
权重计算
/
图1情愿分类的基本流程
Fig.1
Theprocessofsentimentclassification
①特征项选择.选取适当的语义单元作为特征项,它是影响情感分类效果的重要因素.特征项既要真实地反映文档的情感信息,也要对不同文档有较强的区分能力,可以是词、词的组合、Ⅳ元组等.徐军等o¨利用朴素贝叶斯和最大熵方法对新闻语料进行情感分类.实验结果显示,选择形容词和名词作为特征项时,具有较高的分类准确率,且分类性能明显好于只选择形容词.Zhang等旧。选取N.gram作为情感特征项,针对餐饮评论进行
思想是计算每个特征项的某种统计度量值,再设定一个阈值,把度量值小于该阈值的特征项过滤掉,留下能对文档进行有效表征的特征.唐慧丰等¨叫采用了MI、IG、CHI和DF4种特征降维方法,在不同的特征数量和不同规模的训练集情况下进行了实验,实验结果表明采用IG法的情感极性分类效果较好.Yao等¨川对DF、MI和CHI进行比较,实验结果显示,DF方法的分类效果较好,同时发现MI方法不适用于情感特征项降维.
③特征项权重计算.常用方法有布尔权重、绝对词频(TF)、倒排文档频度(IDF)、词频一逆文档频率(TF-IDF)、TFC、ITC、熵权重、rI'F—1wF等.分类准确率达到82.9%,优于其他权重设置法.这是因为语言的褒贬倾向主要取决于正面或负面词语在语言中是否出现,而不是出现的次数.通常,带有情感倾向的特征项出现次数并不重要,关键在于是否出现,在哪个类别中出现.
④分类器的选择.常用的分类器包括:支持向
量机(support
vector
研究,结果显示,Bigram的分类效果好于Unigram
和Trigram.王洪伟等归。选取词、词的组合、N-gram作为情感文本的候选特征项,以手机在线评论为感分类中,将形容词、副词和动词一同作为特征项,分类准确率最高.
②特征项降维.剔除特征项集中不能有效反映类别信息的特征,从而缩短训练时间,提高分类准确率.常用的特征项降维方法有:文档频率法
(documentfrequency,DF)、信息增益法(informa-
tion
对象进行实验分析,结果表明,中文在线评论的情Pang等¨21采用布尔权重法进行实验,情感极性
gain,IG)、统计量法(chi-square
statistic,
machines,SVM)、最大熵
CHI)、互信息法(mutualinformation,MI)等.基本
(maximumentropy,ME)、朴素贝叶斯(NaYve
一66一
管理科学学报2013年9月
Bayes,NB)等.Pang等¨21人工标记电影评论中常有的特征情感词,以特征项在文本中出现的频率作为分类特征,采用NB、ME和SVM3种分类器进行对比实验,结果证明SVM分类效果最好.Xia和Peng¨纠以虚拟社区中的旅馆评论为语料库,使用SVM进行情感分类,实验结果显示,随语料库
内评论数量的增加,SVM分类准确性有所提高.
Ye等¨4o以旅游博客上的评论作为语料库,对朴素贝叶斯和SVM的分类效果进行比较,实验结果显示SVM优于朴素贝叶斯.基于上述分析,本文选择SVM作为实验的情感极性分类器.
已有研究显示,语义方法和统计方法各有其优缺点.语义方法不需要大量人工标注的训练语料,但分类准确率却低于统计方法.Ye等¨纠比较了SVM和语义方法的分类效果,结果证明SVM
方法优于基于语义的方法.
1.2基于句子情感的网络评论极性分类
用户常常发表混合观点评论,这类评论(即段落级)句子多、信息量大、情感倾向多样化.如果将现有的方法直接应用在面向段落的混合观点评论的情感极性分析中,准确率将受到影响.刘
勰¨刮采用统计的方法,分别对句子级和段落级两
类评论进行实验,结果显示,传统方法下,句子级评论的分类准确率较高,且远高于段落级的评论.
因此,有学者尝试依据句子的情感倾向计算段落的情感极性.Mao和LebanonLl71使用连续条件随机场模型对句子进行情感极性分类,将段落级的评论表示成一系列的句子情感流,并采用句子情感流对段落级情感极性进行预测.Zhang等。1副针对中文评论,提出基于规则的、从句子级转换到段落级的情感极性分类方法.首先根据情感词和句法结构判断句子的情感极性,然后根据句子的位置等5个特征对句子的重要性进行测量,最后整合句子的情感极性来预测段落的情感.
Sunil【19
3采用BOS(bag
of
sentence)的观点对段落
进行分类.首先对句子进行情感极性分类,然后使用句子的位置等特征对句子打分,根据分数判断句子对段落的作用.
1.3研究评述
总体而言,通过句子对更大粒度的段落情感极性进行预测的方法尚处于探索阶段.一些研究
虽然认识到句子位置会影响句子的重要性,但只是通过简单的线性函数来量化影响程度.已有研究中,对其它可能影响情感分类结果的因素也鲜有考虑,如人们的表达习惯.针对以上问题,本文提出一种基于句子情感的段落情感极性分类方法,该方法考虑了人们的表达习惯,根据评论者在段首、段中和段尾的情感流露方式的不同,通过训练语料的统计数据定义句子的重要程度,进而通过句子情感预测段落情感.
2基于句子情感的段落情感极性分
类原理
2.1段落情感极性值的计算方法
给定网络评论集合C={C。,C:,…,c。},每一条评论ci∈C都以段落的形式存在.因此,ci可以表示成句子的有限序列,即Ci=<s¨s丑,…,s抽>,其中sii是一个完整的句子.不论是段落还是句子,统称为语料.本文只考虑段首(first)、段中(middle)和段尾(end)3种情况,即S。,为段首,s挖,…,s湘.¨为段中,s抽为段尾.情感极性通常分为正向和负向两类,表明评论者肯定或否定的态度,c。和C。。。分别表示正类和负类的语料集合.
按照人们的表达习惯,段落中每个句子对整篇段落情感极性的贡献度,按其所处的不同位置而各不相同.如段首的句子常具有总起作用,段尾的句子常具有总结作用,所以相比段落中间的句子,处于段首或段尾的句子对整篇段落情感极性的贡献度更大.基于上述考虑,本文构造式(1)来计算某一段落的情感极性值,并通过情感极性值来判断段落的情感极性类别.
r(ci)=∑丁(si)加口
(1)
J=1
T(ci)是第i篇评论ci(即段落ci)的情感极
性值吲S是Ci中第歹个句子,T(sif)是si,的情感极性
值.当sif∈Cpo。,贝0T(Sif)=1;当sif∈Cneg,贝0T(5。f)=一1.加if是Sii对ci的情感极性贡献度.经式(1)计算,如果T(Ci)>0,ci属于正类;如果T(ci)<0,Ci属于负类.
本文认为,句子情感极性贡献度是由句子在
段落中出现的位置决定的,也就是处于段首、段中
第9期王洪伟等:基于句子级情感的中文网络评论的情感极性分类
一67一
或段尾的句子具有不同的情感极性贡献度,分别
表示为11)nWM和W。.于是,式(1)可以转变为
坠些掣堕,
若凡:1T(sn)WF+T(s岔)WE,
T(ci)=
若n=2
r(sn)伽F+∑r(sF)叫M+
,=2
T(s讯)伽E,
若rt≥3
(2)
2.2
情感极性贡献度的确定方法
根据文本属性和统计原理,本文提出3种确
定情感极性贡献度的方法.通常,用户的背景和评论的对象都会影响情感表达方式,从而导致处于不同位置的句子在段落中的情感贡献度难以确定.而本文提出的相关度方法和情感条件假设方法,是根据训练语料自动地动态确定情感极性贡
献度,具有一定的自适应性.
1)等权重方法
假设埘,=WM=W。,段落情感极性值等于段落中每个句子的情感极性值之和.这种方法操作简单,不需要统计训练语料各位置的句子和段落情感的相关度.但由于没有考虑人们的表达习惯,这种方法会影响段落情感极性分类的准确性.
2)相关度方法
给定网络评论C=<s。,s:,…,s。>,根据句子和段落在情感极性上相同的可能性,来确定句子si对C的情感极性贡献度Wi,如下式所示
Wi=P((c∈Cp0。八si∈Cp0。)V
(c∈C。。。^s。∈C。。。))
(3)
此方法将段落和句子放在一起统计,通过
段落和句子情感极性的相似概率来衡量情感极性贡献度,考虑了人们的表达习惯,且较为简单.但该方法忽视了正类段落和负类段落中旬子情感极性贡献度的差异,例如,同样位于段首,句子在正类段落中和负类段落中的情感相关度可能并不一致.这种现象也是由人们表达
习惯所造成的.
3)情感条件假设方法
为了反映相同位置的句子对不同情感极性的段落情感极性贡献度的差异,本文提出情感条件假设方法.以句子的极性为已知条件,该句子对段
落的情感极性贡献度为条件概率,也就是Wn训M和伽。分别取决于段首、段中和段尾的句子极性.假设某个情感极性的句子本身只为该情感极性的段落做贡献(即正类句子只为正类段落做贡献,负类句子只为负类段落做贡献),因此情感贡献率即为在该句子极性条件下,段落与句子极性相同的概率.给定网络评论c=<s。,s:,…,s。>,情
感极性贡献度的计算如公式为
,.、
Wi={
rP(c∈Cp0。Isi∈Cp0。),若si∈cp0。
(4)
【P(c∈C。。g
si∈Cneg),若s。∈C。g
其中i为段首、段中或段尾.该方法将句子极性作为条件,将条件概率的思想融入了情感极性贡献度计算中,具有理论上的优良陛.3
基于句子情感的段落情感极性分
类实验设计
3.1
分类的步骤
基于句子情感的段落情感极性分类的流程如
图2所示分3部分:①将段落划分为句子,并按照传统情感极性分类流程,用分类器预测句子情感极性值;②采用统计方法计算段落中不同位置的句子的情感极性贡献度;③由句子情感极性值和情感极性贡献度计算段落的情感极性值,并根据该值对段落进行极性分类.
3.2
语料库
针对服务型和产品型两类评论,选择超过2个句子的评论作为段落级语料,如表1所示.这样的语料比较符合用户在线评论的习惯,但随着语料长度增加,情感表达也变复杂,有可能一篇段落级评论语料中包含褒贬两种情感.段落级语料
示例.
1)酒店评论语料库——服务型评论选取携程网(WWW.ctrip.com)的酒店评论作为语料库,正负语料各2000篇,按3:1的比例划
分,其中1500篇为训练语料,其余500篇为测试
语料.经过剔除重复及破损的语料,修正分类错误等预处理操作,酒店评论语料库的训练集包括
1
056篇正类段落和1220篇负类段落,测试集包
括330篇正类段落和284篇负类段落,有效语料总
一68一数为2890篇.
2)手机评论语料库——产品型评论
管理科学学报2013年9月
试语料.经过剔除重复及破损的语料,修正分类错误等预处理操作,手机评论语料库获得1017篇正类段落和1152篇负类段落作为训练集,获得268篇正类段落和332篇负类段落作为测试集,有效总语料数为2769篇.
选取淘宝网(WWW.taobao.com)的手机评论作为语料库,正负语料各2000篇,按3
7
1的比例
划分,其中1500篇为训练语料,其余500篇为测
---●…●…■…●…●…●…●…●一●一
图2
基于句子情感的段落情感极性分类流程
Fig.2Theprocessofsentence-to-paragraphsentimentpolarityclassification
表1段落级语料示例
Table1Anexampleofparagraphsentimentclassification
评论类型
过了好久才想起来评价,记得离火车站超级近,不过方便的同时必然会觉得比较吵.韩日旅游团住这里的很多,前台服务冷淡.两个人住标准间,只给
酒店评论
酒店的设施是很不错的,房间大,设施新,床和被子都是很新的.洗手问也是干、湿分离.服务员态度也是很好,出入都会打招呼.就是餐厅大堂中,适合2—3人吃饭的桌子太少了.还有就是房价在衙州应该属于偏高了.
手机不是正品,触屏超级不灵,发信息非常困难.而且没有导航键,超级难用,我无语了.
手机评论
优点太多啦,首先触屏我很喜欢,画面的质感特别好,特别的方便.然后手机的功能很强大,单词库里的单词挺多的,还可以当电子词典用.当然最有特色的还是粉色的后盖了,颜色很好,看着很舒心.
3.3
一张房卡,还很挑衅的(地)看我.气的(得)没心情.
语料实例
总体情感极性
句子数量
两重情感
负类
3
否
正类
5
是
负类
2
否
正类
3
否
句子情感极性的确定根据文献[9,11]中的研究结论,为了提高句子级情感分类准确率,本文选取情感较强烈的名词、形容词、动词、副词作为特征项,选用IG特征抽取方法抽取300个特征值来表示文本向量,并选用分类效果较好的SVM进行分类.正类和负类句子分别以1和一1来标识.段落、分句和特征项选择如表2所示.
首先,对训练集和测试集的语料进行分句处理,在此基础上,为每个段落标注出段首句、段中旬和段尾句以方便计算段落的情感极性值.
其次,按照传统情感极性分类方法对句子进行分类.通常采用统计机器学习的相关技术确定情感极性,该部分研究已在文献E9,11]中完成.
第9期王洪伟等:基于句子级情感的中文网络评论的情感极性分类
表2
段落分句和特征项选择
sentence
一69一
Table2Anexampleof
sentimentclassification
段落分句句子位置句子情感极性
名词地点客运站
形容词不错很好
副词从大约
动词
坐
到
地点不错,从客运
地点不错,从客运站坐TAXI到饭店大约7.5块,柜台小姐先生服务很好!房间更是优,乾净整洁舒服,一晚355的价格,算很划算.不过早餐有点贵!
房间更是优,乾净整洁舒服,一晚355的价格,算很划算.
句中
正向
约7.5块,柜台小姐先生服务很好!站坐TAXI到饭店大
句首
正向
TAXI
饭店7.5块柜台小姐先生
服务房间一晚价格
更是优干净整洁舒服很划算
算
不过早餐有点贵!
3.4
句尾负向
WF
2
早餐有点贵
句子情感极性贡献度的确定
利用训练语料的统计数据,计算位于段落不
P((C∈Cp0。八s1∈Cpo。)V
(c∈C。。g八s1∈C。。g))
同位置的句子的情感极性贡献度.为了表述清楚,构造了段落情感极性标识符,将各种情感极性贡献度计算公式和训练语料的统计数据联系起来,
如表3所示.
表3
Table3Identifierof
=i了瓦LFpP了+LiFNN了i
£FPP+LFNP+LFPN+LFNP
(5)
、。7
WM=P((c∈Cpo。^(s2,…,s。一1)∈Cp08)V
段落情感极性标识符
sentence
positionandsentimentpolarity
=i专}‰
LMPP+£MNP+£MPN+£MNP
c∈C。。g^(s2,…,s。一1)∈C。g))
㈤
、“7
句子位置
正类
段首
负类正类
段中
负类正类
段尾
负类句子情感极性
正类段落情感极性标识符
FPPFNPMPPMNPEPPENP
负类段落情感极性标识符
FPNFNNMPNMNNEPNENN
WE=P((c∈CP0。^s。∈CPo。)V
c∈C。。g^s。∈C。eg))
=i乏等鲁瓦
LEPP+LENP+£EPN+LENP
(7)
、。7
2)情感条件假设方法
情感条件假设方法下的贡献度计算较为复杂,会随着句子极性不同而变化.如果该句子为正类,基于表3标识符和式(4),段首、段中和段尾的情感极性贡献度可表示为
段落情感极性标识符的第1个字母表示句子位置,第2个字母为句子极性,第3个字母表示段落极性.例如,MPP表示正类段落里位于段中的正类句子数量.因为每个段落必有段首句,所以正类的训练段落数为LFP,+LFN,(或LEPP+£。。P),负
埘}pos)=—二盟一L)8(L,埘÷‘。2—ipP+—LFpN
训≯订=—土!!LL)9(训讨。2—MpP+—LMpN
加:眇’=—兰里LL)01(加i1。2—EpP+—LEpN
()
类的段落语料数为L硎+£矾。(或L硎+£洲).
1)相关度方法
基于表3标识符和式(3),段首、段中和段尾句子的情感极性贡献度可表示为
()
训∥2丽LFNN
如果该句子为负类,可表示为
(11)
一70一
管理科学学报
2013年9月
伽∥2弧LENN
‘嘲’=—土!堕N_MW21(L)
…2—MNP+—LMNN
()
机评论)的段落情感和相应位置的句子情感的关系进行统计,统计结果如表5所示.
表5
段落和句子相关表实验数据
Table5Labelingresultsofsentence・to—paragraphlevel
reviewsintrainingcorpus
(13)
最后根据句子情感极性和句子情感极性贡献度,由公式(2)计算出段落的情感极性值,得分大于0为正类,小于0为负类.将段落分类结果与人工分类结果进行对比,计算段落的分类准确率.其中,分类准确率P=(A+D)/(A+B+C+D),正类准确率P。=A/(A+B),负类准确率P。=
D/(C+D).A,B,C,D的含义如表4所示.
表4分类准确率
Table4Accuracyofclassification
训练语料
句子位置
句子情感极性正类
情感极性为正的段落数
952104l0944147902669091082325810885132
情感极性为负的段落数
76l144120117655116584l0682582823961056
段首
负类正类
酒店
段中
负类正类
段尾
负类
实际为肯定的评论数
标注为肯定的评论数标注为否定的评论数
AC
实际为否定的评论数
曰D
正类
段首
负类正类
手机
段中
负类正类
4
4一。,纂氅登苎璧劣戮~:式,篇淼翟。嬲#方法凇
负类
实验结果分析
段尾
按照上述算法,对训练语料(酒店评论和手
表6
……………~…………”一‘
各方法下的情感极性贡献度
Table6Contributionofsentence・・to-paragraphcalculatedbydifferentalgorithms
句子位置段首
句子情感极性
正类
情感极性贡献度(%)(相关度方法)情感极性贡献度(%)(情感条件假设方法)
噼P08)=92.6
W。=92.1
负类正类
段中
负类正类
段尾
负类正类
段首
负类正类
段中
负类正类
段尾
负类
WE=89.5WM=82.8WF=91.2Wr=85.9WM=81.0
哪”g)=91.7形护’=90.1
形留。g)=74.0呱pDB)=93.5缈}”g’=81.4
噼”)=91.5
孵mg)=90.8
形驴8’=90.0呱?。g)=77.7
形;p08)=90.2形;”g)=88.9
从表5可以得到以下结论:
1)相关度方法的结果表明,不同位置的句子对段落的情感贡献度不同,其中段首句和段落的情感相关度最高,达90%以上,而段尾句次之,段
中句最低.这与本文假设段首和段尾会比较重要
的想法相符合,并表明段首相对更为重要.这也一定程度上反映出,人们在表达中往往先在段首直抒情感,定下整篇评论的情感基点,而在结尾又会适时进行总结.但是,这种句尾总结并不是必然的,表现为段尾和段中的情感极性贡献度差距并
第9期王洪伟等:基于句子级情感的中文网络评论的情感极性分类一71一
不是那么巨大.
2)情感条件假设方法的结果表明,不管在段落的哪个位置,句子极性为正类条件下的情感极性贡献度都高于句子极性为负类的情感极性贡献度.其中,当句子极性为正类时,段首和段尾的情感极性贡献度还是比段中的稍高,但是三者之间的差异非常小,几乎可以忽略不计;而当句子极性为负类时,三者之间的差异就较为明显:段首的贡
献度明显较高,达到90%以上,段尾次之,段中最低,只有75%左右.这说明在负类句子下,表达习惯有较大的影响.
4.2
基于句子情感的段落情感极性分类结果选用614篇(正类330篇,负类284篇)酒店
评论和600篇(正类268篇,负类332篇)手机段落评论作为测试集,并采用分类准确率表示分类的效果,统计结果见表7.
sentence
表7分类结果统计
Table7Sentimentclassificationof
andparagraph
段落极性
段落编号
(人工标注)
酒店手机
P08l
l
SVM分类器预测段首极性
—l
等权重方法
段尾极性
1
相关度方法段落情感极性值
一0.062
情感条件假设方法段落情感极性值
0.018
段中极性
段落情感极性值
O
段落极性实际
々
●
段落极性
一l
段落极性
1
NeglP082
一11一l—l—l一1—0.748—1一O.628—1
1l
一1,一1
l
lO
口
0.15ll0.2631
Ne92
一l一1一1—1一l一0.979一l—O.897—1
由表7看出,不同情感极性贡献度方法下的段落情感极性分类结果存在差异.在等权重方法下,容易出现情感得分为0的情况(比如段首1,段中一2,段尾1),造成无法判断段落情感极性,在表中用?进行标注.表8显示3种情感极性贡献度方法下的分类准确率.
表8
不同情感极性贡献度计算方法下的情感极性分类准确率
Table8Accuraciesof
由表8看出,相关度方法和情感条件假设方法的准确率明显高于等权重方法.这说明考虑表达习惯的情感极性值方法能显著提高分类效果,同时也印证:人们在表达意见的时候,的确存在较
为一致的表达习惯.
4.3
实验结果比较
为了验证基于句子情感的段落情感极性分类的效果,通过4组实验与基于传统方法的情感极性分类进行对比,实验结果如图3所示.
paragraphsentimentclassification
withdifferentalgorithms
评论类型
方法
Pp(%)
等权重
81.8
81.6
正类准确率负类准确率P。(%)
准确率P
(%)
U、
q(}
81.7
方法
酒店评论
相关度
90.4
86.9
88.8
毫si
。,厂
善H【)
鼍
7E
方法情感条件
93.3
86.3
90.1
7¨
假设方法等权重
80.8
80.2
80.5
。j:!☆、
jI+1f_1】
7C)1flj,,78.30%
羹啦2
8I
70’_.
jj:t始1
RHH(1一‘
爱蝇4
u{)I【):i
方法
手机评论
相关度
87.5
85.2
86.2
・手机
80.50%
86.20%87.70%
图3
Fig.3
不同方法下的段落情感分类结果比较
Comparisonofbaselineand
our
方法情感条件
86.5
88.6
87.7
approaches
实验l
采用传统情感极性分类方法.用
假设方法
SVM分类器判断段落级语料,用IG算法抽取特征
一72一
300个进行分类实验;
实验2
管理科学学报2013年9月
采用基于句子极性的段落情感得分
5
结束语
本文在考虑人们表达习惯和区分语料粒度的
方法对段落语料进行分类,其中情感极性贡献度采用等权重方法;
实验3
采用基于句子极性的段落情感得分
前提下,提出了基于句子情感的段落情感极性分类方法.该方法通过句子的情感极性和对段落的贡献度来对段落进行分类.实验结果显示,该方法可以给出用户对该产品(服务)的整体观点,且显著提高段落分类的准确率.
今后将在以下几个方面进一步探讨.1)基于句子情感判断段落情感极性分类中,假定段落的每个句子非负即正,而忽略了“中立”句,甚至客观性句子.因此将句子分为正类、中立、负类,分别赋值1、0、一1,再计算段落情感极性值,将是今后考虑的研究内容.
2)基于句子情感的段落情感极性分类中,以0作为正负类分界点.尤其当句子采用正类、中立、负类时,3个分类间的分界点的确定则更为重要.理论上应以能使训练语料的分类准确率最高的分界点作为临界,例如将不同位置的句子极性作为向量特征,再采用诸如SVM的机器算法来训练分类模型,最后实现自动对段落语料的分类,这也是今后可以考虑的研究内容.
3)中文网络评论中存在的一些连接词,也可能对句子的权重产生影响,例如:起总结作用的“总之”、“总而言之”等,起转折作用的“不过”、“但是”等.因此,这些连接词如何影响句子的重要性,将是今后可以考虑的研究内容.
4)为了提高情感分析的应用价值,除了单纯地识别情感极性,网络评论情感分析还需与其他文本挖掘技术结合,挖掘出比单独的褒或贬的情感极性更有价值的信息.其中,情感极性和情感对象的关系抽取是个应用价值非常广泛的课题.在段落级的情感极性分类中,有可能两句话是对同一个情感对象的评论,因此可以考虑不单纯按照句号对段落进行分句,而是先提取情感对象,再按照不同的情感对象对段落进行分句.
方法对段落语料进行分类,其中情感极性贡献度
采用相关度方法;
实验4
采用基于句子极性的段落情感得分
方法对段落语料进行分类,其中情感极性贡献度采用情感条件假设方法.
4.4
实验结论
1)语料粒度对分类效果的影响
对比实验1和实验2可知,单纯将段落分类微粒化,将句子极性简单相“加”的方法虽然能稍微提高分类准确率,但提高的幅度不大.可见,将语料粒度作为分类依据能提高分类效果,但并不显著.
2)表达习惯对分类效果的影响
对比实验1、实验3可知,考虑评论者在段首、段中和段尾的情感表达习惯能够显著提高段落级语料的情感分类准确率.
对比实验1、实验4可知,考虑评论者在段首、段中和段尾的情感表达习惯的同时,考虑评论者正类情感和负类情感的流露方式,可以进一步提高分类准确率,分类准确率从84%提高到接近95%,基本满足现实商务系统的应用
要求.
对比实验2、实验3、实验4可知,相对于语料粒度,情感表达习惯在段落评论中起了更重要的作用,将其作为分类依据能明显提高分类效果.
3)分类的自适应性
用户的背景和评论的对象都有可能影响情感表达方式,从而使不同位置句子的重要性产生变化.实验3和实验4,采用相关度方法和情感条件假设方法,根据训练语料自动地动态确定情感极性贡献度,不仅显著提高了分类效果,且具有一定的自适应性.参考文献:
[1]MiaoQ
L,Li
QD,ZengD.Fine・grmnedopinionminingbyintegratingmultiplereviewsources[J].Journal
oftheAmerican
第9期王洪伟等:基于句子级情感的中文网络评论的情感极性分类
一73一
SocietyforInformationScienceand
Technology,2010,61(11):2288—2299.
[2]SomprasertsriG,Lalitrojwong
P.Miningfeature-opinioninonlinecustomerreviewsforopinion
summarization[J].Journal
of
UniversalComputer
Science,2010,(16):938—955.
[3]李实,叶强,李一军,等.中文网络客户评论的产品特征挖掘方法研究[J].管理科学学报,2009,12(2):142
—152.LiShi,Ye
Qiang,LiYijun,eta1.MiningfeaturesofproductsfromChinesecustomeronlinereviews[J].Journal
ofMan—
agementSciencesinChina,2009,12(2):142—152.(inChinese)
[4]TurneyP.Thumbsup
or
thumbs
down?Semanticorientationappliedtounsupervisedclassificationofreviews[C]//Proceed-
ingsofthe40tllAnnualMeetingoftheAssociationforComputationalLinguistics(ACL),Morristown,NJ,USA:Association
forComputationalLinguistics,2002:417—424.
[5]熊德兰,程菊明,田胜利.基于HowNet的句子褒贬倾向性研究[J].计算机工程与应用,2008,(22):143—145.
XiongDelan,ChengJuming,Tian
ShenSi.Sentence
orientationresearchbased
on
HowNet[J].Computer
Engineering
and
Apphcations,2008,(22):143—145.(inChinese)
[6]闻彬,何婷婷,罗乐,等.基于语义理解的文本情感分类方法研究[J].计算机科学,2010,(06):261—264.
WenBin,HeTingting,LuoLe,eta1.Textsentimentclassificationresearchbased
on
semanticcomprehension[J].Comput-
er
Science,2010,(06):261—264.(inChinese)
[7]徐军,丁宇新,王晓龙.使用机器学习方法进行新闻的情感自动分类[J].中文信息学报,2007,21:95—100.
XuJun,DingYuxin,WangXiaolong.Sentimentclassification
forChinesenewsusingmachinelearning
methods[J].Jour-
halofChineseInformation
Processing,2007,21:95—100.(inChinese)
[8]Zhang
z
Q,YeQ,ZhangZL,eta1.Sentimentclassificationofinternetrestaurantreviewswrittenin
cantonese[J].Expert
SystemswithApplications,2011,38(6):7674—7682.
[9]王洪伟,郑丽娟,刘仲英,等.中文网络评论的情感特征项选择研究[J].信息系统学报,2012,(10):76—86.
Wang
Hongwei,Zheng
Lijuan,LiuZhongying,eta1.SentimentfeatureselectionfromChineseonlinereviews[J].China
JournalofInformationSystems,2012,(10):76—86.(inChinese)
[10]唐慧丰,谭松波,程学旗.基于监督学习的中文情感分类技术比较研究[J].中文信息学报,2007,21(6):55
—94.
TangHuifeng,TanSongho,ChengXueqi.Research
on
sentimentclassificationofChinesereviewsbased
on
supervisedmao
chinelearning
techniques[J].Journal
ofChineseInformation
Processing,2007,21(6):55—94.(inChinese)
[11]YaoJN,Wang
HW,YinP.SentimentfeatureidentificationfromChineseonlinereviews[J].Communications
inComput.
er
and
Information
Science,2011,201CCIS:315—322.
[12]PangB,LeeL,VaithyanathanS.Sentimentclassificationusingmachinelearning
techniques[C]//Proceedings
oftheCon.
ference
on
EmpiricalMethodsinNaturalLanguageProcessing.Philadelphia,US,2002:79—86.
[13]Xia
HS,PengLY.SVM-basedcommentsclassificationandminingofvirtualcommunity:Forcaseofsentimentclassifica-
tionofhotel
reviews[c]//Proceedings
oftheInternationalSymposium
on
Intelligent
Information
SystemsandApplications
(IISA’09),2009,10:507—511.[14]YeQ,Zhang
Z
Q,LawR.Sentiment
classificationofonlinereviewstotraveldestinationsbysupervisedmachinelearning
approaches[J].ExpertSystems
withApplications,2009,36(3):6527—6535.
[15]YeQ,“n
B,uYJ.SentimentclassificationforChinesereviews:AcomparisonbetweenSVMandsemanticapproaches.
machinelearningandcybernetics[C]//Proceedingsof2005InternationalConference,2005,4:2341—2346.
[16]刘勰.基于统计自然语言的中文评论情感极性分类研究[D].上海:同济大学,2011.
LiuXie.Sentimentpolarityclassification
on
Chinesereviewsbased
on
statisticnatural
language[D].shanghai:Ton画i
Uni-
vemity,2011.(inChinese)[17]ManY,Lebanon
G.Isotonicconditionalrandomfields
and
localsentiment
flow[c]//Proceedings
ofthe20thAnnualCon.
ference
on
Neural
InformationProcessing
Systems
Conference(NIPS),Cambridge,MA:MITPress,2006,961—968.
[18]Zhang
CL,ZengD,LiJX.Sentiment
analysisofChinesedocuments:Fromsentencetodocument
level[J].Journal
ofthe
AmericanSocietyforInformationScienceandTechnology,2009,60(12):2474—2487.
[19]SunilK.Sentimentclassificationusing
language
modelsandsentenceposition
information[R].http://nip.stanford.edu/
courses/cs224n/2010/reports/sukhanal.oaf
~74一
管理科学学报
2013年9月
ClassificationofsentimentalpolarityforChineseonlinereviewsbased
tencelevel
onsen-
sentiment
WANGHong—weil,ZHENG
1.SchoolofEconomicsand
Li-juanl,
Peil,HEShao—yi2
University,Shanghai200092,China;
Management,Ton西i
2.CollegeofBusinessAdministration,CaliforniaStateUniversity,SanMarcos,USA
therequire—
re‘on—
Abstract:Withtheboostofonlinereviews,sentimentpolarityclassificationrisesin
mentofretrievingconsumers
7
responseto
positive
or
negativeopinions
on
certainproducts.Theprimarygoalofthis
at
searchis
to
improvetheaccuracyofsentimentpolarityclassification
a
thelevelofparagraphsforChinese
a
linereviews.Withview
to
thewaysofexpressionandthegrainofcorpus,thispaperpresents
method
to
inparagraphsbasedonsentencelevelsentimentanaly—
predictthesentimentpolarityofChineseonlinereviews
thesentimentpolarityofsentence.Then,
sis.Firstly.traditionalclassificationmethodsareappliedtopredict
threedifferentalgorithmsi.e.。theequalweight,correlationdegreeandassumptionofsentimentcondition,areemployedtocalculatethecontributionthateachsentencelyinginthedifferentpositionsofparagraphmakes
hotelandmobilephonetothesentimentpolarityofparagraph.Finallyanexperimenthasbeenmadebasedononlinereviewswithlengthsbeyondclassification
at
two
sentences.Theresultshowsthattheaccuracyofsentimentpolarity
thelevelofparagraphisremarkablyincreasedbythemethodproposedinthispaper,bytaking
correlationdegreeofexpressionandassumptionofsentimentconditionintoconsideration.
ofparagraph;Chinese
Keywords:sentimentpolarity;sentimentpolarityofsentence;sentimentpolarity
linereview;contribution
to
on—
甙岱础掣常常钟带水水水删尔水水水水水水硝掣水水水臂水硝水水水水水水硝水水水臂硝州W枞
sentimentpolarity
(上接第52页)
[20]HansenP,MladenovicN,Jos6A,et
search,2010。175(1):367—407.
a1.Variableneighborhoodsearch:Methodsand
applications[J].Operations
Re。
Synthesizedmodelinventorydecision
fordemand
forecasting
andits
integration谢th
N/Dong—mei,ZHAO
Qiu—hong,LI
Hai—bin
University,Beijing
to
SchoolofEconomicsandManagement,Beihang
100191,China
Abstract:Accurateforecastishelpfulfortheenterprisesthepricingandpromotiondecisions,etc.,SO
as
makedecisions,includingtheproductionplan,
cost
to
reducetheinventory
andimprovethe
service
quali‘
ties.Inthispaper,byanalyzingthefactorsinfluencingthedemandforfastmovingconsumergoods(FMCG),
es—
asvnthesizedforecastingmodel.whichinvolvesboththetimeseriesandthemulti—regressionmethods,istablished.Thesynthesizedforecastingmodelisfurtherintegratedwiththeinventorydecision,withthepurposeofminimizingtheoveralllogisticscosts.Tosolvetheintegratedmodelwheremuhipleparametersareinvolved,algorithmisdeveloped.Toevaluateboththesynthesizedforecas—
studiesare
tingmodelandtheintegratedmodelofdemandforecastingandinventorydecision,computational
conductedbasedonsomerealdata.Thecomputationalresultsshowanoutperformanceofthesynthesizedfore-
a
variableneighborhood
search(VNS)based
castingmodelregardingforecastingaccuracy,andcastingandinventorydecisionwhenthelogisticsKeywords:fastmovingconsumer
an
modelofdemandfore—
outperformanceoftheintegrated
are
costs
minimized.
forecast;timeseriesanalysis;multiregression
goods(FMCG);demand
model:inventorydecision
万方数据
基于句子级情感的中文网络评论的情感极性分类
作者:作者单位:刊名:英文刊名:年,卷(期):
王洪伟, 郑丽娟, 尹裴, 何绍义, WANG Hong-wei, ZHENG Li-juan, YIN Pei, HE Shao-yi王洪伟,郑丽娟,尹裴,WANG Hong-wei,ZHENG Li-juan,YIN Pei(同济大学经济与管理学院,上海,200092), 何绍义,HE Shao-yi(加州州立大学圣马可斯分校商学院,圣马可斯,美国)管理科学学报
Journal of Management Sciences in China2013,16(9)
1. Miao Q L;Li Q D;Zeng D Fine-grained opinion mining by integrating multiple review sources 2010(11)2. Somprasertsri G;Lalitrojwong P Mining feature-opinion in online customer reviews for opinion summarization2010(16)
3. 李实;叶强;李一军 中文网络客户评论的产品特征挖掘方法研究[期刊论文]-管理科学学报 2009(02)
4. Tumey P Thumbs up or thumbs down? Semantic orientation applied to unsupervised classification of reviews 20025. 熊德兰;程菊明;田胜利 基于HowNet的句子褒贬倾向性研究[期刊论文]-计算机工程与应用 2008(22)6. 闻彬;何婷婷;罗乐 基于语义理解的文本情感分类方法研究[期刊论文]-计算机科学 2010(06)7. 徐军;丁宇新;王晓龙 使用机器学习方法进行新闻的情感自动分类[期刊论文]-中文信息学报 2007(6)
8. Zhang Z Q;Ye Q;Zhang Z L Sentiment classification of internct restaurant reviews written in cantonese 2011(06)9. 王洪伟;郑丽娟;刘仲英 中文网络评论的情感特征项选择研究 2012(10)
10. 唐慧丰;谭松波;程学旗 基于监督学习的中文情感分类技术比较研究[期刊论文]-中文信息学报 2007(06)11. Yao J N;Wang H W;Yin P Sentiment feature identification from Chinese online reviews 201112. Pang B;Lee L;Vaithyanathan S Sentiment classification using machine learning techniques 2002
13. Xia H S;Peng L Y SVM-based comments classification and mining of virtual community:For case of sentimentclassification of hotel reviews 2009
14. Ye Q;Zhang Z Q;Law R Sentiment classification of online reviews to travel destinations by supervised machinelearning approaches 2009(03)
15. Ye Q;Lin B;Li Y J Sentiment classification for Chinese reviews:A comparison between SVM and semanticapproaches.machine learning and cybernetics 200516. 刘勰 基于统计自然语言的中文评论情感极性分类研究 2011
17. Mao Y;Lebanon G Isotonic conditional random fields and local sentiment flow 2006
18. Zhang C L;Zeng D;Li J X Sentiment analysis of Chinese documents:From sentence to document level 2009(12)19. Sunil K Sentiment classification using language models and sentence position information
引用本文格式:王洪伟. 郑丽娟. 尹裴. 何绍义. WANG Hong-wei. ZHENG Li-juan. YIN Pei. HE Shao-yi 基于句子级情感的中文网络评论的情感极性分类[期刊论文]-管理科学学报 2013(9)