观点挖掘
1.主要挖掘非结构化的文本,涉及自然语言处理技术
2.网络已经显著改变人们表达观点的方式,用户生成的内容已经成为媒体的一种形式
3.主要研究三方面的观点挖掘的任务:意见分类;基于特征观点挖掘和摘要;比较句子和比较关系挖掘
4.意见分类:文档层次上分类,将评价分类到正面,或者负面。当前大多研究是文档层次上的分类。
5.基于特征的观点挖掘和摘要:句子层次上分类,对于对象某个具体特征,将特征的评价分类到正面,或者负面
6.比较句子和比较关系挖掘:抽取比较句子,然后,抽取比较关系
7.主要研究两方面观点挖掘任务:观点搜索;观点欺诈
8.观点搜索:关于任何对象的观点
9.观点欺诈:推销自己,诋毁对手的不实信息
10.意见分类:文档集合每一个文档,标记为正面评价或者负面评价。和文本主题分类相似,但是关注词汇不同。主题分类关注主题
词汇,意见分类关注意见词汇。可以分为正面,负面,中立三类。
11.意见分类三种方法:基于意见短语分类;文本分类方法分类;基于评分函数分类
12.基于意见短语分类:使用词性标注自然语言技术。通常使用宾州树库词性标注集。分三部完成,首先,词性标注,抽取符合预定
模式的短语;其次,算短语的互信息,即左词先出现时,右词紧跟出现的条件概率;最后,统计所有短语的语义倾向的平均值。为
正,就是正面评价,负数就是负面评价。
13.文本分类方法分类:KNN,贝叶斯,SVM文档分类方法都可以。
14.基于评分函数分类:提出一个表明次对文档集合倾向性的评分函数。为实验全面,还需要测试不同数据集,取词干,过滤常见词
,各种分类技术对比,换评分函数,语言学改进等。
15.基于文档分类的优点:体现对象,主题的一般看法
16.基于文档分类的缺点:只能体现大体看法,不能提供对细节特征方面的倾向;非评审类的但是包含意见的文本不能是不用本方法
挖掘,因为还需要定位意见句子。上面都是基于学习的方法,也有一些人工的方法。比如:随时间变化的意见生成系统,需要领域
相关的词典。
参考文献:《Web数据挖掘》 BingLiu著 P296-300