意见挖掘是当前自然语言处理的研究热点

清华大学学报(自然科学版)2009年第49卷第S1期

N.49,No.(Sci&Tech),2009,Vol17 31

基于泛化和繁殖的自举式意见目标抽取方法

郝博一,夏云庆,邬晓钧,郑方,刘轶

1,2

(1.清华大学计算机科学与技术系,北京;2.清华信息科学技术国家实验室,北京)

摘要:意见目标抽取是自然语言处理领域中意见挖掘研究的重要环节。该文提出了一种基于泛化、繁殖和自举的意见目标抽取方法,在泛化过程中提炼原子意见目标和意见目标模式,在繁殖过程中对复合意见目标进行扩展,并采取自举机制实现了意见目标的递增学习。实验结果显示,经过第一轮自举过程后,该方法的指标超出基线方法0.078;自举过程完成后,指标提高了0.112。这说明,泛化处理对意见目标充分繁殖意义重大,自举过程则有助于充分发挥泛化能力和繁殖能力。

关键词:自然语言处理;意见挖掘;意见目标抽取;文本挖掘中图分类号:TP391文献标识码:A文章编号:(2009)

,,LIUYi

(1.ology,,,China;

2.,,China)

:.,.ts,,ing.y0.dby0..Thus,.:ssing;;ion;

意见挖掘是当前自然语言处理的研究热点,其目标是从评价文本中自动抽取主观意见(简称意见)。意见是一个特定的信息单元,它涵盖了意见目标和意见情感表达,并蕴含了特定观点极性。意见目标抽取对意见挖掘系统意义重大。只有恰当抽取意见目标,意见挖掘系统才会准确可信。

意见目标抽取研究最常用的方法,是以人工编辑的意见目标集为“种子”,通过规则或统计手段从

[1-5]

原始评价文本中抽取到更多的意见目标。存在的问题是:一方面,某些意见目标词粒度过大,灵活性弱,若直接将其视为“种子”,则无法在实际评价文本中匹配到粒度较小的意见目标。另一方面,这些意

见目标词涉及范围有限,扩展性差,无法覆盖多数

“种子”,导致大量意见目标无法通过现有的“种子”扩展得到。本文针对意见目标识别问题,提出了一种基于泛化()、繁殖()和自举()的意见目标抽取方法。

以下观察是本文提出泛化、繁殖与自举方法的理论依据:意见目标的表达虽纷繁复杂,但是它们多数是由数量有限、繁殖能力强的意见目标经过一

收稿日期:

基金项目:国家自然科学基金项目()

作者简介:郝博一(1984—),男(汉),河北,硕士研究生。通讯联系人:夏云庆,副研究员,:yqxia@