电脑知识与技术
電腦知識與技術
전뇌지식여기술
COMPUTER KNOWLEDGE AND TECHNOLOGY
2014年
1期
123-127
,共5页
观点句识别%机器学习%话题%规则
觀點句識彆%機器學習%話題%規則
관점구식별%궤기학습%화제%규칙
opinion sentences identification%machine learning%topic%rule-based
为了从海量的网络信息中迅速准确地获取评价信息,观点句识别已经成了自然语言处理的一个研究热点。现在观点句识别系统大都是基于机器学习的方法,一般使用机器学习的方法来进行分类会受到领域差异性影响。针对这个问题,该文对微博观点句识别系统是否会受到微博话题影响做了经验性研究,同时为了弥补训练数据的不足,该文通过规则方法自动标注网络数据进行了训练集的扩充。实验结果表明,微博话题间存在差异,进行分话题模型训练可以提升微博观点句识别系统的性能。
為瞭從海量的網絡信息中迅速準確地穫取評價信息,觀點句識彆已經成瞭自然語言處理的一箇研究熱點。現在觀點句識彆繫統大都是基于機器學習的方法,一般使用機器學習的方法來進行分類會受到領域差異性影響。針對這箇問題,該文對微博觀點句識彆繫統是否會受到微博話題影響做瞭經驗性研究,同時為瞭瀰補訓練數據的不足,該文通過規則方法自動標註網絡數據進行瞭訓練集的擴充。實驗結果錶明,微博話題間存在差異,進行分話題模型訓練可以提升微博觀點句識彆繫統的性能。
위료종해량적망락신식중신속준학지획취평개신식,관점구식별이경성료자연어언처리적일개연구열점。현재관점구식별계통대도시기우궤기학습적방법,일반사용궤기학습적방법래진행분류회수도영역차이성영향。침대저개문제,해문대미박관점구식별계통시부회수도미박화제영향주료경험성연구,동시위료미보훈련수거적불족,해문통과규칙방법자동표주망락수거진행료훈련집적확충。실험결과표명,미박화제간존재차이,진행분화제모형훈련가이제승미박관점구식별계통적성능。
As an important stage for information extraction, the problem of Opinion Sentence Identification (OSI) has attracted more and more attentions from NLP researchers in the past decade. Similar to other areas in NLP, most current OSI systems are built based on machine learning (ML) technologies, which often suffer from the problem of domain/topic adaptation. In this pa-per, an empirical study was conducted to test whether the topic difference among the micro-blog data effects on the performance of an ML-based OSI system, which used rule-based automatic annotation methods to expand the training set. The experimental results indicated that by introducing a topic classifier and performing the training based on the sub topics, the performance of the OSI system for micro-blog data could be improved significantly.