情报学报
情報學報
정보학보
2010年
1期
3-8
,共6页
自动标引%提取%集成学习
自動標引%提取%集成學習
자동표인%제취%집성학습
目前大多数自动标引方法不能有效利用文本中包含的多个特征.而支持向量机、条件随机场模型等统计机器学习模型能够有效利用文本包含的多种特征进行关键词提取.同时,由于各种自动标引模型性能各异,综合利用各种模型进行集成学习方式的自动标引,能够提高自动标引的质量.为了进一步提高自动标引的质量,本文试图整合统计机器学习模型与集成学习方法的优势,对文档进行基于多分类模型综合投票方式的自动标引.实验结果表明基于集成学习方法的自动标引能提高标引结果的查准率和召回率.另外,集成学习标引模型中,基分类器加权的标引结果,优于基分类器未加权的标引结果.
目前大多數自動標引方法不能有效利用文本中包含的多箇特徵.而支持嚮量機、條件隨機場模型等統計機器學習模型能夠有效利用文本包含的多種特徵進行關鍵詞提取.同時,由于各種自動標引模型性能各異,綜閤利用各種模型進行集成學習方式的自動標引,能夠提高自動標引的質量.為瞭進一步提高自動標引的質量,本文試圖整閤統計機器學習模型與集成學習方法的優勢,對文檔進行基于多分類模型綜閤投票方式的自動標引.實驗結果錶明基于集成學習方法的自動標引能提高標引結果的查準率和召迴率.另外,集成學習標引模型中,基分類器加權的標引結果,優于基分類器未加權的標引結果.
목전대다수자동표인방법불능유효이용문본중포함적다개특정.이지지향량궤、조건수궤장모형등통계궤기학습모형능구유효이용문본포함적다충특정진행관건사제취.동시,유우각충자동표인모형성능각이,종합이용각충모형진행집성학습방식적자동표인,능구제고자동표인적질량.위료진일보제고자동표인적질량,본문시도정합통계궤기학습모형여집성학습방법적우세,대문당진행기우다분류모형종합투표방식적자동표인.실험결과표명기우집성학습방법적자동표인능제고표인결과적사준솔화소회솔.령외,집성학습표인모형중,기분류기가권적표인결과,우우기분류기미가권적표인결과.