情报学报
情報學報
정보학보
2013年
3期
235-243
,共9页
元数据提取%统计学习%度量级融合%后验概率%和规则
元數據提取%統計學習%度量級融閤%後驗概率%和規則
원수거제취%통계학습%도량급융합%후험개솔%화규칙
针对现有的元数据提取方法提取精度不高且适应能力较差的问题,本文提出一种基于度量级融合的论文元数据提取方法.首先,提取论文首部的特征,利用已标注的数据集对HMM、SVM和CRF三种统计学习方法进行训练,生成相应的元数据提取模型;然后,根据贝叶斯判决理论推导出和规则,并利用和规则对三种提取模型产生的后验概率进行融合决策,实现论文元数据的提取;最后,通过设定时间段和文档数阈值,采用基于时间段统计的方法动态更新三种提取模型,以确保模型的有效性.在不同的数据集上对各种提取方法的性能进行了实验对比,结果表明,本文提出的方法不仅提高了元数据提取精度,而且具有较强的适应能力.
針對現有的元數據提取方法提取精度不高且適應能力較差的問題,本文提齣一種基于度量級融閤的論文元數據提取方法.首先,提取論文首部的特徵,利用已標註的數據集對HMM、SVM和CRF三種統計學習方法進行訓練,生成相應的元數據提取模型;然後,根據貝葉斯判決理論推導齣和規則,併利用和規則對三種提取模型產生的後驗概率進行融閤決策,實現論文元數據的提取;最後,通過設定時間段和文檔數閾值,採用基于時間段統計的方法動態更新三種提取模型,以確保模型的有效性.在不同的數據集上對各種提取方法的性能進行瞭實驗對比,結果錶明,本文提齣的方法不僅提高瞭元數據提取精度,而且具有較彊的適應能力.
침대현유적원수거제취방법제취정도불고차괄응능력교차적문제,본문제출일충기우도량급융합적논문원수거제취방법.수선,제취논문수부적특정,이용이표주적수거집대HMM、SVM화CRF삼충통계학습방법진행훈련,생성상응적원수거제취모형;연후,근거패협사판결이론추도출화규칙,병이용화규칙대삼충제취모형산생적후험개솔진행융합결책,실현논문원수거적제취;최후,통과설정시간단화문당수역치,채용기우시간단통계적방법동태경신삼충제취모형,이학보모형적유효성.재불동적수거집상대각충제취방법적성능진행료실험대비,결과표명,본문제출적방법불부제고료원수거제취정도,이차구유교강적괄응능력.