中文信息学报
中文信息學報
중문신식학보
JOURNAL OF CHINESE INFORMAITON PROCESSING
2008年
6期
110-115
,共6页
代翠%周俏丽%蔡东风%杨洁
代翠%週俏麗%蔡東風%楊潔
대취%주초려%채동풍%양길
计算机应用%中文信息处理%条件随机场%最长名词短语%基于规则的后处理
計算機應用%中文信息處理%條件隨機場%最長名詞短語%基于規則的後處理
계산궤응용%중문신식처리%조건수궤장%최장명사단어%기우규칙적후처리
在分析汉语最长名词短语特点的基础上,提出了一种统计和规则相结合的汉语最长名词短语自动识别方法:通过实验词及词性的不同组合选择特征集合,基于该特征训练得到条件随机场(CRF)识别模型;分析错误识别结果,结合最长名词短语的边界信息和内部结构信息构建规则库对识别结果进行后处理,弥补了机器学习模型获取知识不够全面的不足.实验结果表明,用统计和规则相结合的方法识别最长名词短语是有效的,系统开放测试结果F值达到了90.2%.
在分析漢語最長名詞短語特點的基礎上,提齣瞭一種統計和規則相結閤的漢語最長名詞短語自動識彆方法:通過實驗詞及詞性的不同組閤選擇特徵集閤,基于該特徵訓練得到條件隨機場(CRF)識彆模型;分析錯誤識彆結果,結閤最長名詞短語的邊界信息和內部結構信息構建規則庫對識彆結果進行後處理,瀰補瞭機器學習模型穫取知識不夠全麵的不足.實驗結果錶明,用統計和規則相結閤的方法識彆最長名詞短語是有效的,繫統開放測試結果F值達到瞭90.2%.
재분석한어최장명사단어특점적기출상,제출료일충통계화규칙상결합적한어최장명사단어자동식별방법:통과실험사급사성적불동조합선택특정집합,기우해특정훈련득도조건수궤장(CRF)식별모형;분석착오식별결과,결합최장명사단어적변계신식화내부결구신식구건규칙고대식별결과진행후처리,미보료궤기학습모형획취지식불구전면적불족.실험결과표명,용통계화규칙상결합적방법식별최장명사단어시유효적,계통개방측시결과F치체도료90.2%.