计算机技术与发展
計算機技術與髮展
계산궤기술여발전
COMPUTER TECHNOLOGY AND DEVELOPMENT
2012年
5期
134-136,140
,共4页
自然语言处理%支持向量机%新词识别%词间特征
自然語言處理%支持嚮量機%新詞識彆%詞間特徵
자연어언처리%지지향량궤%신사식별%사간특정
中文分词的难点在于处理歧义和识别未登录词,因此对新词的正确识别具有重要作用.文中结合提出的新词词间模式特征以及各种词内部模式特征,对从训练语料中抽取正负样本进行向量化,通过支持向量机的训练得到新词分类支持向量.对测试语料结合绝对折扣法进行新词候选的提取与筛选,并与训练语料中提取的词间模式特征以及各种词内部模式特征进行向量化,得到新词候选向量,最后将训练语料中得到的新词分类支持向量以及对测试语料中得到的新词候选向量结合进行SVM测试,得到最终的新词识别结果.
中文分詞的難點在于處理歧義和識彆未登錄詞,因此對新詞的正確識彆具有重要作用.文中結閤提齣的新詞詞間模式特徵以及各種詞內部模式特徵,對從訓練語料中抽取正負樣本進行嚮量化,通過支持嚮量機的訓練得到新詞分類支持嚮量.對測試語料結閤絕對摺釦法進行新詞候選的提取與篩選,併與訓練語料中提取的詞間模式特徵以及各種詞內部模式特徵進行嚮量化,得到新詞候選嚮量,最後將訓練語料中得到的新詞分類支持嚮量以及對測試語料中得到的新詞候選嚮量結閤進行SVM測試,得到最終的新詞識彆結果.
중문분사적난점재우처리기의화식별미등록사,인차대신사적정학식별구유중요작용.문중결합제출적신사사간모식특정이급각충사내부모식특정,대종훈련어료중추취정부양본진행향양화,통과지지향량궤적훈련득도신사분류지지향량.대측시어료결합절대절구법진행신사후선적제취여사선,병여훈련어료중제취적사간모식특정이급각충사내부모식특정진행향양화,득도신사후선향량,최후장훈련어료중득도적신사분류지지향량이급대측시어료중득도적신사후선향량결합진행SVM측시,득도최종적신사식별결과.