中文信息学报
中文信息學報
중문신식학보
JOURNAL OF CHINESE INFORMAITON PROCESSING
2013年
5期
15-21,42
,共8页
徐润华%曲维光%陈小荷%王东波
徐潤華%麯維光%陳小荷%王東波
서윤화%곡유광%진소하%왕동파
四字格%分词语料库%切分不一致%CRF模型
四字格%分詞語料庫%切分不一緻%CRF模型
사자격%분사어료고%절분불일치%CRF모형
four-character idioms%word-segmented corpora%segmented comparison%CRF
汉语四字格的能产性和派生性极强,利用四字格模式创造出的新词数量在现代汉语词汇中一直呈上升趋势.该文将研究的目光投向分词语料库中的四字格,对语料库中的四字格进行了系统的分类和归纳,并对语料库内部和语料库之间的四字格切分不一致现象进行了详细的调查统计.最后,针对四字格的切分不一致数据引入条件随机场(CRF)模型,对多语料库中的汉语四字格进行识别实验,封闭测试和开放测试的识别精度均达到93%以上.
漢語四字格的能產性和派生性極彊,利用四字格模式創造齣的新詞數量在現代漢語詞彙中一直呈上升趨勢.該文將研究的目光投嚮分詞語料庫中的四字格,對語料庫中的四字格進行瞭繫統的分類和歸納,併對語料庫內部和語料庫之間的四字格切分不一緻現象進行瞭詳細的調查統計.最後,針對四字格的切分不一緻數據引入條件隨機場(CRF)模型,對多語料庫中的漢語四字格進行識彆實驗,封閉測試和開放測試的識彆精度均達到93%以上.
한어사자격적능산성화파생성겁강,이용사자격모식창조출적신사수량재현대한어사회중일직정상승추세.해문장연구적목광투향분사어료고중적사자격,대어료고중적사자격진행료계통적분류화귀납,병대어료고내부화어료고지간적사자격절분불일치현상진행료상세적조사통계.최후,침대사자격적절분불일치수거인입조건수궤장(CRF)모형,대다어료고중적한어사자격진행식별실험,봉폐측시화개방측시적식별정도균체도93%이상.