中文信息学报
中文信息學報
중문신식학보
JOURNAL OF CHINESE INFORMAITON PROCESSING
2011年
2期
122-128
,共7页
张海军%史树敏%丁溪源%黄河燕
張海軍%史樹敏%丁溪源%黃河燕
장해군%사수민%정계원%황하연
未登录词识别%重复串%条件随机域模型%中文分词
未登錄詞識彆%重複串%條件隨機域模型%中文分詞
미등록사식별%중복천%조건수궤역모형%중문분사
基于重复串构造候选词集合是未登录词识别(UWI)的重要方法,目前有两种策略用于重复串提取:基于字符和基于分词.该文针对这两种策略实施了大量对比研究,并提出了基于分词提取重复串的未登录词遗漏量化模型,用以评估未登录词漏召问题.分析表明,该量化模型与实验数据之间具有良好的交互验证关系.根据时量化模型的讨论,该文得出了应用不同策略进行未登录词识别的可靠结论,该结论对后续研究具有一定的参考价值.
基于重複串構造候選詞集閤是未登錄詞識彆(UWI)的重要方法,目前有兩種策略用于重複串提取:基于字符和基于分詞.該文針對這兩種策略實施瞭大量對比研究,併提齣瞭基于分詞提取重複串的未登錄詞遺漏量化模型,用以評估未登錄詞漏召問題.分析錶明,該量化模型與實驗數據之間具有良好的交互驗證關繫.根據時量化模型的討論,該文得齣瞭應用不同策略進行未登錄詞識彆的可靠結論,該結論對後續研究具有一定的參攷價值.
기우중복천구조후선사집합시미등록사식별(UWI)적중요방법,목전유량충책략용우중복천제취:기우자부화기우분사.해문침대저량충책략실시료대량대비연구,병제출료기우분사제취중복천적미등록사유루양화모형,용이평고미등록사루소문제.분석표명,해양화모형여실험수거지간구유량호적교호험증관계.근거시양화모형적토론,해문득출료응용불동책략진행미등록사식별적가고결론,해결론대후속연구구유일정적삼고개치.