计算机研究与发展
計算機研究與髮展
계산궤연구여발전
JOURNAL OF COMPUTER RESEARCH AND DEVELOPMENT
2004年
8期
1421-1429
,共9页
刘群%张华平%俞鸿魁%程学旗
劉群%張華平%俞鴻魁%程學旂
류군%장화평%유홍괴%정학기
汉语词法分析%分词%词性标注%未登录词识别%层叠隐马模型%ICTCLAS
漢語詞法分析%分詞%詞性標註%未登錄詞識彆%層疊隱馬模型%ICTCLAS
한어사법분석%분사%사성표주%미등록사식별%층첩은마모형%ICTCLAS
提出了一种基于层叠隐马模型的汉语词法分析方法,旨在将汉语分词、词性标注、切分排歧和未登录词识别集成到一个完整的理论框架中.在分词方面,采取的是基于类的隐马模型,在这层隐马模型中,未登录词和词典中收录的普通词一样处理.未登录词识别引入了角色HMM:Viterbi算法标注出全局最优的角色序列,然后在角色序列的基础上,识别出未登录词,并计算出真实的可信度.在切分排歧方面,提出了一种基于N-最短路径的策略,即:在早期阶段召回N个最佳结果作为候选集,目的是覆盖尽可能多的歧义字段,最终的结果会在未登录词识别和词性标注之后,从N个最有潜力的候选结果中选优得到.不同层面的实验表明,层叠隐马模型的各个层面对汉语词法分析都发挥了积极的作用.实现了基于层叠隐马模型的汉语词法分析系统ICTCLAS,该系统在2002年的"九七三"专家组评测中获得第1名,在2003年汉语特别兴趣研究组(ACL Special Interest Group on Chinese Language Processing,SIGHAN)组织的第1届国际汉语分词大赛中综合得分获得两项第1名、一项第2名.这表明:ICTCLAS是目前最好的汉语词法分析系统之一,层叠隐马模型能够解决好汉语词法问题.
提齣瞭一種基于層疊隱馬模型的漢語詞法分析方法,旨在將漢語分詞、詞性標註、切分排歧和未登錄詞識彆集成到一箇完整的理論框架中.在分詞方麵,採取的是基于類的隱馬模型,在這層隱馬模型中,未登錄詞和詞典中收錄的普通詞一樣處理.未登錄詞識彆引入瞭角色HMM:Viterbi算法標註齣全跼最優的角色序列,然後在角色序列的基礎上,識彆齣未登錄詞,併計算齣真實的可信度.在切分排歧方麵,提齣瞭一種基于N-最短路徑的策略,即:在早期階段召迴N箇最佳結果作為候選集,目的是覆蓋儘可能多的歧義字段,最終的結果會在未登錄詞識彆和詞性標註之後,從N箇最有潛力的候選結果中選優得到.不同層麵的實驗錶明,層疊隱馬模型的各箇層麵對漢語詞法分析都髮揮瞭積極的作用.實現瞭基于層疊隱馬模型的漢語詞法分析繫統ICTCLAS,該繫統在2002年的"九七三"專傢組評測中穫得第1名,在2003年漢語特彆興趣研究組(ACL Special Interest Group on Chinese Language Processing,SIGHAN)組織的第1屆國際漢語分詞大賽中綜閤得分穫得兩項第1名、一項第2名.這錶明:ICTCLAS是目前最好的漢語詞法分析繫統之一,層疊隱馬模型能夠解決好漢語詞法問題.
제출료일충기우층첩은마모형적한어사법분석방법,지재장한어분사、사성표주、절분배기화미등록사식별집성도일개완정적이론광가중.재분사방면,채취적시기우류적은마모형,재저층은마모형중,미등록사화사전중수록적보통사일양처리.미등록사식별인입료각색HMM:Viterbi산법표주출전국최우적각색서렬,연후재각색서렬적기출상,식별출미등록사,병계산출진실적가신도.재절분배기방면,제출료일충기우N-최단로경적책략,즉:재조기계단소회N개최가결과작위후선집,목적시복개진가능다적기의자단,최종적결과회재미등록사식별화사성표주지후,종N개최유잠력적후선결과중선우득도.불동층면적실험표명,층첩은마모형적각개층면대한어사법분석도발휘료적겁적작용.실현료기우층첩은마모형적한어사법분석계통ICTCLAS,해계통재2002년적"구칠삼"전가조평측중획득제1명,재2003년한어특별흥취연구조(ACL Special Interest Group on Chinese Language Processing,SIGHAN)조직적제1계국제한어분사대새중종합득분획득량항제1명、일항제2명.저표명:ICTCLAS시목전최호적한어사법분석계통지일,층첩은마모형능구해결호한어사법문제.