中文信息学报
中文信息學報
중문신식학보
JOURNAL OF CHINESE INFORMAITON PROCESSING
2007年
5期
8-13
,共6页
计算机应用%中文信息处理%中文分词%基于子串标注的分词
計算機應用%中文信息處理%中文分詞%基于子串標註的分詞
계산궤응용%중문신식처리%중문분사%기우자천표주적분사
由于基于已切分语料的学习方法和体系的兴起,中文分词在本世纪的头几年取得了显著的突破.尤其是2003年国际中文分词评测活动Bakeoff开展以来,基于字标注的统计学习方法引起了广泛关注.本文探讨这一学习框架的推广问题,以一种更为可靠的算法寻找更长的标注单元来实现中文分词的大规模语料学习,同时改进已有工作的不足.我们提出子串标注的一般化框架,包括两个步骤,一是确定有效子串词典的迭代最大匹配过滤算法,二是在给定文本上实现子串单元识别的双词典最大匹配算法.该方法的有效性在Bakeoff-2005评测语料上获得了验证.
由于基于已切分語料的學習方法和體繫的興起,中文分詞在本世紀的頭幾年取得瞭顯著的突破.尤其是2003年國際中文分詞評測活動Bakeoff開展以來,基于字標註的統計學習方法引起瞭廣汎關註.本文探討這一學習框架的推廣問題,以一種更為可靠的算法尋找更長的標註單元來實現中文分詞的大規模語料學習,同時改進已有工作的不足.我們提齣子串標註的一般化框架,包括兩箇步驟,一是確定有效子串詞典的迭代最大匹配過濾算法,二是在給定文本上實現子串單元識彆的雙詞典最大匹配算法.該方法的有效性在Bakeoff-2005評測語料上穫得瞭驗證.
유우기우이절분어료적학습방법화체계적흥기,중문분사재본세기적두궤년취득료현저적돌파.우기시2003년국제중문분사평측활동Bakeoff개전이래,기우자표주적통계학습방법인기료엄범관주.본문탐토저일학습광가적추엄문제,이일충경위가고적산법심조경장적표주단원래실현중문분사적대규모어료학습,동시개진이유공작적불족.아문제출자천표주적일반화광가,포괄량개보취,일시학정유효자천사전적질대최대필배과려산법,이시재급정문본상실현자천단원식별적쌍사전최대필배산법.해방법적유효성재Bakeoff-2005평측어료상획득료험증.