中文信息学报
中文信息學報
중문신식학보
JOURNAL OF CHINESE INFORMAITON PROCESSING
2010年
1期
3-7
,共5页
计算机应用%中文信息处理%中文分词%WBD方法%在线学习
計算機應用%中文信息處理%中文分詞%WBD方法%在線學習
계산궤응용%중문신식처리%중문분사%WBD방법%재선학습
computer application%Chinese information processing%Chinese word segmentation%WBD approach%online learning
该文研究和探讨一种新的分词方法: 基于词边界分类的方法.该方法直接对字符与字符之间的边界进行分类,判断其是否为两个词之间的边界,从而达到分词的目的.相对于目前主流的基于字标注的分词方法,该方法的实现和训练更加快速、简单和直接,但却能获得比较接近的分词效果.更显著的是我们可以很容易地从词边界分类方法获得在线分词学习方法,该方法能够使我们的分词系统非常迅速地学习新的标注样本.
該文研究和探討一種新的分詞方法: 基于詞邊界分類的方法.該方法直接對字符與字符之間的邊界進行分類,判斷其是否為兩箇詞之間的邊界,從而達到分詞的目的.相對于目前主流的基于字標註的分詞方法,該方法的實現和訓練更加快速、簡單和直接,但卻能穫得比較接近的分詞效果.更顯著的是我們可以很容易地從詞邊界分類方法穫得在線分詞學習方法,該方法能夠使我們的分詞繫統非常迅速地學習新的標註樣本.
해문연구화탐토일충신적분사방법: 기우사변계분류적방법.해방법직접대자부여자부지간적변계진행분류,판단기시부위량개사지간적변계,종이체도분사적목적.상대우목전주류적기우자표주적분사방법,해방법적실현화훈련경가쾌속、간단화직접,단각능획득비교접근적분사효과.경현저적시아문가이흔용역지종사변계분류방법획득재선분사학습방법,해방법능구사아문적분사계통비상신속지학습신적표주양본.
This paper focuses on the word boundary decision (WBD) approach to Chinese word segmentation. This new approach classifies a boundary between two characters into either a word boundary or not. Compared to the stat-of-the-arts methods based on character tagging, this approach is easier to implement and faster to execute, as well as a competitive performance. Particularly, the robust online learning module can be added to adapt a WBD system to new data quickly, enabling a reliable online Chinese segmentation system without domain or training data constraints.