新疆大学学报(自然科学版)
新疆大學學報(自然科學版)
신강대학학보(자연과학판)
XINJIANG UNIVERSITY JOURNAL(NATURAL SCIENCE EDITION)
2013年
1期
81-86
,共6页
分词%标注系统%专有名词%新词%微博语料库
分詞%標註繫統%專有名詞%新詞%微博語料庫
분사%표주계통%전유명사%신사%미박어료고
word segmentation and part-of-speech tagging%proper noun%new words%microblog Corpus
本文将清华大学中文分词和词性标注系统应用于部分微博语料数据,检测系统对微博新词识别能力及对识别错误进行了分类总结,并对识别率低的新词制定了标注规范。通过人工校对获得新的训练语料数据集,提高系统对微博文本的处理能力,为建立微博专用语料库做前期准备工作。
本文將清華大學中文分詞和詞性標註繫統應用于部分微博語料數據,檢測繫統對微博新詞識彆能力及對識彆錯誤進行瞭分類總結,併對識彆率低的新詞製定瞭標註規範。通過人工校對穫得新的訓練語料數據集,提高繫統對微博文本的處理能力,為建立微博專用語料庫做前期準備工作。
본문장청화대학중문분사화사성표주계통응용우부분미박어료수거,검측계통대미박신사식별능력급대식별착오진행료분류총결,병대식별솔저적신사제정료표주규범。통과인공교대획득신적훈련어료수거집,제고계통대미박문본적처리능력,위건립미박전용어료고주전기준비공작。
In this paper, Tsinghua University’s Chinese word segmentation and part-of-speech tagging system is used to analyze microblog data .One finding is that the system cannot identify most of new words in microblog data, Identification errors are systematically classified and analyzed. An annotation guideline is designed to identify new words manually. The goal is to build manually annotated training data, improve the performance of microblog new word identification, and prepare for building microblog corpus for a specific purpose.