计算机应用
計算機應用
계산궤응용
COMPUTER APPLICATION
2007年
6期
1394-1396
,共3页
蒲强%李鑫%刘启和%杨国纬
蒲彊%李鑫%劉啟和%楊國緯
포강%리흠%류계화%양국위
Web文本%文本提取%文本语料库
Web文本%文本提取%文本語料庫
Web문본%문본제취%문본어료고
为构建大规模中文文本语料库,提出了一种简单、有效、通用的中文Web主题文本提取方法.该方法巧妙地利用中文文本长度和标点符号序列,配合少量判别规则,便可准确地将主题文本从网页中提取出来.由于本方法不涉及具体的HTML标记分析,其通用性较强.实验结果表明该提取方法具有快速性和准确性,达到了构建大规模中文文本语料库的要求.
為構建大規模中文文本語料庫,提齣瞭一種簡單、有效、通用的中文Web主題文本提取方法.該方法巧妙地利用中文文本長度和標點符號序列,配閤少量判彆規則,便可準確地將主題文本從網頁中提取齣來.由于本方法不涉及具體的HTML標記分析,其通用性較彊.實驗結果錶明該提取方法具有快速性和準確性,達到瞭構建大規模中文文本語料庫的要求.
위구건대규모중문문본어료고,제출료일충간단、유효、통용적중문Web주제문본제취방법.해방법교묘지이용중문문본장도화표점부호서렬,배합소량판별규칙,편가준학지장주제문본종망혈중제취출래.유우본방법불섭급구체적HTML표기분석,기통용성교강.실험결과표명해제취방법구유쾌속성화준학성,체도료구건대규모중문문본어료고적요구.