计算机工程与设计
計算機工程與設計
계산궤공정여설계
COMPUTER ENGINEERING AND DESIGN
2005年
6期
1422-1424
,共3页
Web语料%HTML格式%包装器%Web页面抓取器%词汇分离器
Web語料%HTML格式%包裝器%Web頁麵抓取器%詞彙分離器
Web어료%HTML격식%포장기%Web혈면조취기%사회분리기
提出一种Web汉语料智能抽取和汉语词切分的包装器.用户无需打开网站,无需点击链接,只需键入URL(Unit Resource Location,统一资源定位符),即可获取Web汉语料并切分词到汉词库中.给出了系统的总体构架,阐述了各功能模块的设计原理和技术实现.测试结果表明,该包装器能快速、有效地抓取Web页面并分离其中的汉语料,对歧义句、新词汇的识别率分别达到70%和60%,可应用于Web上汉语词汇的收集与分离.
提齣一種Web漢語料智能抽取和漢語詞切分的包裝器.用戶無需打開網站,無需點擊鏈接,隻需鍵入URL(Unit Resource Location,統一資源定位符),即可穫取Web漢語料併切分詞到漢詞庫中.給齣瞭繫統的總體構架,闡述瞭各功能模塊的設計原理和技術實現.測試結果錶明,該包裝器能快速、有效地抓取Web頁麵併分離其中的漢語料,對歧義句、新詞彙的識彆率分彆達到70%和60%,可應用于Web上漢語詞彙的收集與分離.
제출일충Web한어료지능추취화한어사절분적포장기.용호무수타개망참,무수점격련접,지수건입URL(Unit Resource Location,통일자원정위부),즉가획취Web한어료병절분사도한사고중.급출료계통적총체구가,천술료각공능모괴적설계원리화기술실현.측시결과표명,해포장기능쾌속、유효지조취Web혈면병분리기중적한어료,대기의구、신사회적식별솔분별체도70%화60%,가응용우Web상한어사회적수집여분리.