小型微型计算机系统
小型微型計算機繫統
소형미형계산궤계통
MINI-MICRO SYSTEMS
2013年
12期
2772-2776
,共5页
朱潜%吴辰铌%朱志良%刘洪娟
硃潛%吳辰鈮%硃誌良%劉洪娟
주잠%오신니%주지량%류홍연
Nutch%Hadoop%中文分词%云计算
Nutch%Hadoop%中文分詞%雲計算
Nutch%Hadoop%중문분사%운계산
Nutch%Hadoop%Chinese word segmentation%cloud computing
Nutch是开源搜索引擎,Hadoop是Apache开发的类似于Google GFS和MapReduce的开源云平台.利用Nutch和Hadoop可以设计高效、可靠、可扩展的搜索引擎,然而Nutch的分词模块对中文进行单字切分,不符合在汉语中以词语切分的习惯,为了解决这个问题,采用词典分词的中文分词器IK Analyzer对Nutch的分词模块进行改进,首先描述在Nutch上实现IKAnalyzer的方法,然后在Hadoop云环境下对该分词模块进行测试.测试结果表明,IK Analyzer的中文分词效果很符合汉语的习惯,对Nutch的理论和应用研究具有一定的意义.
Nutch是開源搜索引擎,Hadoop是Apache開髮的類似于Google GFS和MapReduce的開源雲平檯.利用Nutch和Hadoop可以設計高效、可靠、可擴展的搜索引擎,然而Nutch的分詞模塊對中文進行單字切分,不符閤在漢語中以詞語切分的習慣,為瞭解決這箇問題,採用詞典分詞的中文分詞器IK Analyzer對Nutch的分詞模塊進行改進,首先描述在Nutch上實現IKAnalyzer的方法,然後在Hadoop雲環境下對該分詞模塊進行測試.測試結果錶明,IK Analyzer的中文分詞效果很符閤漢語的習慣,對Nutch的理論和應用研究具有一定的意義.
Nutch시개원수색인경,Hadoop시Apache개발적유사우Google GFS화MapReduce적개원운평태.이용Nutch화Hadoop가이설계고효、가고、가확전적수색인경,연이Nutch적분사모괴대중문진행단자절분,불부합재한어중이사어절분적습관,위료해결저개문제,채용사전분사적중문분사기IK Analyzer대Nutch적분사모괴진행개진,수선묘술재Nutch상실현IKAnalyzer적방법,연후재Hadoop운배경하대해분사모괴진행측시.측시결과표명,IK Analyzer적중문분사효과흔부합한어적습관,대Nutch적이론화응용연구구유일정적의의.