计算机工程
計算機工程
계산궤공정
COMPUTER ENGINEERING
2012年
24期
14-16,20
,共4页
文本挖掘%聚类分析%文本聚类%海量数据%云计算%并行数据挖掘
文本挖掘%聚類分析%文本聚類%海量數據%雲計算%併行數據挖掘
문본알굴%취류분석%문본취류%해량수거%운계산%병행수거알굴
针对大规模文本聚类分析所面临的海量、高维、稀疏等难题,提出一种基于云计算的海量文本聚类解决方案.选择经典聚类算法Jarvis-Patrick(JP)作为案例,采用云计算平台的MapReduce编程模型对JP聚类算法进行并行化改造,利用搜狗实验室提供的语料库在Hadoop平台上进行实验验证.实验结果表明,JP算法并行化改造可行,且相对于单节点环境,该算法在处理大规模文本数据时具有更好的时间性能.
針對大規模文本聚類分析所麵臨的海量、高維、稀疏等難題,提齣一種基于雲計算的海量文本聚類解決方案.選擇經典聚類算法Jarvis-Patrick(JP)作為案例,採用雲計算平檯的MapReduce編程模型對JP聚類算法進行併行化改造,利用搜狗實驗室提供的語料庫在Hadoop平檯上進行實驗驗證.實驗結果錶明,JP算法併行化改造可行,且相對于單節點環境,該算法在處理大規模文本數據時具有更好的時間性能.
침대대규모문본취류분석소면림적해량、고유、희소등난제,제출일충기우운계산적해량문본취류해결방안.선택경전취류산법Jarvis-Patrick(JP)작위안례,채용운계산평태적MapReduce편정모형대JP취류산법진행병행화개조,이용수구실험실제공적어료고재Hadoop평태상진행실험험증.실험결과표명,JP산법병행화개조가행,차상대우단절점배경,해산법재처리대규모문본수거시구유경호적시간성능.