信息技术
信息技術
신식기술
Information Technology
2015年
9期
215-218
,共4页
情感分类%Hadoop%海量数据%KNN分类算法%并行化
情感分類%Hadoop%海量數據%KNN分類算法%併行化
정감분류%Hadoop%해량수거%KNN분류산법%병행화
sentiment classification%Hadoop%massive data%KNN classification algorithm%parallelization
随着用户发表微博数量的急剧增长,数据集已经达到TB级甚至PB级.针对在单机环境下无法很好地完成海量微博数据集的情感分类任务,文中提出一种基于Hadoop云平台的中文微博情感分类方案.结合微博文本特有的语言特征,依次在MapReduce框架上实现了预处理、特征选择、文本向量化表示、KNN分类算法的并行化.通过对比单机和集群的实验结果表明:Hadoop云平台下的情感分类效率能随着集群规模的扩增而快速提升,并且不影响其分类效果.
隨著用戶髮錶微博數量的急劇增長,數據集已經達到TB級甚至PB級.針對在單機環境下無法很好地完成海量微博數據集的情感分類任務,文中提齣一種基于Hadoop雲平檯的中文微博情感分類方案.結閤微博文本特有的語言特徵,依次在MapReduce框架上實現瞭預處理、特徵選擇、文本嚮量化錶示、KNN分類算法的併行化.通過對比單機和集群的實驗結果錶明:Hadoop雲平檯下的情感分類效率能隨著集群規模的擴增而快速提升,併且不影響其分類效果.
수착용호발표미박수량적급극증장,수거집이경체도TB급심지PB급.침대재단궤배경하무법흔호지완성해량미박수거집적정감분류임무,문중제출일충기우Hadoop운평태적중문미박정감분류방안.결합미박문본특유적어언특정,의차재MapReduce광가상실현료예처리、특정선택、문본향양화표시、KNN분류산법적병행화.통과대비단궤화집군적실험결과표명:Hadoop운평태하적정감분류효솔능수착집군규모적확증이쾌속제승,병차불영향기분류효과.