山东农业大学学报(自然科学版)
山東農業大學學報(自然科學版)
산동농업대학학보(자연과학판)
JOURNAL OF SHANDONG AGRICULTURAL UNIVERSITY(NATURAL SCIENCE)
2014年
z1期
52-55
,共4页
Map Reduce模型%分布式并行计算%文本特征项
Map Reduce模型%分佈式併行計算%文本特徵項
Map Reduce모형%분포식병행계산%문본특정항
MapReduce model%distributed parallel computing%text feature items
由Google公司提出的Map Reduce分布式并行编程模型是一种用于处理大数据的工具。在大数据时代,为解决在海量文本数据中提取有效信息的迫切要求,本文结合中文文本特征,在利用位置分析对特征项进行初步加权的基础上改进了TFIDF算法,并阐述利用Map Reduce模型实现该算法的具体流程。
由Google公司提齣的Map Reduce分佈式併行編程模型是一種用于處理大數據的工具。在大數據時代,為解決在海量文本數據中提取有效信息的迫切要求,本文結閤中文文本特徵,在利用位置分析對特徵項進行初步加權的基礎上改進瞭TFIDF算法,併闡述利用Map Reduce模型實現該算法的具體流程。
유Google공사제출적Map Reduce분포식병행편정모형시일충용우처리대수거적공구。재대수거시대,위해결재해량문본수거중제취유효신식적박절요구,본문결합중문문본특정,재이용위치분석대특정항진행초보가권적기출상개진료TFIDF산법,병천술이용Map Reduce모형실현해산법적구체류정。
MapReduce distributed programming model which introduced by Google is a useful tool for big data. In the era of big data, extracting useful information from the massive text data becomes the urgent requirement. Combined the Chinese text feature, this paper weight feature items preliminary by analysis the position of the items, and improve the TFIDF algorithm on this basis. Then introduce the processes to achieve this algorithm by MapReduce model.