情报资料工作
情報資料工作
정보자료공작
INFORMATION AND DOCUMENTATION WORK
2013年
3期
64-68
,共5页
大数据%关键词提取%词偏度%网络情报监测
大數據%關鍵詞提取%詞偏度%網絡情報鑑測
대수거%관건사제취%사편도%망락정보감측
为克服传统词频—逆向文本频率(TFIDF)关键词提取精度低下的缺点,文章提出一种基于多级统计特征的关键词提取(TFIDF-SK)算法.该算法采用词语TfDf指标的离散系数公式来剔除噪音词,构建基于词偏度、词语位置权重信息和词频-逆向文本频率的评估函数来度量关键词的重要性.实验结果表明该算法优于传统方法,在大数据时代网络情报监测中具有广泛的应用价值.
為剋服傳統詞頻—逆嚮文本頻率(TFIDF)關鍵詞提取精度低下的缺點,文章提齣一種基于多級統計特徵的關鍵詞提取(TFIDF-SK)算法.該算法採用詞語TfDf指標的離散繫數公式來剔除譟音詞,構建基于詞偏度、詞語位置權重信息和詞頻-逆嚮文本頻率的評估函數來度量關鍵詞的重要性.實驗結果錶明該算法優于傳統方法,在大數據時代網絡情報鑑測中具有廣汎的應用價值.
위극복전통사빈—역향문본빈솔(TFIDF)관건사제취정도저하적결점,문장제출일충기우다급통계특정적관건사제취(TFIDF-SK)산법.해산법채용사어TfDf지표적리산계수공식래척제조음사,구건기우사편도、사어위치권중신식화사빈-역향문본빈솔적평고함수래도량관건사적중요성.실험결과표명해산법우우전통방법,재대수거시대망락정보감측중구유엄범적응용개치.