四川大学学报(自然科学版)
四川大學學報(自然科學版)
사천대학학보(자연과학판)
JOURNAL OF SICHUAN UNIVERSITY(NATURAL SCIENCE EDITION)
2014年
3期
467-473
,共7页
王卫姣%陈黎%王亚强%聂恩伦%何建英%金晖%于中华
王衛姣%陳黎%王亞彊%聶恩倫%何建英%金暉%于中華
왕위교%진려%왕아강%섭은륜%하건영%금휘%우중화
网络舆情%潜在狄利克雷分配%K近邻%帖子热度预测%相似性
網絡輿情%潛在狄利剋雷分配%K近鄰%帖子熱度預測%相似性
망락여정%잠재적리극뢰분배%K근린%첩자열도예측%상사성
Web public opinion%Latent Dirichlet Allocation%K-nearest neighbor algorithm%Prediction of post's hotness%Similarity
随着互联网的快速发展,网络舆情对社会的影响与日俱增.对互联网上网民产生的海量文本内容进行快速准确的分析,以及在此基础上捕捉网络舆情,并对其发展趋势进行预测,对社会经济发展无疑具有重要意义.为此,本文研究了论坛中帖子的热度预测问题,针对现有算法在度量帖子内容相似性时仅仅考虑字面上的相似性,未涉及语义层面,并且未考虑发帖人的特定喜好等不足,提出了LDA(潜在狄利克雷分配)与KNN(K近邻)相结合的热度预测算法,该算法利用LDA挖掘帖子表面文本隐藏的主题信息和用户感兴趣的主题信息,在概念层面上度量帖子之间的相似性,在此基础上基于KNN算法对帖子的热度进行预测.在两组数据集的实验结果表明,所提出的算法在预测准确率方面明显优于相关工作中的方法,平均准确率分别提高了4.34%和2.52%.
隨著互聯網的快速髮展,網絡輿情對社會的影響與日俱增.對互聯網上網民產生的海量文本內容進行快速準確的分析,以及在此基礎上捕捉網絡輿情,併對其髮展趨勢進行預測,對社會經濟髮展無疑具有重要意義.為此,本文研究瞭論罈中帖子的熱度預測問題,針對現有算法在度量帖子內容相似性時僅僅攷慮字麵上的相似性,未涉及語義層麵,併且未攷慮髮帖人的特定喜好等不足,提齣瞭LDA(潛在狄利剋雷分配)與KNN(K近鄰)相結閤的熱度預測算法,該算法利用LDA挖掘帖子錶麵文本隱藏的主題信息和用戶感興趣的主題信息,在概唸層麵上度量帖子之間的相似性,在此基礎上基于KNN算法對帖子的熱度進行預測.在兩組數據集的實驗結果錶明,所提齣的算法在預測準確率方麵明顯優于相關工作中的方法,平均準確率分彆提高瞭4.34%和2.52%.
수착호련망적쾌속발전,망락여정대사회적영향여일구증.대호련망상망민산생적해량문본내용진행쾌속준학적분석,이급재차기출상포착망락여정,병대기발전추세진행예측,대사회경제발전무의구유중요의의.위차,본문연구료론단중첩자적열도예측문제,침대현유산법재도량첩자내용상사성시부부고필자면상적상사성,미섭급어의층면,병차미고필발첩인적특정희호등불족,제출료LDA(잠재적리극뢰분배)여KNN(K근린)상결합적열도예측산법,해산법이용LDA알굴첩자표면문본은장적주제신식화용호감흥취적주제신식,재개념층면상도량첩자지간적상사성,재차기출상기우KNN산법대첩자적열도진행예측.재량조수거집적실험결과표명,소제출적산법재예측준학솔방면명현우우상관공작중적방법,평균준학솔분별제고료4.34%화2.52%.