计算机应用与软件
計算機應用與軟件
계산궤응용여연건
COMPUTER APPLICATIONS AND SOFTWARE
2013年
12期
311-314
,共4页
Single-Pass聚类%话题识别%热点话题%热度分析
Single-Pass聚類%話題識彆%熱點話題%熱度分析
Single-Pass취류%화제식별%열점화제%열도분석
Single-Pass clustering%Topic identification%Hot topic%Heat analysis
对网络新闻文本进行研究,发现网络新闻结构包含标题和正文,基于这种结构提出加权词频统计方法,该方法提高了可能成为热点话题的特征项的权重。通过Single-Pass聚类算法,对新闻报道进行聚类,得到话题列表。基于TF*PDF思想,引入话题权重,提出新的话题热度计算方法,同时使用“话题指数”描述话题的发展趋势。通过实验表明新的热度计算方法比原热度计算方法检测效果好,得到的话题发展趋势与实际吻合。
對網絡新聞文本進行研究,髮現網絡新聞結構包含標題和正文,基于這種結構提齣加權詞頻統計方法,該方法提高瞭可能成為熱點話題的特徵項的權重。通過Single-Pass聚類算法,對新聞報道進行聚類,得到話題列錶。基于TF*PDF思想,引入話題權重,提齣新的話題熱度計算方法,同時使用“話題指數”描述話題的髮展趨勢。通過實驗錶明新的熱度計算方法比原熱度計算方法檢測效果好,得到的話題髮展趨勢與實際吻閤。
대망락신문문본진행연구,발현망락신문결구포함표제화정문,기우저충결구제출가권사빈통계방법,해방법제고료가능성위열점화제적특정항적권중。통과Single-Pass취류산법,대신문보도진행취류,득도화제렬표。기우TF*PDF사상,인입화제권중,제출신적화제열도계산방법,동시사용“화제지수”묘술화제적발전추세。통과실험표명신적열도계산방법비원열도계산방법검측효과호,득도적화제발전추세여실제문합。
We study the text of network news , and find that the structure of news contains the title and the main text .Based on such structure we present a weighted word frequency statistical method .The method improves the weight of the feature item which may become the hot topic.Through Single-Pass clustering algorithm it clusters the news and reports and gets the topics list .Based on TF*PDF ideas, it introduces topic weight , and puts forward a new topic heat calculation method .At the same time it uses the ″topic index″to describe the development trend of the topic .Through the experiments it is showed that the new heat calculation method is better than the original heat calculation method in detection effect .The topic development trend derived is in agreement with the actual .