计算机应用研究
計算機應用研究
계산궤응용연구
APPLICATION RESEARCH OF COMPUTERS
2013年
12期
3610-3613
,共4页
TF*PDF%TDT%提取%脉冲值%关键词短语
TF*PDF%TDT%提取%脈遲值%關鍵詞短語
TF*PDF%TDT%제취%맥충치%관건사단어
TF*PDF%TDT%extraction%burst value%key phrase
传统的TF*PDF方法提取的关键短语可精确地描述话题并进行新闻报道的追踪,但存在误将噪声数据识别为关键短语的情况.提出了一种基于位置权重TF*PDF的两段式关键短语提取方法滤除噪声数据.该方法将传统的TF*PDF算法与位置权重相结合,计算词汇与短语的权重,获取候选关键短语列表,关键短语的脉冲值则用于过滤列表中的噪声.通过关键短语识别进程根据位置信息、频率信息等将热点词汇组合成短语.TF*PDF位置权重算法同时也用于为短语分配权重,排名前K的短语被认为是热点关键短语.以真实网络数据为基础的实验结果表明,该提取方法与传统的TF*PDF提取方法相比,可更好地去除关键词短语中的绝对噪声,较好地改善了热点话题检测的准确度.
傳統的TF*PDF方法提取的關鍵短語可精確地描述話題併進行新聞報道的追蹤,但存在誤將譟聲數據識彆為關鍵短語的情況.提齣瞭一種基于位置權重TF*PDF的兩段式關鍵短語提取方法濾除譟聲數據.該方法將傳統的TF*PDF算法與位置權重相結閤,計算詞彙與短語的權重,穫取候選關鍵短語列錶,關鍵短語的脈遲值則用于過濾列錶中的譟聲.通過關鍵短語識彆進程根據位置信息、頻率信息等將熱點詞彙組閤成短語.TF*PDF位置權重算法同時也用于為短語分配權重,排名前K的短語被認為是熱點關鍵短語.以真實網絡數據為基礎的實驗結果錶明,該提取方法與傳統的TF*PDF提取方法相比,可更好地去除關鍵詞短語中的絕對譟聲,較好地改善瞭熱點話題檢測的準確度.
전통적TF*PDF방법제취적관건단어가정학지묘술화제병진행신문보도적추종,단존재오장조성수거식별위관건단어적정황.제출료일충기우위치권중TF*PDF적량단식관건단어제취방법려제조성수거.해방법장전통적TF*PDF산법여위치권중상결합,계산사회여단어적권중,획취후선관건단어렬표,관건단어적맥충치칙용우과려렬표중적조성.통과관건단어식별진정근거위치신식、빈솔신식등장열점사회조합성단어.TF*PDF위치권중산법동시야용우위단어분배권중,배명전K적단어피인위시열점관건단어.이진실망락수거위기출적실험결과표명,해제취방법여전통적TF*PDF제취방법상비,가경호지거제관건사단어중적절대조성,교호지개선료열점화제검측적준학도.