情报学报
情報學報
정보학보
2011年
5期
464-470
,共7页
庞观松%蒋盛益%张黎莎%区雄发%赖旭明
龐觀鬆%蔣盛益%張黎莎%區雄髮%賴旭明
방관송%장성익%장려사%구웅발%뢰욱명
文本聚类%多层聚类%类别关键词提取%加权函数
文本聚類%多層聚類%類彆關鍵詞提取%加權函數
문본취류%다층취류%유별관건사제취%가권함수
为了便于用户浏览搜索引擎返回结果,本文提出了一种基于TFIDF新的文本相似度计算方法,并提出使用具有近似线性时间复杂度的增量聚类算法对文本进行多层聚类的策略.同时,提出了一种从多文本中提取关键词的策略:提取簇中的名词或名词短语作为候选关键词,综合考虑每个候选关键词的词频、出现位置、长度和文本长度设置加权函数来计算其权重,不需要人工干预以及语料库的协助,自动提取权重最大的候选关键词作为类别关键词.在收集的百度、ODP语料以及公开测试的实验结果表明本文提出方法的有效性.
為瞭便于用戶瀏覽搜索引擎返迴結果,本文提齣瞭一種基于TFIDF新的文本相似度計算方法,併提齣使用具有近似線性時間複雜度的增量聚類算法對文本進行多層聚類的策略.同時,提齣瞭一種從多文本中提取關鍵詞的策略:提取簇中的名詞或名詞短語作為候選關鍵詞,綜閤攷慮每箇候選關鍵詞的詞頻、齣現位置、長度和文本長度設置加權函數來計算其權重,不需要人工榦預以及語料庫的協助,自動提取權重最大的候選關鍵詞作為類彆關鍵詞.在收集的百度、ODP語料以及公開測試的實驗結果錶明本文提齣方法的有效性.
위료편우용호류람수색인경반회결과,본문제출료일충기우TFIDF신적문본상사도계산방법,병제출사용구유근사선성시간복잡도적증량취류산법대문본진행다층취류적책략.동시,제출료일충종다문본중제취관건사적책략:제취족중적명사혹명사단어작위후선관건사,종합고필매개후선관건사적사빈、출현위치、장도화문본장도설치가권함수래계산기권중,불수요인공간예이급어료고적협조,자동제취권중최대적후선관건사작위유별관건사.재수집적백도、ODP어료이급공개측시적실험결과표명본문제출방법적유효성.