中文信息学报
中文信息學報
중문신식학보
JOURNAL OF CHINESE INFORMAITON PROCESSING
2008年
3期
64-70,80
,共8页
计算机应用%中文信息处理%主题词提取%未登录词识别%切分词拼接%主题词聚类
計算機應用%中文信息處理%主題詞提取%未登錄詞識彆%切分詞拼接%主題詞聚類
계산궤응용%중문신식처리%주제사제취%미등록사식별%절분사병접%주제사취류
网络信息的指数爆炸给人们获取与掌控信息带来了困扰,为了挖掘海量信息中的关键因子并以恰当的方式进行组织,本文设计了网络文本主题词提取和组织算法.该算法基于多级滤噪的切分词拼接,利用特定的噪音库与滤噪策略严格控制拼接过程,在合理收录策略的挑选下,算法提取出了能够准确反映海量网络数据中关键因子的主题词串.为清晰地组织主题词,建立主题词与网络事件的有机联系,设计了新的词聚类策略对主题词提取结果进行处理,使表达同一热点的主题词合理地组织在一起,共同描述同一事件.在以实际网络文本为语料的实验中,算法表现出令人满意的性能.
網絡信息的指數爆炸給人們穫取與掌控信息帶來瞭睏擾,為瞭挖掘海量信息中的關鍵因子併以恰噹的方式進行組織,本文設計瞭網絡文本主題詞提取和組織算法.該算法基于多級濾譟的切分詞拼接,利用特定的譟音庫與濾譟策略嚴格控製拼接過程,在閤理收錄策略的挑選下,算法提取齣瞭能夠準確反映海量網絡數據中關鍵因子的主題詞串.為清晰地組織主題詞,建立主題詞與網絡事件的有機聯繫,設計瞭新的詞聚類策略對主題詞提取結果進行處理,使錶達同一熱點的主題詞閤理地組織在一起,共同描述同一事件.在以實際網絡文本為語料的實驗中,算法錶現齣令人滿意的性能.
망락신식적지수폭작급인문획취여장공신식대래료곤우,위료알굴해량신식중적관건인자병이흡당적방식진행조직,본문설계료망락문본주제사제취화조직산법.해산법기우다급려조적절분사병접,이용특정적조음고여려조책략엄격공제병접과정,재합리수록책략적도선하,산법제취출료능구준학반영해량망락수거중관건인자적주제사천.위청석지조직주제사,건립주제사여망락사건적유궤련계,설계료신적사취류책략대주제사제취결과진행처리,사표체동일열점적주제사합리지조직재일기,공동묘술동일사건.재이실제망락문본위어료적실험중,산법표현출령인만의적성능.