小型微型计算机系统
小型微型計算機繫統
소형미형계산궤계통
MINI-MICRO SYSTEMS
2012年
12期
2605-2610
,共6页
陈叶旺%王华珍%李海波%钟必能%陈锻生
陳葉旺%王華珍%李海波%鐘必能%陳鍛生
진협왕%왕화진%리해파%종필능%진단생
百度百科%语义主题%主题抽取%语义离散度
百度百科%語義主題%主題抽取%語義離散度
백도백과%어의주제%주제추취%어의리산도
网络上存在海量中文文本资源,其中许多具有稀疏性与不规范性,难于处理与挖掘.百度百科是一个丰富的与社会热点、网络流行紧密相关的动态中文知识库,基于百度百科本文提出一种网络文本语义主题抽取方法.首先利用百度百科的知识关系将文本映射到候选语义主题空间中,根据训练数据进行分类,找出最大可能的分类,选出属于该分类的候选语义主题.最后提出根据语义离散度确定最终语义主题.在两个数据集上的实验结果表明,该方法不仅对网络不规范文本而且对于规则文本都具有较好的语义主题抽取性能.
網絡上存在海量中文文本資源,其中許多具有稀疏性與不規範性,難于處理與挖掘.百度百科是一箇豐富的與社會熱點、網絡流行緊密相關的動態中文知識庫,基于百度百科本文提齣一種網絡文本語義主題抽取方法.首先利用百度百科的知識關繫將文本映射到候選語義主題空間中,根據訓練數據進行分類,找齣最大可能的分類,選齣屬于該分類的候選語義主題.最後提齣根據語義離散度確定最終語義主題.在兩箇數據集上的實驗結果錶明,該方法不僅對網絡不規範文本而且對于規則文本都具有較好的語義主題抽取性能.
망락상존재해량중문문본자원,기중허다구유희소성여불규범성,난우처리여알굴.백도백과시일개봉부적여사회열점、망락류행긴밀상관적동태중문지식고,기우백도백과본문제출일충망락문본어의주제추취방법.수선이용백도백과적지식관계장문본영사도후선어의주제공간중,근거훈련수거진행분류,조출최대가능적분류,선출속우해분류적후선어의주제.최후제출근거어의리산도학정최종어의주제.재량개수거집상적실험결과표명,해방법불부대망락불규범문본이차대우규칙문본도구유교호적어의주제추취성능.