计算机工程与设计
計算機工程與設計
계산궤공정여설계
COMPUTER ENGINEERING AND DESIGN
2014年
6期
2017-2023
,共7页
支持向量机%词库智能更新%语法库%搜索引擎%主题分类
支持嚮量機%詞庫智能更新%語法庫%搜索引擎%主題分類
지지향량궤%사고지능경신%어법고%수색인경%주제분류
support vector machine%thesaurus intelligent update%grammar library%search engines%subject classification
为了研究搜索引擎的文本预分类准确率,从词库对搜索引擎的影响角度出发,提出了基于支持向量机的词库智能更新技术.利用网络爬虫丰富的数据源作为生僻词来源,用基础词库结合语法库对网络爬虫获取的文本语料进行分析处理,同时不断充实临时词库;利用支持向量机判定文本的所属类别,确定生僻词的类别标识;根据临时词库中的生僻词的统计数量,将生僻词加入到词库,达到扩大词库的目的.将扩展后的词库应用于搜索引擎的搜索意图识别实验中,实验结果表明,扩展后的词库可以减少句子拆分的错误率并提高搜索主题分类的准确率.
為瞭研究搜索引擎的文本預分類準確率,從詞庫對搜索引擎的影響角度齣髮,提齣瞭基于支持嚮量機的詞庫智能更新技術.利用網絡爬蟲豐富的數據源作為生僻詞來源,用基礎詞庫結閤語法庫對網絡爬蟲穫取的文本語料進行分析處理,同時不斷充實臨時詞庫;利用支持嚮量機判定文本的所屬類彆,確定生僻詞的類彆標識;根據臨時詞庫中的生僻詞的統計數量,將生僻詞加入到詞庫,達到擴大詞庫的目的.將擴展後的詞庫應用于搜索引擎的搜索意圖識彆實驗中,實驗結果錶明,擴展後的詞庫可以減少句子拆分的錯誤率併提高搜索主題分類的準確率.
위료연구수색인경적문본예분류준학솔,종사고대수색인경적영향각도출발,제출료기우지지향량궤적사고지능경신기술.이용망락파충봉부적수거원작위생벽사래원,용기출사고결합어법고대망락파충획취적문본어료진행분석처리,동시불단충실림시사고;이용지지향량궤판정문본적소속유별,학정생벽사적유별표식;근거림시사고중적생벽사적통계수량,장생벽사가입도사고,체도확대사고적목적.장확전후적사고응용우수색인경적수색의도식별실험중,실험결과표명,확전후적사고가이감소구자탁분적착오솔병제고수색주제분류적준학솔.