计算机工程
計算機工程
계산궤공정
COMPUTER ENGINEERING
2011年
6期
79-81,90
,共4页
李庆诚%左珊珊%董振华%张金
李慶誠%左珊珊%董振華%張金
리경성%좌산산%동진화%장금
RSS%信息检索%爬虫%中文文本分类%向量空间模型
RSS%信息檢索%爬蟲%中文文本分類%嚮量空間模型
RSS%신식검색%파충%중문문본분류%향량공간모형
设计并实现了RSS垂直爬虫算法,利用广度优先算法聚焦于RSS源进行自动采集,并在文本分词基础上,针对RSS源进行词语权重计算方法的改进及词语过滤,利用VSM方法实现RSS自动分类.实验结果表明,RSS系统在较低的负载下,能以较高的效率和正确率实现中文RSS信息自动检索与分类,从而有效进行RSS信息聚合管理.
設計併實現瞭RSS垂直爬蟲算法,利用廣度優先算法聚焦于RSS源進行自動採集,併在文本分詞基礎上,針對RSS源進行詞語權重計算方法的改進及詞語過濾,利用VSM方法實現RSS自動分類.實驗結果錶明,RSS繫統在較低的負載下,能以較高的效率和正確率實現中文RSS信息自動檢索與分類,從而有效進行RSS信息聚閤管理.
설계병실현료RSS수직파충산법,이용엄도우선산법취초우RSS원진행자동채집,병재문본분사기출상,침대RSS원진행사어권중계산방법적개진급사어과려,이용VSM방법실현RSS자동분류.실험결과표명,RSS계통재교저적부재하,능이교고적효솔화정학솔실현중문RSS신식자동검색여분류,종이유효진행RSS신식취합관리.