计算机工程与应用
計算機工程與應用
계산궤공정여응용
COMPUTER ENGINEERING AND APPLICATIONS
2011年
4期
138-140,145
,共4页
Deep Web%数据抽取%中文分词%TF/IDF%聚类
Deep Web%數據抽取%中文分詞%TF/IDF%聚類
Deep Web%수거추취%중문분사%TF/IDF%취류
随着Deep Web飞速的发展,使用商业网站上所提供的查询接口从Web数据库中获取高质量数据并对这些数据进行分析加工处理显得尤为重要.通过动态提交关键词,利用查询接口得到检索页面,对检索页面中的中文信息进行抽取并进行分词处理,对分词的结果进行统计分析,通过引入DF进行降维得到特征项,使用TF/IDF计算得到特征项的权重向量矩阵,对权重矩阵进行聚类从而实现文档的分类.通过仿真实验检验了算法的合理性和可行性.
隨著Deep Web飛速的髮展,使用商業網站上所提供的查詢接口從Web數據庫中穫取高質量數據併對這些數據進行分析加工處理顯得尤為重要.通過動態提交關鍵詞,利用查詢接口得到檢索頁麵,對檢索頁麵中的中文信息進行抽取併進行分詞處理,對分詞的結果進行統計分析,通過引入DF進行降維得到特徵項,使用TF/IDF計算得到特徵項的權重嚮量矩陣,對權重矩陣進行聚類從而實現文檔的分類.通過倣真實驗檢驗瞭算法的閤理性和可行性.
수착Deep Web비속적발전,사용상업망참상소제공적사순접구종Web수거고중획취고질량수거병대저사수거진행분석가공처리현득우위중요.통과동태제교관건사,이용사순접구득도검색혈면,대검색혈면중적중문신식진행추취병진행분사처리,대분사적결과진행통계분석,통과인입DF진행강유득도특정항,사용TF/IDF계산득도특정항적권중향량구진,대권중구진진행취류종이실현문당적분류.통과방진실험검험료산법적합이성화가행성.