计算机工程与科学
計算機工程與科學
계산궤공정여과학
Computer Engineering and Science
2015年
10期
1971-1976
,共6页
戴上平%冯鹏%刘盛英杰%舒红
戴上平%馮鵬%劉盛英傑%舒紅
대상평%풍붕%류성영걸%서홍
文本分类%局部敏感哈希%TF-IDF%KNN%布尔向量
文本分類%跼部敏感哈希%TF-IDF%KNN%佈爾嚮量
문본분류%국부민감합희%TF-IDF%KNN%포이향량
text classification%Locality Sensitive Hashing (LSH)%TF-IDF%KNN%boolean vector
文本分类是文本挖掘中最重要的研究内容之一.为了克服目前以距离衡量的近似分类算法在海量数据下耗费大量时间的缺陷,提出了结合基于余弦距离的局部敏感哈希的方式将KNN算法在TF-IDF下对中文文本进行快速分类.同时结合文本数据的特性给出了不同的哈希函数级联方式分别进行实验.在实验过程采用了布尔向量的方式规避重复访问,使分类的结果在可以允许的范围内,分类速度比原始KNN提高了许多.
文本分類是文本挖掘中最重要的研究內容之一.為瞭剋服目前以距離衡量的近似分類算法在海量數據下耗費大量時間的缺陷,提齣瞭結閤基于餘絃距離的跼部敏感哈希的方式將KNN算法在TF-IDF下對中文文本進行快速分類.同時結閤文本數據的特性給齣瞭不同的哈希函數級聯方式分彆進行實驗.在實驗過程採用瞭佈爾嚮量的方式規避重複訪問,使分類的結果在可以允許的範圍內,分類速度比原始KNN提高瞭許多.
문본분류시문본알굴중최중요적연구내용지일.위료극복목전이거리형량적근사분류산법재해량수거하모비대량시간적결함,제출료결합기우여현거리적국부민감합희적방식장KNN산법재TF-IDF하대중문문본진행쾌속분류.동시결합문본수거적특성급출료불동적합희함수급련방식분별진행실험.재실험과정채용료포이향량적방식규피중복방문,사분류적결과재가이윤허적범위내,분류속도비원시KNN제고료허다.