数据采集与处理
數據採集與處理
수거채집여처리
JOURNAL OF DATA ACQUISITION & PROCESSING
2011年
1期
95-100
,共6页
章晟%张启飞%潘雪增%朱旭辉
章晟%張啟飛%潘雪增%硃旭輝
장성%장계비%반설증%주욱휘
搜索引攀%密度聚类%字符编码
搜索引攀%密度聚類%字符編碼
수색인반%밀도취류%자부편마
搜索引擎有很多的关健技术,本文主要针对互联网中文HTML混合编码文件,研究了中文HTML文件的字符编码组成结构,然后对混合编码文件内容进行聚类,采用了数据挖掘领城的经典算法DBSCAN,将HTML文件分成几个大类,然后分别对各个类进行了基于特征编码检测.实脸结果显示,当选取合适的参数时,对混合编码文件的聚类后,每个类与中文字符特征编码相符率达100,可以广泛应用于搜索领城.
搜索引擎有很多的關健技術,本文主要針對互聯網中文HTML混閤編碼文件,研究瞭中文HTML文件的字符編碼組成結構,然後對混閤編碼文件內容進行聚類,採用瞭數據挖掘領城的經典算法DBSCAN,將HTML文件分成幾箇大類,然後分彆對各箇類進行瞭基于特徵編碼檢測.實臉結果顯示,噹選取閤適的參數時,對混閤編碼文件的聚類後,每箇類與中文字符特徵編碼相符率達100,可以廣汎應用于搜索領城.
수색인경유흔다적관건기술,본문주요침대호련망중문HTML혼합편마문건,연구료중문HTML문건적자부편마조성결구,연후대혼합편마문건내용진행취류,채용료수거알굴령성적경전산법DBSCAN,장HTML문건분성궤개대류,연후분별대각개류진행료기우특정편마검측.실검결과현시,당선취합괄적삼수시,대혼합편마문건적취류후,매개류여중문자부특정편마상부솔체100,가이엄범응용우수색령성.