杭州电子科技大学学报
杭州電子科技大學學報
항주전자과기대학학보
JOURNAL OF HANGZHOU DIANZI UNIVERSITY
2015年
1期
84-87
,共4页
信息检索%PageRank算法%DocumentRank算法%链接结构
信息檢索%PageRank算法%DocumentRank算法%鏈接結構
신식검색%PageRank산법%DocumentRank산법%련접결구
information retrieval%PageRank algorithm%DocumentRank algorithm%link structure
大数据时代的到来,数据格式呈现多样化,对Web数据的处理不仅仅局限在网页链接上,还需要处理无链接结构的文档。如何从海量的文档中获取所需的信息是搜索引擎亟待解决的问题,目前传统的根据索引分析并不能满足这一需求。为了从数百万个结果中选取价值最高的文档子集,提出了新的DocumentRank算法,通过构建衡量文档重要性矩阵来计算查询相关度得分对文档进行排序。最后通过对互联网文档数据集搜索的实验说明,DocumentRank 算法相比Lucene索引技术提高了文档检索的精确度和综合相关度。
大數據時代的到來,數據格式呈現多樣化,對Web數據的處理不僅僅跼限在網頁鏈接上,還需要處理無鏈接結構的文檔。如何從海量的文檔中穫取所需的信息是搜索引擎亟待解決的問題,目前傳統的根據索引分析併不能滿足這一需求。為瞭從數百萬箇結果中選取價值最高的文檔子集,提齣瞭新的DocumentRank算法,通過構建衡量文檔重要性矩陣來計算查詢相關度得分對文檔進行排序。最後通過對互聯網文檔數據集搜索的實驗說明,DocumentRank 算法相比Lucene索引技術提高瞭文檔檢索的精確度和綜閤相關度。
대수거시대적도래,수거격식정현다양화,대Web수거적처리불부부국한재망혈련접상,환수요처리무련접결구적문당。여하종해량적문당중획취소수적신식시수색인경극대해결적문제,목전전통적근거색인분석병불능만족저일수구。위료종수백만개결과중선취개치최고적문당자집,제출료신적DocumentRank산법,통과구건형량문당중요성구진래계산사순상관도득분대문당진행배서。최후통과대호련망문당수거집수색적실험설명,DocumentRank 산법상비Lucene색인기술제고료문당검색적정학도화종합상관도。
The arrival of the era of big data , data formats diversified , data processing is not limited with Web page link, and sometimes need to deal with non-link structure of the document, such as Word documents, PDF documents etc .How to obtain the required information from the mass of documents is a problem that search engine need to solve , but the traditional analysis based on an index can not meet this demand .In order to select a subset of the most valuable documents from millions of results , proposes a new DocumentRank algorithm , by constructing a matrix to calculate the document importance scores for relevant documents to be sorted .Finally , the experiments on the search of the internet document data sets show that , compared to the Lucene indexing technology , DocumentRank algorithm improve the accuracy of document retrieval and integration-related degrees .