计算机应用
計算機應用
계산궤응용
COMPUTER APPLICATION
2010年
6期
1661-1663,1670
,共4页
转载识别%聚团词%特征选择%扩展线性比较%向量空间模型
轉載識彆%聚糰詞%特徵選擇%擴展線性比較%嚮量空間模型
전재식별%취단사%특정선택%확전선성비교%향량공간모형
文本转载识别是指从大规模文本库中检测出内容相同或相近的文档集合,在热门话题检测、搜索引擎结果凝练、学术文章抄袭识别等诸多应用上,存在普遍的需求.为适应网络文本转载形式的日趋多样化,并进一步提升实用系统效率,对各种文本特征及比较算法进行了研究分析,提出了基于聚团词的大规模文本转载识别算法,即:依据词语的分布属性,识别并提取高得分聚团词用于表征文本,之后通过对文本集进行扩展线性比较与多维比较两次操作,最终筛选出转载识别结果.对比实验表明:该算法在准确率、召回率与效率上有较高的综合性能.
文本轉載識彆是指從大規模文本庫中檢測齣內容相同或相近的文檔集閤,在熱門話題檢測、搜索引擎結果凝練、學術文章抄襲識彆等諸多應用上,存在普遍的需求.為適應網絡文本轉載形式的日趨多樣化,併進一步提升實用繫統效率,對各種文本特徵及比較算法進行瞭研究分析,提齣瞭基于聚糰詞的大規模文本轉載識彆算法,即:依據詞語的分佈屬性,識彆併提取高得分聚糰詞用于錶徵文本,之後通過對文本集進行擴展線性比較與多維比較兩次操作,最終篩選齣轉載識彆結果.對比實驗錶明:該算法在準確率、召迴率與效率上有較高的綜閤性能.
문본전재식별시지종대규모문본고중검측출내용상동혹상근적문당집합,재열문화제검측、수색인경결과응련、학술문장초습식별등제다응용상,존재보편적수구.위괄응망락문본전재형식적일추다양화,병진일보제승실용계통효솔,대각충문본특정급비교산법진행료연구분석,제출료기우취단사적대규모문본전재식별산법,즉:의거사어적분포속성,식별병제취고득분취단사용우표정문본,지후통과대문본집진행확전선성비교여다유비교량차조작,최종사선출전재식별결과.대비실험표명:해산법재준학솔、소회솔여효솔상유교고적종합성능.