应用科技
應用科技
응용과기
Applied Science and Technology
2015年
5期
51-54,60
,共5页
王素红%宁慧%杨松%徐丽
王素紅%寧慧%楊鬆%徐麗
왕소홍%저혜%양송%서려
抄袭检测%支持向量机%信息检索%特征提取
抄襲檢測%支持嚮量機%信息檢索%特徵提取
초습검측%지지향량궤%신식검색%특정제취
plagiarism detection%support vector machine%information retrieval%feature extraction
针对抄袭检测,本研究提出了基于信息检索和支持向量机( SVM)的检测方法,其对应的子任务就是备选文档检索和基于SVM的详细比对. 首先,用信息检索系统从参考文档集中检索出与可疑文档对应的源文档,组成备选文档集.然后,对于可疑文档和备选文档组成的文本对<可疑文档,备选文档>进行特征提取,将得到的特征值写成向量的形式,用这些特征向量训练支持向量机分类器. 最后,将从测试集中提取的特征向量投入到分类器中进行分类,从而预测可疑文档是否包含抄袭. 实验表明,提出的研究方法能对文档进行有效的抄袭检测,并取得了较好的效果,精确率和召回率有了相应的提升.
針對抄襲檢測,本研究提齣瞭基于信息檢索和支持嚮量機( SVM)的檢測方法,其對應的子任務就是備選文檔檢索和基于SVM的詳細比對. 首先,用信息檢索繫統從參攷文檔集中檢索齣與可疑文檔對應的源文檔,組成備選文檔集.然後,對于可疑文檔和備選文檔組成的文本對<可疑文檔,備選文檔>進行特徵提取,將得到的特徵值寫成嚮量的形式,用這些特徵嚮量訓練支持嚮量機分類器. 最後,將從測試集中提取的特徵嚮量投入到分類器中進行分類,從而預測可疑文檔是否包含抄襲. 實驗錶明,提齣的研究方法能對文檔進行有效的抄襲檢測,併取得瞭較好的效果,精確率和召迴率有瞭相應的提升.
침대초습검측,본연구제출료기우신식검색화지지향량궤( SVM)적검측방법,기대응적자임무취시비선문당검색화기우SVM적상세비대. 수선,용신식검색계통종삼고문당집중검색출여가의문당대응적원문당,조성비선문당집.연후,대우가의문당화비선문당조성적문본대<가의문당,비선문당>진행특정제취,장득도적특정치사성향량적형식,용저사특정향량훈련지지향량궤분류기. 최후,장종측시집중제취적특정향량투입도분류기중진행분류,종이예측가의문당시부포함초습. 실험표명,제출적연구방법능대문당진행유효적초습검측,병취득료교호적효과,정학솔화소회솔유료상응적제승.
For plagiarism detection, this paper proposes a plagiarism detection method based on information retrieval and support vector machines ( SVMs) , and its corresponding subtasks are candidate document retrieval and plagia-rism analysis based on SVMs. First, the information retrieval is used to search source document corresponding to suspicious documents from the reference document set to compose the candidate document set. Then, for document pairs<suspicious passage, candidate subdocument>, features are extracted and expressed into vector which using to train classifier of the support vector machine. At last, feature vectors drawn from test corpus are put into the classifi-er for classification, so as to predict whether suspicious passages are plagiarized or non-plagiarized. Experiment re-sults show that the proposed research method can effectively detect whether the document is plagiarized, and the re-sult is satisfactory. The precision and recall are raised to a certain extent.