文教资料
文教資料
문교자료
DATA OF CULTURE AND EDUCATION
2014年
31期
120-124
,共5页
TF-IDF算法%文本相似度%梦里花落知多少%圈里圈外
TF-IDF算法%文本相似度%夢裏花落知多少%圈裏圈外
TF-IDF산법%문본상사도%몽리화락지다소%권리권외
TF-IDF算法在文本相似性的度量中有着广泛地应用,但也存在着明显的缺陷。本文运用一种综合考虑词频、逆向文本频率、类间信息熵和类内信息熵四个方面的改进的TF-IDF算法计算了郭敬明的《梦里花落知多少》和庄羽的《圈里圈外》的相似性,从定量的角度判定了前者的确抄袭了后者。
TF-IDF算法在文本相似性的度量中有著廣汎地應用,但也存在著明顯的缺陷。本文運用一種綜閤攷慮詞頻、逆嚮文本頻率、類間信息熵和類內信息熵四箇方麵的改進的TF-IDF算法計算瞭郭敬明的《夢裏花落知多少》和莊羽的《圈裏圈外》的相似性,從定量的角度判定瞭前者的確抄襲瞭後者。
TF-IDF산법재문본상사성적도량중유착엄범지응용,단야존재착명현적결함。본문운용일충종합고필사빈、역향문본빈솔、류간신식적화류내신식적사개방면적개진적TF-IDF산법계산료곽경명적《몽리화락지다소》화장우적《권리권외》적상사성,종정량적각도판정료전자적학초습료후자。