小型微型计算机系统
小型微型計算機繫統
소형미형계산궤계통
MINI-MICRO SYSTEMS
2011年
5期
983-988
,共6页
张祖平%徐昕%龙军%袁鑫攀
張祖平%徐昕%龍軍%袁鑫攀
장조평%서흔%룡군%원흠반
文本相似性度量%算法%邻接词组%参数相关性分析%召回率
文本相似性度量%算法%鄰接詞組%參數相關性分析%召迴率
문본상사성도량%산법%린접사조%삼수상관성분석%소회솔
针对文本相似性度量中的相似度阈值、准确率、召回率、shingle滑动窗口大小、shingle权重系数和文本属性等参数相互影响、关系复杂的问题,研究了这些参数之间的相关性,并结合实际应用需求,提出各参数可优化配置的建议,分析与设计了相似度阈值可适应文本篇幅属性的相似性度量算法.通过某基金2009年的7378个项目申请书的比对分析,结果表明:提出的算法不但适用于大规模的文本集合,而且在短小的文本集合中进行相似性度量也具有很高的应用价值,其准确率和召回率均可高达95%以上.
針對文本相似性度量中的相似度閾值、準確率、召迴率、shingle滑動窗口大小、shingle權重繫數和文本屬性等參數相互影響、關繫複雜的問題,研究瞭這些參數之間的相關性,併結閤實際應用需求,提齣各參數可優化配置的建議,分析與設計瞭相似度閾值可適應文本篇幅屬性的相似性度量算法.通過某基金2009年的7378箇項目申請書的比對分析,結果錶明:提齣的算法不但適用于大規模的文本集閤,而且在短小的文本集閤中進行相似性度量也具有很高的應用價值,其準確率和召迴率均可高達95%以上.
침대문본상사성도량중적상사도역치、준학솔、소회솔、shingle활동창구대소、shingle권중계수화문본속성등삼수상호영향、관계복잡적문제,연구료저사삼수지간적상관성,병결합실제응용수구,제출각삼수가우화배치적건의,분석여설계료상사도역치가괄응문본편폭속성적상사성도량산법.통과모기금2009년적7378개항목신청서적비대분석,결과표명:제출적산법불단괄용우대규모적문본집합,이차재단소적문본집합중진행상사성도량야구유흔고적응용개치,기준학솔화소회솔균가고체95%이상.