计算机科学与探索
計算機科學與探索
계산궤과학여탐색
JOURNAL OF FRONTIERS OF COMPUTER SCIENCE & TECHNOLOGY
2014年
8期
919-932
,共14页
顾彦慧%赵斌%周俊生%曲维光
顧彥慧%趙斌%週俊生%麯維光
고언혜%조빈%주준생%곡유광
语义相似%top-k%排序融合
語義相似%top-k%排序融閤
어의상사%top-k%배서융합
semantic similarity%top-k%rank aggregation
如何快速有效地抽取相似短文本是许多应用系统的重要研究问题。在大数据情况下,效率问题对于实际系统非常重要,而现有的短文本抽取策略不能满足用户对性能的要求。以相似短文本的抽取为研究对象,针对传统研究中的效率问题,对如何从给定的短文本集合中快速检索出top-k个近似短文本进行了研究,并基于一个有效的基本框架提出了一种快速策略,用于满足用户对效率的要求。实验结果证明了该策略在保证有效性不变的情况下,大幅度提高了抽取效率,并且在效率上优于现有方法。
如何快速有效地抽取相似短文本是許多應用繫統的重要研究問題。在大數據情況下,效率問題對于實際繫統非常重要,而現有的短文本抽取策略不能滿足用戶對性能的要求。以相似短文本的抽取為研究對象,針對傳統研究中的效率問題,對如何從給定的短文本集閤中快速檢索齣top-k箇近似短文本進行瞭研究,併基于一箇有效的基本框架提齣瞭一種快速策略,用于滿足用戶對效率的要求。實驗結果證明瞭該策略在保證有效性不變的情況下,大幅度提高瞭抽取效率,併且在效率上優于現有方法。
여하쾌속유효지추취상사단문본시허다응용계통적중요연구문제。재대수거정황하,효솔문제대우실제계통비상중요,이현유적단문본추취책략불능만족용호대성능적요구。이상사단문본적추취위연구대상,침대전통연구중적효솔문제,대여하종급정적단문본집합중쾌속검색출top-k개근사단문본진행료연구,병기우일개유효적기본광가제출료일충쾌속책략,용우만족용호대효솔적요구。실험결과증명료해책략재보증유효성불변적정황하,대폭도제고료추취효솔,병차재효솔상우우현유방법。
Extracting similar short texts efficiently is an essential research issue for many applications. However, most of the existing strategies focus on the effectiveness aspect. The existing state-of-the-art strategies cannot satisfy the users’performance requirement while efficiency issue is important especially for current big data applications. This paper addresses the efficiency issue of extracting similar short texts, i.e., how to efficiently get the top-k semantic similar short texts to a query for a give sentence collection. This paper also proposes an efficient strategy to tackle the performance problems based on a basic framework. Extensive experimental evaluations demonstrate that the pro-posed strategy improves the extraction efficiency while keeping the effectiveness, and is better than the existing strategies in efficiency.