软件学报
軟件學報
연건학보
JOURNAL OF SOFTWARE
2014年
12期
2865-2876
,共12页
张新%何苯%罗铁坚%李东星
張新%何苯%囉鐵堅%李東星
장신%하분%라철견%리동성
聚类%直推学习%Twitter检索%自适应%性能
聚類%直推學習%Twitter檢索%自適應%性能
취류%직추학습%Twitter검색%자괄응%성능
clustering%transductive learning%Twitter search%adaptive%performance
近年来,Twitter 搜索在社交网络领域引起越来越多学者的关注。尽管排序学习可以融合 Twitter 中丰富的特征,但是训练数据的匮乏,会降低排序学习的性能。直推式学习作为一种常用的半监督学习方法,在解决训练数据的稀少性中发挥着重要的作用。由于在直推式学习的迭代过程中会生成噪音,基于聚类的直推式学习方法被提出。在基于聚类的直推式学习方法中有两个重要的参数,分别为聚类的阈值以及聚类文档的数量。在原有工作的基础上,提出使用另外一种不同的聚类算法。大量在标准TREC数据集Tweets11上的实验表明,聚类的阈值以及聚类过程中文档数量的选择都会对模型的检索性能产生影响。另外,也分析了基于聚类的直推式学习模型的鲁棒性在不同查询集上的表现。最后,引入名为簇凝聚度的质量控制因子,提出了一种基于聚类的自适应的直推式方法来实现 Twitter 检索。实验结果表明,基于聚类的自适应学习算法具有更好的鲁棒性。
近年來,Twitter 搜索在社交網絡領域引起越來越多學者的關註。儘管排序學習可以融閤 Twitter 中豐富的特徵,但是訓練數據的匱乏,會降低排序學習的性能。直推式學習作為一種常用的半鑑督學習方法,在解決訓練數據的稀少性中髮揮著重要的作用。由于在直推式學習的迭代過程中會生成譟音,基于聚類的直推式學習方法被提齣。在基于聚類的直推式學習方法中有兩箇重要的參數,分彆為聚類的閾值以及聚類文檔的數量。在原有工作的基礎上,提齣使用另外一種不同的聚類算法。大量在標準TREC數據集Tweets11上的實驗錶明,聚類的閾值以及聚類過程中文檔數量的選擇都會對模型的檢索性能產生影響。另外,也分析瞭基于聚類的直推式學習模型的魯棒性在不同查詢集上的錶現。最後,引入名為簇凝聚度的質量控製因子,提齣瞭一種基于聚類的自適應的直推式方法來實現 Twitter 檢索。實驗結果錶明,基于聚類的自適應學習算法具有更好的魯棒性。
근년래,Twitter 수색재사교망락영역인기월래월다학자적관주。진관배서학습가이융합 Twitter 중봉부적특정,단시훈련수거적궤핍,회강저배서학습적성능。직추식학습작위일충상용적반감독학습방법,재해결훈련수거적희소성중발휘착중요적작용。유우재직추식학습적질대과정중회생성조음,기우취류적직추식학습방법피제출。재기우취류적직추식학습방법중유량개중요적삼수,분별위취류적역치이급취류문당적수량。재원유공작적기출상,제출사용령외일충불동적취류산법。대량재표준TREC수거집Tweets11상적실험표명,취류적역치이급취류과정중문당수량적선택도회대모형적검색성능산생영향。령외,야분석료기우취류적직추식학습모형적로봉성재불동사순집상적표현。최후,인입명위족응취도적질량공제인자,제출료일충기우취류적자괄응적직추식방법래실현 Twitter 검색。실험결과표명,기우취류적자괄응학습산법구유경호적로봉성。
Recently, Twitter search has drawn much attention of researchers in social networks. Although rich features of Twitter can be incorporated into rank learning, the retrieval effectiveness can be hurt by the lack of training data. Transductive learning, as a common semi-supervised learning method, has been playing an import role in dealing with the lacking of training data. Due to the fact that noise is generated during the iterative process of transductive learning, a clustering-based transductive method is proposed. There exist two important parameters in the clustering-based transductive approach, namely the threshold of clustering and the number of the documents that will be clustered. This paper extends the method by utilizing a different clustering algorithm. As shown by extensive experiments on the standard TREC Tweets11 collection, both of the two parameters have an effect on the retrieval effectiveness. Furthermore, the robustness of the clustering-based transduction approach on different query sets is also studied. Finally, the paper proposes an adaptive clustering-based approach by introducing a so called cluster coherence as quality controller. The experimental results show that the robustness of the proposed method is better.