计算机工程与科学
計算機工程與科學
계산궤공정여과학
COMPUTER ENGINEERING & SCIENCE
2010年
1期
136-140
,共5页
信息检索%统计语言模型%N-gram%SLM-IR%平滑技术
信息檢索%統計語言模型%N-gram%SLM-IR%平滑技術
신식검색%통계어언모형%N-gram%SLM-IR%평활기술
information retrieval%statistical language model%N-gram%SLM-IR%smoothing technique
为适应中文问答系统中汉语语言的特点,本文对信息检索模块进行了深入分析,相对于传统的主流信息检索模型,找到了一种更有效的检索方法--基于SLM的语言模型的信息检索技术(SLM-IR).同时,研究了N-gram模型的参数N选取及其几种主要的数据平滑技术,并通过对各种数据平滑方法的实验对比,讨论了影响这些数据平滑方法性能的有关因素,如训练集规模等,最终给出了在不同情况下的最优选择方案.
為適應中文問答繫統中漢語語言的特點,本文對信息檢索模塊進行瞭深入分析,相對于傳統的主流信息檢索模型,找到瞭一種更有效的檢索方法--基于SLM的語言模型的信息檢索技術(SLM-IR).同時,研究瞭N-gram模型的參數N選取及其幾種主要的數據平滑技術,併通過對各種數據平滑方法的實驗對比,討論瞭影響這些數據平滑方法性能的有關因素,如訓練集規模等,最終給齣瞭在不同情況下的最優選擇方案.
위괄응중문문답계통중한어어언적특점,본문대신식검색모괴진행료심입분석,상대우전통적주류신식검색모형,조도료일충경유효적검색방법--기우SLM적어언모형적신식검색기술(SLM-IR).동시,연구료N-gram모형적삼수N선취급기궤충주요적수거평활기술,병통과대각충수거평활방법적실험대비,토론료영향저사수거평활방법성능적유관인소,여훈련집규모등,최종급출료재불동정황하적최우선택방안.
In order to fit in with the Chinese language characteristics in the QA systems, this paper thoroughly analyzes the information retrieval model. After analyzing and comparing the traditional main IR models, we get a more efficiency IR method, which is SLM-IR (an information retrieval method based on statistical language modeling). In addition, we study the best order number N in N-gram and its main data smoothing techniques, compare them by test results, and discusse the relevant factors which affect the data smoothing method, such as the scale of training. Finally, the best smoothing tech-niques in different conditions are given.