皖西学院学报
皖西學院學報
환서학원학보
JOURNAL OF WANXI UNIVERSITY
2014年
5期
46-49
,共4页
自动问答%提取%TFIDF%平均信息熵
自動問答%提取%TFIDF%平均信息熵
자동문답%제취%TFIDF%평균신식적
question answering%keywords extraction%TFIDF%average information entropy
关键词提取是问答系统中问句分析的重要步骤,它有助于问答系统快速、准确地返回答案。针对现有文献中基于T FIDF等方法在关键词提取准确率及效率方面的不足,提出一种基于平均信息熵的中文问句关键词提取方法。通过加入专业领域词汇,并在停用词过滤的基础上计算问句中每个词的平均信息熵,以词的信息熵值直接体现该词在问句中的重要性;同时在关键词提取过程中,通过设定不同提取比例,并在不同提取比例下观察评价标准值,以最佳提取比例获取更为合适的关键词。实验结果表明,与传统的T FIDF等其他方法相比,该方法的查准率、查全率以及 F1测度值都得到显著提高。
關鍵詞提取是問答繫統中問句分析的重要步驟,它有助于問答繫統快速、準確地返迴答案。針對現有文獻中基于T FIDF等方法在關鍵詞提取準確率及效率方麵的不足,提齣一種基于平均信息熵的中文問句關鍵詞提取方法。通過加入專業領域詞彙,併在停用詞過濾的基礎上計算問句中每箇詞的平均信息熵,以詞的信息熵值直接體現該詞在問句中的重要性;同時在關鍵詞提取過程中,通過設定不同提取比例,併在不同提取比例下觀察評價標準值,以最佳提取比例穫取更為閤適的關鍵詞。實驗結果錶明,與傳統的T FIDF等其他方法相比,該方法的查準率、查全率以及 F1測度值都得到顯著提高。
관건사제취시문답계통중문구분석적중요보취,타유조우문답계통쾌속、준학지반회답안。침대현유문헌중기우T FIDF등방법재관건사제취준학솔급효솔방면적불족,제출일충기우평균신식적적중문문구관건사제취방법。통과가입전업영역사회,병재정용사과려적기출상계산문구중매개사적평균신식적,이사적신식적치직접체현해사재문구중적중요성;동시재관건사제취과정중,통과설정불동제취비례,병재불동제취비례하관찰평개표준치,이최가제취비례획취경위합괄적관건사。실험결과표명,여전통적T FIDF등기타방법상비,해방법적사준솔、사전솔이급 F1측도치도득도현저제고。
Keywords extraction is the important foundation of question analysis in question answering system .Aiming at the shortcomings of the existing methods of keyword extraction ,a method of extraction keywords in Chinese questions based on average information entropy is proposed . By calculating the average information entropy of each word in a question , the importance of the word in question can be better reflected .The experimental results show that ,compared with the traditional T FIDF method ,the precision ,recall and F1 measure values of this method have been significantly improved .