计算机工程
計算機工程
계산궤공정
COMPUTER ENGINEERING
2012年
22期
163-166
,共4页
中文网页关键词抽取%语义扩展模型%邻接变化数%聚类算法%n-gram语言模型
中文網頁關鍵詞抽取%語義擴展模型%鄰接變化數%聚類算法%n-gram語言模型
중문망혈관건사추취%어의확전모형%린접변화수%취류산법%n-gram어언모형
提出一种基于语义扩展模型、分步骤的无监督关键词抽取方法.选择词语的网页结构特征、词性、词长、TF-IDF值等特征,通过聚类算法抽取候选关键词.根据n-gram语言模型理论,引入邻接变化数等特征构建基于词的语义扩展模型,采用无监督方法将候选关键词扩展为关键词串.实验结果表明,该方法能有效改善针对未登录词及短语的抽取结果,提高中文网页关键词抽取结果的质量.
提齣一種基于語義擴展模型、分步驟的無鑑督關鍵詞抽取方法.選擇詞語的網頁結構特徵、詞性、詞長、TF-IDF值等特徵,通過聚類算法抽取候選關鍵詞.根據n-gram語言模型理論,引入鄰接變化數等特徵構建基于詞的語義擴展模型,採用無鑑督方法將候選關鍵詞擴展為關鍵詞串.實驗結果錶明,該方法能有效改善針對未登錄詞及短語的抽取結果,提高中文網頁關鍵詞抽取結果的質量.
제출일충기우어의확전모형、분보취적무감독관건사추취방법.선택사어적망혈결구특정、사성、사장、TF-IDF치등특정,통과취류산법추취후선관건사.근거n-gram어언모형이론,인입린접변화수등특정구건기우사적어의확전모형,채용무감독방법장후선관건사확전위관건사천.실험결과표명,해방법능유효개선침대미등록사급단어적추취결과,제고중문망혈관건사추취결과적질량.