科技信息(科学·教研)
科技信息(科學·教研)
과기신식(과학·교연)
SCIENCE INFORMATION
2008年
18期
49-50
,共2页
搜索引擎%提取%上下文%语料
搜索引擎%提取%上下文%語料
수색인경%제취%상하문%어료
关键字的上下文环境是自然语言处理的基础知识,其自动抽取是很多研究的基础和关键.本文主要研究了从百度搜索页面中提取出搜索关键字的文本信息,并将这些文本信息进行分词处理,最后基于去重算法将词语上下文去重的方法.算法的关键过程包括关键字的环境提取、文本分词和提取到的信息的入库三部分.
關鍵字的上下文環境是自然語言處理的基礎知識,其自動抽取是很多研究的基礎和關鍵.本文主要研究瞭從百度搜索頁麵中提取齣搜索關鍵字的文本信息,併將這些文本信息進行分詞處理,最後基于去重算法將詞語上下文去重的方法.算法的關鍵過程包括關鍵字的環境提取、文本分詞和提取到的信息的入庫三部分.
관건자적상하문배경시자연어언처리적기출지식,기자동추취시흔다연구적기출화관건.본문주요연구료종백도수색혈면중제취출수색관건자적문본신식,병장저사문본신식진행분사처리,최후기우거중산법장사어상하문거중적방법.산법적관건과정포괄관건자적배경제취、문본분사화제취도적신식적입고삼부분.