软件学报
軟件學報
연건학보
JOURNAL OF SOFTWARE
2013年
9期
2089-2100
,共12页
闫兴龙%刘奕群%方奇%张敏%马少平%茹立云
閆興龍%劉奕群%方奇%張敏%馬少平%茹立雲
염흥룡%류혁군%방기%장민%마소평%여립운
领域术语自动抽取%新词发现%Web数据挖掘%用户行为分析
領域術語自動抽取%新詞髮現%Web數據挖掘%用戶行為分析
영역술어자동추취%신사발현%Web수거알굴%용호행위분석
automatic domain-specific term extraction%novel term extraction%Web data mining%user behavior analysis
领域术语是反映领域特征的词语.领域术语自动抽取是自然语言处理中的一项重要任务,可以应用在领域本体抽取、专业搜索、文本分类、类语言建模等诸多研究领域,利用互联网上大规模的特定领域语料来构建领域词典成为一项既有挑战性又有实际价值的工作.当前,领域术语提取工作所利用的网络语料主要是网页对应的正文,但是由于网页正文信息抽取所面临的难题会影响领域术语抽取的效果,那么利用网页的锚文本和查询文本替代网页正文进行领域术语抽取,则可以避免网页正文信息抽取所面临的难题.针对锚文本和查询文本所存在的文本长度过短、语义信息不足等缺点,提出一种适用于各种类型网络数据及网络用户行为数据的领域数据提取方法,并使用该方法基于提取到的网页正文数据、网页锚文本数据、用户查询信息数据、用户浏览信息数据等开展了领域术语提取工作,重点考察不同类型网络资源和用户行为信息对领域术语提取工作的效果差异.在海量规模真实网络数据上的实验结果表明,基于用户查询信息和用户浏览过的锚文本信息比基于网页正文提取技术得到的正文取得了更好的领域术语提取效果.
領域術語是反映領域特徵的詞語.領域術語自動抽取是自然語言處理中的一項重要任務,可以應用在領域本體抽取、專業搜索、文本分類、類語言建模等諸多研究領域,利用互聯網上大規模的特定領域語料來構建領域詞典成為一項既有挑戰性又有實際價值的工作.噹前,領域術語提取工作所利用的網絡語料主要是網頁對應的正文,但是由于網頁正文信息抽取所麵臨的難題會影響領域術語抽取的效果,那麽利用網頁的錨文本和查詢文本替代網頁正文進行領域術語抽取,則可以避免網頁正文信息抽取所麵臨的難題.針對錨文本和查詢文本所存在的文本長度過短、語義信息不足等缺點,提齣一種適用于各種類型網絡數據及網絡用戶行為數據的領域數據提取方法,併使用該方法基于提取到的網頁正文數據、網頁錨文本數據、用戶查詢信息數據、用戶瀏覽信息數據等開展瞭領域術語提取工作,重點攷察不同類型網絡資源和用戶行為信息對領域術語提取工作的效果差異.在海量規模真實網絡數據上的實驗結果錶明,基于用戶查詢信息和用戶瀏覽過的錨文本信息比基于網頁正文提取技術得到的正文取得瞭更好的領域術語提取效果.
영역술어시반영영역특정적사어.영역술어자동추취시자연어언처리중적일항중요임무,가이응용재영역본체추취、전업수색、문본분류、류어언건모등제다연구영역,이용호련망상대규모적특정영역어료래구건영역사전성위일항기유도전성우유실제개치적공작.당전,영역술어제취공작소이용적망락어료주요시망혈대응적정문,단시유우망혈정문신식추취소면림적난제회영향영역술어추취적효과,나요이용망혈적묘문본화사순문본체대망혈정문진행영역술어추취,칙가이피면망혈정문신식추취소면림적난제.침대묘문본화사순문본소존재적문본장도과단、어의신식불족등결점,제출일충괄용우각충류형망락수거급망락용호행위수거적영역수거제취방법,병사용해방법기우제취도적망혈정문수거、망혈묘문본수거、용호사순신식수거、용호류람신식수거등개전료영역술어제취공작,중점고찰불동류형망락자원화용호행위신식대영역술어제취공작적효과차이.재해량규모진실망락수거상적실험결과표명,기우용호사순신식화용호류람과적묘문본신식비기우망혈정문제취기술득도적정문취득료경호적영역술어제취효과.