计算机科学
計算機科學
계산궤과학
COMPUTER SCIENCE
2015年
5期
62-66
,共5页
词性标注%词义消歧%标签影响因子%位置影响因子%权重修正
詞性標註%詞義消歧%標籤影響因子%位置影響因子%權重脩正
사성표주%사의소기%표첨영향인자%위치영향인자%권중수정
Speech tagging%Word sense disambiguation%Label impact factor%Location impact factor%Adjusted weights
网页主题挖掘对自然语言处理如网页文本分类、文摘自动生成、信息融合等具有重要意义.挖掘网页主题可以帮助用户更好地理解网页内容.尽管已有一些从普通文本中挖掘概念的工作,但其很少考虑单词所属标签和位置对单词权重的影响,且没有工作给出上述两种影响因子的计算方法.借助WordNet,将网页主题从词语扩展到概念层次,提出了使用词性标注和词义消歧确定网页中单词词义并充分利用标签影响因子和位置影响因子对网页正文文本特征进行权重修正的主题概念挖掘方法,给出了两种影响因子的计算公式.在DMOZ数据集上的实验结果表明,修正权重可以明显提高主题挖掘精度,最高可达到0.95.
網頁主題挖掘對自然語言處理如網頁文本分類、文摘自動生成、信息融閤等具有重要意義.挖掘網頁主題可以幫助用戶更好地理解網頁內容.儘管已有一些從普通文本中挖掘概唸的工作,但其很少攷慮單詞所屬標籤和位置對單詞權重的影響,且沒有工作給齣上述兩種影響因子的計算方法.藉助WordNet,將網頁主題從詞語擴展到概唸層次,提齣瞭使用詞性標註和詞義消歧確定網頁中單詞詞義併充分利用標籤影響因子和位置影響因子對網頁正文文本特徵進行權重脩正的主題概唸挖掘方法,給齣瞭兩種影響因子的計算公式.在DMOZ數據集上的實驗結果錶明,脩正權重可以明顯提高主題挖掘精度,最高可達到0.95.
망혈주제알굴대자연어언처리여망혈문본분류、문적자동생성、신식융합등구유중요의의.알굴망혈주제가이방조용호경호지리해망혈내용.진관이유일사종보통문본중알굴개념적공작,단기흔소고필단사소속표첨화위치대단사권중적영향,차몰유공작급출상술량충영향인자적계산방법.차조WordNet,장망혈주제종사어확전도개념층차,제출료사용사성표주화사의소기학정망혈중단사사의병충분이용표첨영향인자화위치영향인자대망혈정문문본특정진행권중수정적주제개념알굴방법,급출료량충영향인자적계산공식.재DMOZ수거집상적실험결과표명,수정권중가이명현제고주제알굴정도,최고가체도0.95.