计算机应用与软件
計算機應用與軟件
계산궤응용여연건
COMPUTER APPLICATIONS AND SOFTWARE
2012年
1期
42-45
,共4页
梁建飞%吐尔根·依布拉音%田生伟%赛依旦·阿不力米提
樑建飛%吐爾根·依佈拉音%田生偉%賽依旦·阿不力米提
량건비%토이근·의포랍음%전생위%새의단·아불력미제
有主题网页%主题信息%噪音信息
有主題網頁%主題信息%譟音信息
유주제망혈%주제신식%조음신식
为了获得大量用于机器翻译研究的汉维(维吾尔)文语料,提出一种从网页中自动获取主题信息的方法.考虑到有主题网页中主题信息分布相对集中、文本密度较高,并且这类网页中大量的噪音信息是由链接引入的,提出的算法首先将链接分为噪音链接和非噪音链接,并在源码中删除噪音链接的锚文本和非噪音链接的HTML标签,然后利用容器标签将源码划分为若干部分并删除文本长度和文本密度均小于各自阚值的源码块.针对汉维网页做了实验,实验结果表明,算法在设置合适的阈值的情况下良好率达到90%以上.
為瞭穫得大量用于機器翻譯研究的漢維(維吾爾)文語料,提齣一種從網頁中自動穫取主題信息的方法.攷慮到有主題網頁中主題信息分佈相對集中、文本密度較高,併且這類網頁中大量的譟音信息是由鏈接引入的,提齣的算法首先將鏈接分為譟音鏈接和非譟音鏈接,併在源碼中刪除譟音鏈接的錨文本和非譟音鏈接的HTML標籤,然後利用容器標籤將源碼劃分為若榦部分併刪除文本長度和文本密度均小于各自闞值的源碼塊.針對漢維網頁做瞭實驗,實驗結果錶明,算法在設置閤適的閾值的情況下良好率達到90%以上.
위료획득대량용우궤기번역연구적한유(유오이)문어료,제출일충종망혈중자동획취주제신식적방법.고필도유주제망혈중주제신식분포상대집중、문본밀도교고,병차저류망혈중대량적조음신식시유련접인입적,제출적산법수선장련접분위조음련접화비조음련접,병재원마중산제조음련접적묘문본화비조음련접적HTML표첨,연후이용용기표첨장원마화분위약간부분병산제문본장도화문본밀도균소우각자감치적원마괴.침대한유망혈주료실험,실험결과표명,산법재설치합괄적역치적정황하량호솔체도90%이상.