CAJ | 학술논문

간체로 보기 번체로 보기

一种Web文本的自动提取方法
일충Web문본적자동제취방법
Method for automatic acquisition of text from web pages

万方数据

江苏科技大学学报（自然科学版） 강소과기대학학보（자연과학판）
JOURNAL OF JIANGSU UNIVERSITY OF SCIENCE AND TECHNOLOGY(NATURAL SCIENCE EDITION)
2010年 6期 596-599 ,共4页

印国成%孙茂圣印國成%孫茂聖

인국성%손무골

网页%文本%格式控制符%分离網頁%文本%格式控製符%分離
망혈%문본%격식공제부%분리

文本是Web上最主要的知识源,但现有的采用html表示的Web页面把文本内容和格式控制符混杂在一起,阻碍了知识获取的进程.文中提出了一种面向Web网页的分离文本与格式控制符的方法,通过对html文件的解析,过滤所有的格式控制符,得到一个页面内容的纯文本文件.该方法具有普适性,与文本的语言和领域无关,并可用于Web知识获取的预处理.
문본시Web상최주요적지식원,단현유적채용html표시적Web혈면파문본내용화격식공제부혼잡재일기,조애료지식획취적진정.문중제출료일충면향Web망혈적분리문본여격식공제부적방법,통과대html문건적해석,과려소유적격식공제부,득도일개혈면내용적순문본문건.해방법구유보괄성,여문본적어언화영역무관,병가용우Web지식획취적예처리.