江苏科技大学学报(自然科学版)
江囌科技大學學報(自然科學版)
강소과기대학학보(자연과학판)
JOURNAL OF JIANGSU UNIVERSITY OF SCIENCE AND TECHNOLOGY(NATURAL SCIENCE EDITION)
2010年
6期
596-599
,共4页
网页%文本%格式控制符%分离
網頁%文本%格式控製符%分離
망혈%문본%격식공제부%분리
文本是Web上最主要的知识源,但现有的采用html表示的Web页面把文本内容和格式控制符混杂在一起,阻碍了知识获取的进程.文中提出了一种面向Web网页的分离文本与格式控制符的方法,通过对html文件的解析,过滤所有的格式控制符,得到一个页面内容的纯文本文件.该方法具有普适性,与文本的语言和领域无关,并可用于Web知识获取的预处理.
文本是Web上最主要的知識源,但現有的採用html錶示的Web頁麵把文本內容和格式控製符混雜在一起,阻礙瞭知識穫取的進程.文中提齣瞭一種麵嚮Web網頁的分離文本與格式控製符的方法,通過對html文件的解析,過濾所有的格式控製符,得到一箇頁麵內容的純文本文件.該方法具有普適性,與文本的語言和領域無關,併可用于Web知識穫取的預處理.
문본시Web상최주요적지식원,단현유적채용html표시적Web혈면파문본내용화격식공제부혼잡재일기,조애료지식획취적진정.문중제출료일충면향Web망혈적분리문본여격식공제부적방법,통과대html문건적해석,과려소유적격식공제부,득도일개혈면내용적순문본문건.해방법구유보괄성,여문본적어언화영역무관,병가용우Web지식획취적예처리.