计算机技术与发展
計算機技術與髮展
계산궤기술여발전
COMPUTER TECHNOLOGY AND DEVELOPMENT
2014年
1期
204-207
,共4页
绿色网络%自动机%提取信息%不良内容PDF%过滤
綠色網絡%自動機%提取信息%不良內容PDF%過濾
록색망락%자동궤%제취신식%불량내용PDF%과려
green network%automata%extracting information%undesirable PDF%filter
随着信息技术迅猛发展,很多不良信息与文化通过PDF文档传播,而传统的提取PDF内容的方法无法适应绿色网络提供优质内容并过滤不良PDF的社会需求。文中提出通过建立层次关键字自动机快速提取PDF内容并过滤不良PDF内容的方法。在提取准确性基本相同的情况下,文中方法提升了绿色网络系统提取PDF文档的速度,所用的时间仅为PDFBox方法的16%~36%,并能提供更好地过滤不良PDF的服务。
隨著信息技術迅猛髮展,很多不良信息與文化通過PDF文檔傳播,而傳統的提取PDF內容的方法無法適應綠色網絡提供優質內容併過濾不良PDF的社會需求。文中提齣通過建立層次關鍵字自動機快速提取PDF內容併過濾不良PDF內容的方法。在提取準確性基本相同的情況下,文中方法提升瞭綠色網絡繫統提取PDF文檔的速度,所用的時間僅為PDFBox方法的16%~36%,併能提供更好地過濾不良PDF的服務。
수착신식기술신맹발전,흔다불량신식여문화통과PDF문당전파,이전통적제취PDF내용적방법무법괄응록색망락제공우질내용병과려불량PDF적사회수구。문중제출통과건립층차관건자자동궤쾌속제취PDF내용병과려불량PDF내용적방법。재제취준학성기본상동적정황하,문중방법제승료록색망락계통제취PDF문당적속도,소용적시간부위PDFBox방법적16%~36%,병능제공경호지과려불량PDF적복무。
With the rapid growth of Internet,a lot of unhealthy information and culture spread through the PDF file,traditional PDF ex-traction algorithm cannot adapt to the requirement of green network to provide quality content and filter undesirable PDF. A new method that extracts PDF content and filters undesirable PDF through establishing keyword automata is proposed. With the approximately equal extraction accuracy,the new method can enhance the speed of the green network system to extract the PDF document,the extraction time is only 16% to 36% of PDFBox,and provide better service to filter undesirable PDF file.