计算机工程与设计
計算機工程與設計
계산궤공정여설계
COMPUTER ENGINEERING AND DESIGN
2010年
7期
1635-1638
,共4页
可移植文档格式%阅读器%文件解析%图像提取%信息处理
可移植文檔格式%閱讀器%文件解析%圖像提取%信息處理
가이식문당격식%열독기%문건해석%도상제취%신식처리
PDF%reader%file parse%image extraction%information processing
为有效提取PDF(portable document format)文件中的文字、图片、图形信息,提出了包含文件预处理、显示预处理、功能扩展、显示4个单元的PDF阅读器的实现模型.基于PDF文件结构特点,提出了忽略次要信息定位关键位置的解析思路.在此基础上,针对FlatcDecode、DCTDecode和CCITTFFaxDecode这3种过滤器处理的数据流,给出了详细的解决方案,然后对PDF页面内容进行两次解析,设计相应的文字图形等数据结构保存结果,最后对数据利用和功能扩展进行了讨论.通过实验结果表明,该模型能较好地实现PDF信息提取和显示,有利于PDF在中文信息处理领域中的进一步开发利用.
為有效提取PDF(portable document format)文件中的文字、圖片、圖形信息,提齣瞭包含文件預處理、顯示預處理、功能擴展、顯示4箇單元的PDF閱讀器的實現模型.基于PDF文件結構特點,提齣瞭忽略次要信息定位關鍵位置的解析思路.在此基礎上,針對FlatcDecode、DCTDecode和CCITTFFaxDecode這3種過濾器處理的數據流,給齣瞭詳細的解決方案,然後對PDF頁麵內容進行兩次解析,設計相應的文字圖形等數據結構保存結果,最後對數據利用和功能擴展進行瞭討論.通過實驗結果錶明,該模型能較好地實現PDF信息提取和顯示,有利于PDF在中文信息處理領域中的進一步開髮利用.
위유효제취PDF(portable document format)문건중적문자、도편、도형신식,제출료포함문건예처리、현시예처리、공능확전、현시4개단원적PDF열독기적실현모형.기우PDF문건결구특점,제출료홀략차요신식정위관건위치적해석사로.재차기출상,침대FlatcDecode、DCTDecode화CCITTFFaxDecode저3충과려기처리적수거류,급출료상세적해결방안,연후대PDF혈면내용진행량차해석,설계상응적문자도형등수거결구보존결과,최후대수거이용화공능확전진행료토론.통과실험결과표명,해모형능교호지실현PDF신식제취화현시,유리우PDF재중문신식처리영역중적진일보개발이용.
To extract the text, images and graphical information from PDF file validly, an implementation model including four units (file pretreatment, display pretreatment, function extension and display) is raised. Based on the structure of PDF file, a solution of ignoring secondary message and positioning key information is put forward. On this basis, a solution to the data stream processed by FlateDecode, DCTDecode and CCITTFaxDecode filters is presented. After analyzed PDF pages twice, corresponding data structure of text and graphical are designed to record the results. At last the data utilization and function extension are discussed. The model can implement the extraction and display of information in PDF file well by experimental comparison, and it will benefit the further development of PDF in the field of Chinese information processing.