计算机应用
計算機應用
계산궤응용
COMPUTER APPLICATION
2012年
9期
2491-2495
,共5页
王晓娟%谭建龙%刘燕兵%刘金刚
王曉娟%譚建龍%劉燕兵%劉金剛
왕효연%담건룡%류연병%류금강
文本内容抽取%自动机%确定的有穷自动机%不完整文档
文本內容抽取%自動機%確定的有窮自動機%不完整文檔
문본내용추취%자동궤%학정적유궁자동궤%불완정문당
现有的从PDF文档抽取文本内容的方法(如PDFBox类库采用的方法)处理速度较低,无法满足高速网络中内容分析的需求,也不能对网络中部分到达的PDF数据包进行流式的处理.为此,提出了基于自动机理论的PDF文本内容抽取方法.该方法通过建立具有层次的关键字自动机,可以快速地抽取完整PDF文档和不完整PDF文档中的文本内容.在中文和英文PDF文档数据集下的实验结果表明,基于自动机理论的PDF文本内容抽取方法耗时仅为PDFBox方法的17% ~37%.
現有的從PDF文檔抽取文本內容的方法(如PDFBox類庫採用的方法)處理速度較低,無法滿足高速網絡中內容分析的需求,也不能對網絡中部分到達的PDF數據包進行流式的處理.為此,提齣瞭基于自動機理論的PDF文本內容抽取方法.該方法通過建立具有層次的關鍵字自動機,可以快速地抽取完整PDF文檔和不完整PDF文檔中的文本內容.在中文和英文PDF文檔數據集下的實驗結果錶明,基于自動機理論的PDF文本內容抽取方法耗時僅為PDFBox方法的17% ~37%.
현유적종PDF문당추취문본내용적방법(여PDFBox류고채용적방법)처리속도교저,무법만족고속망락중내용분석적수구,야불능대망락중부분도체적PDF수거포진행류식적처리.위차,제출료기우자동궤이론적PDF문본내용추취방법.해방법통과건립구유층차적관건자자동궤,가이쾌속지추취완정PDF문당화불완정PDF문당중적문본내용.재중문화영문PDF문당수거집하적실험결과표명,기우자동궤이론적PDF문본내용추취방법모시부위PDFBox방법적17% ~37%.