计算机技术与发展
計算機技術與髮展
계산궤기술여발전
COMPUTER TECHNOLOGY AND DEVELOPMENT
2014年
12期
61-63,68
,共4页
数据挖掘%信息抽取%PDF格式%学术论文
數據挖掘%信息抽取%PDF格式%學術論文
수거알굴%신식추취%PDF격식%학술논문
data mining%information extraction%PDF format%academic papers
为了对学术动态、热点及学术发展趋势进行研究,需要对学术研究论文进行数据挖掘研究。首先需要从海量的学术论文中提取有兴趣的信息。针对目前学术论文大多采用PDF格式的现状,重点研究了PDF文件的格式以及对PDF格式操作的各种技术,采用开源函数库PDFBox对PDF格式的学术论文按照规则进行信息的提取,提取的信息主要包括学术论文的标题、作者、单位、关键词、发表时间、摘要等信息。最后对提取信息的正确率进行了统计,有助于针对学术研究的大数据研究。
為瞭對學術動態、熱點及學術髮展趨勢進行研究,需要對學術研究論文進行數據挖掘研究。首先需要從海量的學術論文中提取有興趣的信息。針對目前學術論文大多採用PDF格式的現狀,重點研究瞭PDF文件的格式以及對PDF格式操作的各種技術,採用開源函數庫PDFBox對PDF格式的學術論文按照規則進行信息的提取,提取的信息主要包括學術論文的標題、作者、單位、關鍵詞、髮錶時間、摘要等信息。最後對提取信息的正確率進行瞭統計,有助于針對學術研究的大數據研究。
위료대학술동태、열점급학술발전추세진행연구,수요대학술연구논문진행수거알굴연구。수선수요종해량적학술논문중제취유흥취적신식。침대목전학술논문대다채용PDF격식적현상,중점연구료PDF문건적격식이급대PDF격식조작적각충기술,채용개원함수고PDFBox대PDF격식적학술논문안조규칙진행신식적제취,제취적신식주요포괄학술논문적표제、작자、단위、관건사、발표시간、적요등신식。최후대제취신식적정학솔진행료통계,유조우침대학술연구적대수거연구。
In order to research the academic dynamics,hot topic and academic development trends,need to carry out the data mining re-search for academic research papers. First of all,extract interest information from the massive papers. For the situation that the current aca-demic papers are mostly used PDF format,mainly study the format of PDF files and a variety of technical operations for PDF operations, open-source library PDFBox is used to extract information for the academic papers with PDF format in accordance with the rules,the ex-tracted information is mainly including academic titles,authors,unit,keyword,publication time,abstract and other information. Finally, the correct rate of extraction of information has been statistical,which is helpful for big data for academic research.