科学学研究
科學學研究
과학학연구
STUDIES IN SCIENCE OF SCIENCE
2013年
11期
1615-1622
,共8页
张嶷%汪雪锋%朱东华%周潇
張嶷%汪雪鋒%硃東華%週瀟
장억%왕설봉%주동화%주소
文本分析%文献计量学%文本挖掘%主题词簇%光伏电池
文本分析%文獻計量學%文本挖掘%主題詞簇%光伏電池
문본분석%문헌계량학%문본알굴%주제사족%광복전지
text analysis%bibliometrics%text Mining%term clumping%photovoltaic cell
如何从科技文献数据中获取有效的信息,提升知识发现的能力是当前科学学研究中甚为关注的热点问题.大量相关的分析技术与方法均围绕自然语言处理技术所获取的“主题词”展开.然而,一般情况下,从科技文献数据中获取的主题词数量庞大,人工清洗几无可能,软件清洗亦缺乏可信度.本文以文献计量学方法为基础,构建了包括停词表、模糊语义处理、关联规则、词频与文档频次转换以及聚类分析在内的半自动化“主题词簇”方法体系,实现了以定量方法为主、定性方法为辅的主题词清洗、合并与聚类方案,旨在为技术竞争情报分析提供更为精准的主题词词表.本文以Derwent专利数据库中国“光伏电池”领域的科技文献为例,展开实证研究,验证了方法的科学性与有效性.
如何從科技文獻數據中穫取有效的信息,提升知識髮現的能力是噹前科學學研究中甚為關註的熱點問題.大量相關的分析技術與方法均圍繞自然語言處理技術所穫取的“主題詞”展開.然而,一般情況下,從科技文獻數據中穫取的主題詞數量龐大,人工清洗幾無可能,軟件清洗亦缺乏可信度.本文以文獻計量學方法為基礎,構建瞭包括停詞錶、模糊語義處理、關聯規則、詞頻與文檔頻次轉換以及聚類分析在內的半自動化“主題詞簇”方法體繫,實現瞭以定量方法為主、定性方法為輔的主題詞清洗、閤併與聚類方案,旨在為技術競爭情報分析提供更為精準的主題詞詞錶.本文以Derwent專利數據庫中國“光伏電池”領域的科技文獻為例,展開實證研究,驗證瞭方法的科學性與有效性.
여하종과기문헌수거중획취유효적신식,제승지식발현적능력시당전과학학연구중심위관주적열점문제.대량상관적분석기술여방법균위요자연어언처리기술소획취적“주제사”전개.연이,일반정황하,종과기문헌수거중획취적주제사수량방대,인공청세궤무가능,연건청세역결핍가신도.본문이문헌계량학방법위기출,구건료포괄정사표、모호어의처리、관련규칙、사빈여문당빈차전환이급취류분석재내적반자동화“주제사족”방법체계,실현료이정량방법위주、정성방법위보적주제사청세、합병여취류방안,지재위기술경쟁정보분석제공경위정준적주제사사표.본문이Derwent전리수거고중국“광복전지”영역적과기문헌위례,전개실증연구,험증료방법적과학성여유효성.