计算机应用研究
計算機應用研究
계산궤응용연구
APPLICATION RESEARCH OF COMPUTERS
2015年
4期
986-991,995
,共7页
数据集%参数估计%文本挖掘%幂律%词组%运行时间
數據集%參數估計%文本挖掘%冪律%詞組%運行時間
수거집%삼수고계%문본알굴%멱률%사조%운행시간
data sets%parameter estimation%text mining%power-law%phrases%run time
若想从文本中获得高质量信息,一般来讲需要处理大量数据集,还需使用自然语言处理方法及参数估计统计模型.针对该问题,首先针对数据遵守幂律分布的统计参数估计模型进行了优化;然后提出一种统计学方法用于文本挖掘中的语句分块,通过迭代估计词组概率,将大型语料库中的语句分成更小的有意义词组.该方法要求生成并存储大量词组频率数据,并在每次迭代时支持计算节点快速访问数据.实验评估表明,该方案显著降低了远程数据库查询次数,其端到端应用运行时间要比只基于HBase的原始分布式部署快出6倍.
若想從文本中穫得高質量信息,一般來講需要處理大量數據集,還需使用自然語言處理方法及參數估計統計模型.針對該問題,首先針對數據遵守冪律分佈的統計參數估計模型進行瞭優化;然後提齣一種統計學方法用于文本挖掘中的語句分塊,通過迭代估計詞組概率,將大型語料庫中的語句分成更小的有意義詞組.該方法要求生成併存儲大量詞組頻率數據,併在每次迭代時支持計算節點快速訪問數據.實驗評估錶明,該方案顯著降低瞭遠程數據庫查詢次數,其耑到耑應用運行時間要比隻基于HBase的原始分佈式部署快齣6倍.
약상종문본중획득고질량신식,일반래강수요처리대량수거집,환수사용자연어언처리방법급삼수고계통계모형.침대해문제,수선침대수거준수멱률분포적통계삼수고계모형진행료우화;연후제출일충통계학방법용우문본알굴중적어구분괴,통과질대고계사조개솔,장대형어료고중적어구분성경소적유의의사조.해방법요구생성병존저대량사조빈솔수거,병재매차질대시지지계산절점쾌속방문수거.실험평고표명,해방안현저강저료원정수거고사순차수,기단도단응용운행시간요비지기우HBase적원시분포식부서쾌출6배.