计算机应用
計算機應用
계산궤응용
COMPUTER APPLICATION
2014年
8期
2311-2316,2331
,共7页
数据质量%Web文档%模拟退火%维度%事实
數據質量%Web文檔%模擬退火%維度%事實
수거질량%Web문당%모의퇴화%유도%사실
data quality%Web article%Simulated Annealing (SA)%dimension%fact
针对基于训练模型或用户交互的Web数据质量评估方法不能在线响应,也不能获取内容事实内涵的问题,提出一种基于模拟退火(SA)的在线Web文档内容数据质量评估(QASA)方法.首先,通过在Web上搜集主题相关文档,构建目标文档的相关空间,进一步采用开放式信息抽取技术抽取文档内容的事实;然后,采用SA技术在线构建两个最重要的数据质量维度即准确性和完整性的参照;最后,通过比对目标文档和维度参照的事实来量化数据质量维度.实验结果表明,QASA方法可以及时返回近似最优解,并保持与离线算法等同或高于10%的精度.该方法不仅能满足实时响应的要求,而且具有高的评估精度,可应用于在线识别高质量的Web文档.
針對基于訓練模型或用戶交互的Web數據質量評估方法不能在線響應,也不能穫取內容事實內涵的問題,提齣一種基于模擬退火(SA)的在線Web文檔內容數據質量評估(QASA)方法.首先,通過在Web上搜集主題相關文檔,構建目標文檔的相關空間,進一步採用開放式信息抽取技術抽取文檔內容的事實;然後,採用SA技術在線構建兩箇最重要的數據質量維度即準確性和完整性的參照;最後,通過比對目標文檔和維度參照的事實來量化數據質量維度.實驗結果錶明,QASA方法可以及時返迴近似最優解,併保持與離線算法等同或高于10%的精度.該方法不僅能滿足實時響應的要求,而且具有高的評估精度,可應用于在線識彆高質量的Web文檔.
침대기우훈련모형혹용호교호적Web수거질량평고방법불능재선향응,야불능획취내용사실내함적문제,제출일충기우모의퇴화(SA)적재선Web문당내용수거질량평고(QASA)방법.수선,통과재Web상수집주제상관문당,구건목표문당적상관공간,진일보채용개방식신식추취기술추취문당내용적사실;연후,채용SA기술재선구건량개최중요적수거질량유도즉준학성화완정성적삼조;최후,통과비대목표문당화유도삼조적사실래양화수거질량유도.실험결과표명,QASA방법가이급시반회근사최우해,병보지여리선산법등동혹고우10%적정도.해방법불부능만족실시향응적요구,이차구유고적평고정도,가응용우재선식별고질량적Web문당.