计算机科学
計算機科學
계산궤과학
COMPUTER SCIENCE
2012年
3期
163-169
,共7页
数据概化%概念分层%语义汇总%层次聚类
數據概化%概唸分層%語義彙總%層次聚類
수거개화%개념분층%어의회총%층차취류
通过数据概化,在多维属性的属性值概念分层上构造少量的具有抽象语义的元组来替换大量具有详细语义的原始元组,从而汇总数据表,这称作表语义汇总.给定原始数据表及其多维属性的属性值的概念分层,表语义汇总的目标是产生规定压缩率且保留尽可能多的语义信息的汇总表.现有算法采用在概化元组集合中寻找最佳概化元组组合的策略将其转换成Set-Covering问题来解决,尽管采取了多种优化策略(如预处理、分级处理)来提高效率,但仍存在转换开销大、算法框架复杂且不易扩展到高维属性等缺点.通过定义多维属性层次结构的度量空间将该问题转换为多维层次空间聚类问题并引入dewey编码来提高转换效率,提出了基于快速收敛的层次凝聚和基于层次空间分辨率调整的两种聚类算法来高效地建立语义汇总表.经真实数据集上的实验表明,新算法在执行效率和汇总质量土都优于现有方法.
通過數據概化,在多維屬性的屬性值概唸分層上構造少量的具有抽象語義的元組來替換大量具有詳細語義的原始元組,從而彙總數據錶,這稱作錶語義彙總.給定原始數據錶及其多維屬性的屬性值的概唸分層,錶語義彙總的目標是產生規定壓縮率且保留儘可能多的語義信息的彙總錶.現有算法採用在概化元組集閤中尋找最佳概化元組組閤的策略將其轉換成Set-Covering問題來解決,儘管採取瞭多種優化策略(如預處理、分級處理)來提高效率,但仍存在轉換開銷大、算法框架複雜且不易擴展到高維屬性等缺點.通過定義多維屬性層次結構的度量空間將該問題轉換為多維層次空間聚類問題併引入dewey編碼來提高轉換效率,提齣瞭基于快速收斂的層次凝聚和基于層次空間分辨率調整的兩種聚類算法來高效地建立語義彙總錶.經真實數據集上的實驗錶明,新算法在執行效率和彙總質量土都優于現有方法.
통과수거개화,재다유속성적속성치개념분층상구조소량적구유추상어의적원조래체환대량구유상세어의적원시원조,종이회총수거표,저칭작표어의회총.급정원시수거표급기다유속성적속성치적개념분층,표어의회총적목표시산생규정압축솔차보류진가능다적어의신식적회총표.현유산법채용재개화원조집합중심조최가개화원조조합적책략장기전환성Set-Covering문제래해결,진관채취료다충우화책략(여예처리、분급처리)래제고효솔,단잉존재전환개소대、산법광가복잡차불역확전도고유속성등결점.통과정의다유속성층차결구적도량공간장해문제전환위다유층차공간취류문제병인입dewey편마래제고전환효솔,제출료기우쾌속수렴적층차응취화기우층차공간분변솔조정적량충취류산법래고효지건립어의회총표.경진실수거집상적실험표명,신산법재집행효솔화회총질량토도우우현유방법.