计算机工程与科学
計算機工程與科學
계산궤공정여과학
COMPUTER ENGINEERING & SCIENCE
2006年
12期
74-76
,共3页
聚类分析%随机化统计检验%距离测度%算法%网络实现
聚類分析%隨機化統計檢驗%距離測度%算法%網絡實現
취류분석%수궤화통계검험%거리측도%산법%망락실현
聚类分析是应用最为广泛的数学方法之一, 但又被认为是数学上不严格的一类方法.主要原因在于聚类过程及其结果没有统计学标准.本文建立了具有随机化统计检验的聚类分析算法, 用于对若干个样品进行有显著性标记的聚类分析.该算法由三部分组成: 距离测度计算、随机化检验和系统聚类.在该算法中, 有14种距离测度、三种系统聚类方法及指标加权与否可供选择.样品之间的距离定义为: 1-随机化检验的p检验值; 两类间的距离若满足p检验标准, 则合并为同一类是统计上显著的、可接受的, 否则就是不显著的、不可接受的.算法的特点是: 用随机化方法进行差异显著性检验, 使得对多种距离测度可进行严格的统计检验, 随机化检验不需统计前提和假设, 适用于各种统计问题; 用于差异显著性检验的随机化方法需要随机化数值为正整数值, 适用范围过窄, 用数值同步移位和平移方法可使之适用于实数域.算法用Java语言网络化实现, 包含六个类和一个HTML文件.可通过网络在多种Java兼容的浏览器上实现算法共享.根据水稻田无脊椎动物多样性的调查数据,本文对该算法进行了对比分析, 并讨论了选择距离测度的一些原则和进一步研究的途径等问题.
聚類分析是應用最為廣汎的數學方法之一, 但又被認為是數學上不嚴格的一類方法.主要原因在于聚類過程及其結果沒有統計學標準.本文建立瞭具有隨機化統計檢驗的聚類分析算法, 用于對若榦箇樣品進行有顯著性標記的聚類分析.該算法由三部分組成: 距離測度計算、隨機化檢驗和繫統聚類.在該算法中, 有14種距離測度、三種繫統聚類方法及指標加權與否可供選擇.樣品之間的距離定義為: 1-隨機化檢驗的p檢驗值; 兩類間的距離若滿足p檢驗標準, 則閤併為同一類是統計上顯著的、可接受的, 否則就是不顯著的、不可接受的.算法的特點是: 用隨機化方法進行差異顯著性檢驗, 使得對多種距離測度可進行嚴格的統計檢驗, 隨機化檢驗不需統計前提和假設, 適用于各種統計問題; 用于差異顯著性檢驗的隨機化方法需要隨機化數值為正整數值, 適用範圍過窄, 用數值同步移位和平移方法可使之適用于實數域.算法用Java語言網絡化實現, 包含六箇類和一箇HTML文件.可通過網絡在多種Java兼容的瀏覽器上實現算法共享.根據水稻田無脊椎動物多樣性的調查數據,本文對該算法進行瞭對比分析, 併討論瞭選擇距離測度的一些原則和進一步研究的途徑等問題.
취류분석시응용최위엄범적수학방법지일, 단우피인위시수학상불엄격적일류방법.주요원인재우취류과정급기결과몰유통계학표준.본문건립료구유수궤화통계검험적취류분석산법, 용우대약간개양품진행유현저성표기적취류분석.해산법유삼부분조성: 거리측도계산、수궤화검험화계통취류.재해산법중, 유14충거리측도、삼충계통취류방법급지표가권여부가공선택.양품지간적거리정의위: 1-수궤화검험적p검험치; 량류간적거리약만족p검험표준, 칙합병위동일류시통계상현저적、가접수적, 부칙취시불현저적、불가접수적.산법적특점시: 용수궤화방법진행차이현저성검험, 사득대다충거리측도가진행엄격적통계검험, 수궤화검험불수통계전제화가설, 괄용우각충통계문제; 용우차이현저성검험적수궤화방법수요수궤화수치위정정수치, 괄용범위과착, 용수치동보이위화평이방법가사지괄용우실수역.산법용Java어언망락화실현, 포함륙개류화일개HTML문건.가통과망락재다충Java겸용적류람기상실현산법공향.근거수도전무척추동물다양성적조사수거,본문대해산법진행료대비분석, 병토론료선택거리측도적일사원칙화진일보연구적도경등문제.