计算机科学
計算機科學
계산궤과학
COMPUTER SCIENCE
2014年
3期
249-252,262
,共5页
木妮娜·玉素甫%古丽娜·玉素甫%张海军
木妮娜·玉素甫%古麗娜·玉素甫%張海軍
목니나·옥소보%고려나·옥소보%장해군
重复模式%数据挖掘%统计特征%约束条件%生物计算%维吾尔语Web文本
重複模式%數據挖掘%統計特徵%約束條件%生物計算%維吾爾語Web文本
중복모식%수거알굴%통계특정%약속조건%생물계산%유오이어Web문본
Repeats%Data mining%Statistical characteristics%Constraints%Bioinformatics%Uyghur Web texts
序列中重复模式的识别与提取算法在数据挖掘、模式识别、数据压缩、生物信息学等领域中具有广泛的实际应用.提出一种全新的基于QSA数组计算所有带有约束条件的NE重复模式的算法RPT.算法设计中充分考虑了NE重复模式的特征,以建立特征和重复模式检测结果之间的统计联系;算法中的约束条件包括最小周期Pmin和最大间距gmax,其可用于筛选符合条件的NE重复模式,并可按照递增序输出所有NE重复模式的出现位置.与已有的基于后缀索引的算法相比,此算法的空间效率得到了提高.在分类属性数据样本集上进行的实验表明,算法RPT对生物序列尤其是DNA序列以及维吾尔语Web文本中NE重复模式的识别与提取都很有效.
序列中重複模式的識彆與提取算法在數據挖掘、模式識彆、數據壓縮、生物信息學等領域中具有廣汎的實際應用.提齣一種全新的基于QSA數組計算所有帶有約束條件的NE重複模式的算法RPT.算法設計中充分攷慮瞭NE重複模式的特徵,以建立特徵和重複模式檢測結果之間的統計聯繫;算法中的約束條件包括最小週期Pmin和最大間距gmax,其可用于篩選符閤條件的NE重複模式,併可按照遞增序輸齣所有NE重複模式的齣現位置.與已有的基于後綴索引的算法相比,此算法的空間效率得到瞭提高.在分類屬性數據樣本集上進行的實驗錶明,算法RPT對生物序列尤其是DNA序列以及維吾爾語Web文本中NE重複模式的識彆與提取都很有效.
서렬중중복모식적식별여제취산법재수거알굴、모식식별、수거압축、생물신식학등영역중구유엄범적실제응용.제출일충전신적기우QSA수조계산소유대유약속조건적NE중복모식적산법RPT.산법설계중충분고필료NE중복모식적특정,이건립특정화중복모식검측결과지간적통계련계;산법중적약속조건포괄최소주기Pmin화최대간거gmax,기가용우사선부합조건적NE중복모식,병가안조체증서수출소유NE중복모식적출현위치.여이유적기우후철색인적산법상비,차산법적공간효솔득도료제고.재분류속성수거양본집상진행적실험표명,산법RPT대생물서렬우기시DNA서렬이급유오이어Web문본중NE중복모식적식별여제취도흔유효.