计算机学报
計算機學報
계산궤학보
CHINESE JOURNAL OF COMPUTERS
2013年
12期
2545-2559
,共15页
张懿璞%霍红卫%于强%郭鸿志
張懿璞%霍紅衛%于彊%郭鴻誌
장의박%곽홍위%우강%곽홍지
转录因子结合位点%模体%定位投影%求精
轉錄因子結閤位點%模體%定位投影%求精
전록인자결합위점%모체%정위투영%구정
transcription factor binding sites%motif%fixed-position projection%refinement
定位转录因子结合位点,也称模体发现问题,对于理解基因调控关系非常重要.文中提出了一种新的定位投影求精算法(Fixed-Position Projection Refinement algorithm,FPPR)用于DNA序列中的转录因子结合位点识别.通过一个基于数据集对应位置频率矩阵的投影过程,将DNA数据聚类为不同的子集,过滤选出其中具有一定信息量和复杂度的子集,作为初始状态,进而使用期望最大化算法进行求精.FPPR通过对定位投影过程中阈值的设定,实现了对OOPS、ZOOPS、TCM这3种模型中不同模体实例分布的处理.同时,结合高阶马尔可夫背景设计目标函数,使得算法的概率模型更加符合真实生物数据.此外,通过相似函数WIC评估,FPPR可拓展为解决多模体识别问题.真实数据测试表明,FPPR可以在合理的时间内准确找寻模体,与MEME、GAME、Motif Sampler和GALP-F等算法相比有更好的性能,并且可以有效地解决多模体识别问题.
定位轉錄因子結閤位點,也稱模體髮現問題,對于理解基因調控關繫非常重要.文中提齣瞭一種新的定位投影求精算法(Fixed-Position Projection Refinement algorithm,FPPR)用于DNA序列中的轉錄因子結閤位點識彆.通過一箇基于數據集對應位置頻率矩陣的投影過程,將DNA數據聚類為不同的子集,過濾選齣其中具有一定信息量和複雜度的子集,作為初始狀態,進而使用期望最大化算法進行求精.FPPR通過對定位投影過程中閾值的設定,實現瞭對OOPS、ZOOPS、TCM這3種模型中不同模體實例分佈的處理.同時,結閤高階馬爾可伕揹景設計目標函數,使得算法的概率模型更加符閤真實生物數據.此外,通過相似函數WIC評估,FPPR可拓展為解決多模體識彆問題.真實數據測試錶明,FPPR可以在閤理的時間內準確找尋模體,與MEME、GAME、Motif Sampler和GALP-F等算法相比有更好的性能,併且可以有效地解決多模體識彆問題.
정위전록인자결합위점,야칭모체발현문제,대우리해기인조공관계비상중요.문중제출료일충신적정위투영구정산법(Fixed-Position Projection Refinement algorithm,FPPR)용우DNA서렬중적전록인자결합위점식별.통과일개기우수거집대응위치빈솔구진적투영과정,장DNA수거취류위불동적자집,과려선출기중구유일정신식량화복잡도적자집,작위초시상태,진이사용기망최대화산법진행구정.FPPR통과대정위투영과정중역치적설정,실현료대OOPS、ZOOPS、TCM저3충모형중불동모체실례분포적처리.동시,결합고계마이가부배경설계목표함수,사득산법적개솔모형경가부합진실생물수거.차외,통과상사함수WIC평고,FPPR가탁전위해결다모체식별문제.진실수거측시표명,FPPR가이재합리적시간내준학조심모체,여MEME、GAME、Motif Sampler화GALP-F등산법상비유경호적성능,병차가이유효지해결다모체식별문제.