遗传学报
遺傳學報
유전학보
ACTA GENETICA SINICA
2005年
10期
1018-1026
,共9页
傅强%钱敏平%陈良标%朱玉贤
傅彊%錢敏平%陳良標%硃玉賢
부강%전민평%진량표%주옥현
基因组%对称相对熵%内含子%进化
基因組%對稱相對熵%內含子%進化
기인조%대칭상대적%내함자%진화
genome%symmetric relative entropy%introns%evolution
非编码序列,特别是内含子的起源,是一个重要的悬而未决的问题.首先通过计算模式生物的编码序列和非编码序列的不同阅读框中3-tuple的频率分布,发现编码区中不同阅读框具有十分不同的3-tuple分布,而在非编码区中,不同阅读框的3-tuple分布几乎相等,并且这一性质不具有物种依赖性.为了描述分布差异的程度,引进度量-对称相对熵,并通过比较原核生物和真核生物,发现无论是编码区还是非编码区,原核生物都具有比真核生物更高的SRE值.进一步研究表明,某一生物的SRE值与该生物全基因组中编码区所占的百分比存在一定.的相关性(相关系数为0.86).计算机模拟进化实验发现,2%的突变就足以使典型的原核生物编码区高SRE值变为真核生物内含子区特有的低SRE值.比对数据库中已经注释的内含子和编码区序列,证明确实有一部分与编码区具有很高同源性的内含子序列.实验表明,至少部分真核生物的内含子可能起源于编码序列,同时也说明SRE可能被用于研究物种基因组序列的进化.
非編碼序列,特彆是內含子的起源,是一箇重要的懸而未決的問題.首先通過計算模式生物的編碼序列和非編碼序列的不同閱讀框中3-tuple的頻率分佈,髮現編碼區中不同閱讀框具有十分不同的3-tuple分佈,而在非編碼區中,不同閱讀框的3-tuple分佈幾乎相等,併且這一性質不具有物種依賴性.為瞭描述分佈差異的程度,引進度量-對稱相對熵,併通過比較原覈生物和真覈生物,髮現無論是編碼區還是非編碼區,原覈生物都具有比真覈生物更高的SRE值.進一步研究錶明,某一生物的SRE值與該生物全基因組中編碼區所佔的百分比存在一定.的相關性(相關繫數為0.86).計算機模擬進化實驗髮現,2%的突變就足以使典型的原覈生物編碼區高SRE值變為真覈生物內含子區特有的低SRE值.比對數據庫中已經註釋的內含子和編碼區序列,證明確實有一部分與編碼區具有很高同源性的內含子序列.實驗錶明,至少部分真覈生物的內含子可能起源于編碼序列,同時也說明SRE可能被用于研究物種基因組序列的進化.
비편마서렬,특별시내함자적기원,시일개중요적현이미결적문제.수선통과계산모식생물적편마서렬화비편마서렬적불동열독광중3-tuple적빈솔분포,발현편마구중불동열독광구유십분불동적3-tuple분포,이재비편마구중,불동열독광적3-tuple분포궤호상등,병차저일성질불구유물충의뢰성.위료묘술분포차이적정도,인진도량-대칭상대적,병통과비교원핵생물화진핵생물,발현무론시편마구환시비편마구,원핵생물도구유비진핵생물경고적SRE치.진일보연구표명,모일생물적SRE치여해생물전기인조중편마구소점적백분비존재일정.적상관성(상관계수위0.86).계산궤모의진화실험발현,2%적돌변취족이사전형적원핵생물편마구고SRE치변위진핵생물내함자구특유적저SRE치.비대수거고중이경주석적내함자화편마구서렬,증명학실유일부분여편마구구유흔고동원성적내함자서렬.실험표명,지소부분진핵생물적내함자가능기원우편마서렬,동시야설명SRE가능피용우연구물충기인조서렬적진화.
The origin of non-coding sequences, especially introns, is an outstanding issue that has been receiving continuous debate for the last two decades. In the current work we use a mathematical model to characterize DNA sequences and find that the 3-tuple distributions in different reading frames of a given coding sequence differ sharply from each other, while they are almost identical to each other in introns or other non-coding sequences. SREs(Symmetric relative entropies) decrease progressively from coding sequences of primitive prokaryotes to those of advanced eukaryotes and from non-coding sequences of low eukaryotes to those of high eukaryotes with a correlation coefficient of 0.86. In silico evolution experiments show that SREs typical of higher eukaryotic introns can be achieved from prokaryotic coding sequences as the mutation ratio reaches 2/100. The fact that ( a total of 25 introns) from all three different genomes S. pombe, C. elegans and H. sapiens searched are found to share high sequence identity with coding regions indicates that at least some introns may have come directly from CDS(coding sequences). We suggest that SREs may be a useful feature for evolutionary study.