德州学院学报
德州學院學報
덕주학원학보
JOURNAL OF DEZHOU UNIVERSITY
2014年
6期
21-25,51
,共6页
原核基因组%重复基因%多拷贝蛋白编码基因
原覈基因組%重複基因%多拷貝蛋白編碼基因
원핵기인조%중복기인%다고패단백편마기인
prokaryotic genome%duplicated gene%multi-copied protein coding genes
基因重复是普遍存在的现象,与基因组进化密切相关,是基因组和遗传系统分化的重要推动力.目前针对原核基因组中蛋白质编码基因序列中的重复基因的系统研究还很少.本文以四种具有不同GC%含量的原核生物基因组为研究对象,用CodonW软件对各基因组中完全相同的功能基因的密码子使用偏好进行分析,用CD-hit软件对各基因组中以80%为阈值的重复蛋白编码基因进行分析.结果表明四个基因组的蛋白编码基因中普遍存在基因重复序列,其比例占到2.77%~7.03%.对序列完全相同的功能已知基因的分析表明其序列长度分布在50bp到1000bp左右的范围,多数长度在500bp以下;功能分析表明所研究基因组中大部分重复基因与转座酶有关,还有少量的编码转移酶、水解酶、跨膜蛋白、阻遏蛋白等.对各基因组中重复基因中序列完全相同的基因的密码子偏好性分析表明这些多拷贝基因坐落在基因组中某一特定区域并集中分布,展现出明显的共性特征.本文的尝试性工作将为今后原核基因组研究提供新思路.
基因重複是普遍存在的現象,與基因組進化密切相關,是基因組和遺傳繫統分化的重要推動力.目前針對原覈基因組中蛋白質編碼基因序列中的重複基因的繫統研究還很少.本文以四種具有不同GC%含量的原覈生物基因組為研究對象,用CodonW軟件對各基因組中完全相同的功能基因的密碼子使用偏好進行分析,用CD-hit軟件對各基因組中以80%為閾值的重複蛋白編碼基因進行分析.結果錶明四箇基因組的蛋白編碼基因中普遍存在基因重複序列,其比例佔到2.77%~7.03%.對序列完全相同的功能已知基因的分析錶明其序列長度分佈在50bp到1000bp左右的範圍,多數長度在500bp以下;功能分析錶明所研究基因組中大部分重複基因與轉座酶有關,還有少量的編碼轉移酶、水解酶、跨膜蛋白、阻遏蛋白等.對各基因組中重複基因中序列完全相同的基因的密碼子偏好性分析錶明這些多拷貝基因坐落在基因組中某一特定區域併集中分佈,展現齣明顯的共性特徵.本文的嘗試性工作將為今後原覈基因組研究提供新思路.
기인중복시보편존재적현상,여기인조진화밀절상관,시기인조화유전계통분화적중요추동력.목전침대원핵기인조중단백질편마기인서렬중적중복기인적계통연구환흔소.본문이사충구유불동GC%함량적원핵생물기인조위연구대상,용CodonW연건대각기인조중완전상동적공능기인적밀마자사용편호진행분석,용CD-hit연건대각기인조중이80%위역치적중복단백편마기인진행분석.결과표명사개기인조적단백편마기인중보편존재기인중복서렬,기비례점도2.77%~7.03%.대서렬완전상동적공능이지기인적분석표명기서렬장도분포재50bp도1000bp좌우적범위,다수장도재500bp이하;공능분석표명소연구기인조중대부분중복기인여전좌매유관,환유소량적편마전이매、수해매、과막단백、조알단백등.대각기인조중중복기인중서렬완전상동적기인적밀마자편호성분석표명저사다고패기인좌락재기인조중모일특정구역병집중분포,전현출명현적공성특정.본문적상시성공작장위금후원핵기인조연구제공신사로.
Gene duplication is a general phenomenon in organism,which is related to the genome evolution as an important driving force of genome and genetic differentiation system.At present,much fewer re-searches have been performed on the duplicated genes in prokaryotic genomes.Four prokaryotic genomes with different GC contents are downloaded from Refseq database.CodonW program is adopted for codon usage analysis of the protein coding genes.CD-hit program is used to determine the duplicated genes with the threshold of 80%.Statistical results show that 2.77%~7.03% of the protein coding genes in the four genomes are duplicated.Further sequences analysis shows that sequence length of the multi-copied known function genes are below 1000bp.Function analysis showed that most of the multi-copied genes are related to transposons,with a small amount of genes that coding transferase,hydrolytic enzymes, transmembrane protein,repressor protein,etc.Codon usage bias analysis indicates that the most of the multi-copied genes locate in particular regions,which exhibit regular intrinsic sequences features.Then it is interesting for further study the evolutionary mechanisms of the multi-copied genes in future work.