遗传
遺傳
유전
HEREDITAS(BEIJING)
2014年
6期
620-626
,共7页
李文轲%李丰余%张思瑶%蔡斌%郑娜%聂宇%周到%赵倩
李文軻%李豐餘%張思瑤%蔡斌%鄭娜%聶宇%週到%趙倩
리문가%리봉여%장사요%채빈%정나%섭우%주도%조천
二代测序%自动化数据分析%流程%变异检测
二代測序%自動化數據分析%流程%變異檢測
이대측서%자동화수거분석%류정%변이검측
next generation sequencing%automatic data analysis%pipeline%variantion detection
二代测序技术的发展对测序数据的处理分析提出了很高的要求。目前二代测序数据分析软件很多,但是绝大多数软件仅能完成单一的分析功能(例如:仅进行序列比对或变异读取或功能注释等),如何能正确高效地选择整合这些软件已成为迫切需求。文章设计了一套基于 perl 语言和 SGE资源管理的自动化处理流程来分析Illumina平台基因组测序数据。该流程以测序原始序列数据作为输入,调用业界标准的数据处理软件(如:BWA, Samtools, GATK, ANNOVAR等),最终生成带有相应功能注释、便于研究者进一步分析的变异位点列表。该流程通过自动化并行脚本控制流程的高效运行,一站式输出分析结果和报告,简化了数据分析过程中的人工操作,大大提高了运行效率。用户只需填写配置文件或使用图形界面输入即可完成全部操作。该工作为广大研究者分析二代测序数据提供了便利的途径。
二代測序技術的髮展對測序數據的處理分析提齣瞭很高的要求。目前二代測序數據分析軟件很多,但是絕大多數軟件僅能完成單一的分析功能(例如:僅進行序列比對或變異讀取或功能註釋等),如何能正確高效地選擇整閤這些軟件已成為迫切需求。文章設計瞭一套基于 perl 語言和 SGE資源管理的自動化處理流程來分析Illumina平檯基因組測序數據。該流程以測序原始序列數據作為輸入,調用業界標準的數據處理軟件(如:BWA, Samtools, GATK, ANNOVAR等),最終生成帶有相應功能註釋、便于研究者進一步分析的變異位點列錶。該流程通過自動化併行腳本控製流程的高效運行,一站式輸齣分析結果和報告,簡化瞭數據分析過程中的人工操作,大大提高瞭運行效率。用戶隻需填寫配置文件或使用圖形界麵輸入即可完成全部操作。該工作為廣大研究者分析二代測序數據提供瞭便利的途徑。
이대측서기술적발전대측서수거적처리분석제출료흔고적요구。목전이대측서수거분석연건흔다,단시절대다수연건부능완성단일적분석공능(례여:부진행서렬비대혹변이독취혹공능주석등),여하능정학고효지선택정합저사연건이성위박절수구。문장설계료일투기우 perl 어언화 SGE자원관리적자동화처리류정래분석Illumina평태기인조측서수거。해류정이측서원시서렬수거작위수입,조용업계표준적수거처리연건(여:BWA, Samtools, GATK, ANNOVAR등),최종생성대유상응공능주석、편우연구자진일보분석적변이위점렬표。해류정통과자동화병행각본공제류정적고효운행,일참식수출분석결과화보고,간화료수거분석과정중적인공조작,대대제고료운행효솔。용호지수전사배치문건혹사용도형계면수입즉가완성전부조작。해공작위엄대연구자분석이대측서수거제공료편리적도경。
The development of next-generation sequencing has generated high demand for data processing and analysis. Although there are a lot of software for analyzing next-generation sequencing data, most of them are designed for one specific function (e.g., alignment, variant calling or annotation). Therefore, it is necessary to combine them together for data analysis and to generate interpretable results for biologists. This study designed a pipeline to process Illumina sequencing data based on Perl programming language and SGE system. The pipeline takes original sequence data (fastq format) as input, calls the standard data processing software (e.g., BWA, Samtools, GATK, and Annovar), and finally outputs a list of annotated va-riants that researchers can further analyze. The pipeline simplifies the manual operation and improves the efficiency by automatization and parallel computation. Users can easily run the pipeline by editing the configuration file or clicking the graphical interface. Our work will facilitate the research projects using the sequencing technology.