Genomonインストール¶
HGCスパコン以外のコンピュータにインストールする場合に必要な手順です.
インストール必須要件¶
- Linux
- python2.7
- Drmaa(http://www.drmaa.org/)が使用できるDRMシステム
- DRMシステムを入れて運用する程度のスペックのあるコンピュータ
※HGCスパコンではGrid Engineを使用しています
Genomonのインストール¶
GenomonとGenomonを動かすのに必要なpythonパッケージのインストールについて記載します. 必要なパッケージは6つです→Genomon,ruffus,PyYAML,drmaa,pmsignature,annot_utils
# インストールを始める前に,
# python2.7であることを確認してください.
# Genomonのダウンロードとインストール
wget https://github.com/Genomon-Project/GenomonPipeline/archive/v${version}.tar.gz
tar xzvf v${version}.tar.gz
cd GenomonPipeline-v${version}
python setup.py install --user
# ruffusのダウンロードとインストール
wget https://github.com/bunbun/ruffus/archive/v2.6.3.tar.gz
tar xzvf v2.6.3.tar.gz
cd ruffus-2.6.3
python setup.py install --user
# PyYAMLのダウンロード
git clone https://github.com/ravenac95/PyYAML
cd PyYAML
python setup.py install --user
# drmaa
pip install drmaa --user
# pmsignature
# https://github.com/friend1ws/pmsignature を参照してください
# annot_utilsのダウンロードとインストール
wget -nc https://github.com/friend1ws/annot_utils/archive/v0.1.0.zip
unzip v0.1.0.zip
cd annot_utils-0.1.0
python setup.py install
Genomonで使用するデータベースのインストール¶
インストールが必要なデータベースはパイプライン設定ファイルに記載されています.ご使用のコンピュータに各データベースをインストールしてパイプライン設定ファイルの[REFERENCE]に記載されているパスを書き換えてください.
- ref_fasta
- cfgに指定したリファレンスゲノムと,それに紐づくBWA indexファイル,FASTA indexファイルを用意する必要があります.まずはメインのリファレンスゲノムですが,Genomon2では以下の3つのFASTAファイルをマージしたものを使用しています.1) Human Genome2) Human herpesvirus 4 complete wild type genome3) decoyリファレンスの特性について詳細は上記の各webサイトの説明よんでください.たとえば,GRCh37-liteはpseudo-autosomal regions on chrY masked with Nsしているなどの記載があります.他にBWA index, FASTA indexを生成する必要があります.・BWA index ファイルの作成コマンド/home/w3varann/genomon_pipeline-2.0.5/tools/bwa-0.7.8/bwa index {マージしたファイル}・FASTA index ファイルの作成コマンド/home/w3varann/genomon_pipeline-2.0.5/tools/samtools-1.2/samtools faidx {マージしたファイル}
- interval_list
- 並列処理をするために使用します.以下のサイトからダウンロードしてください
- star_genome
- Star indexファイルを作成する必要があります.解析対象のreadのおよその長さに合わせてオプション --sjdbOverhang の指定を変えることができますが,100で大体よいとマニュアルに書いてあって,実際に問題なく検出できているので,現在はread lengthによって変えなくても良しとしています
#STAR index ファイルの作成コマンド
STAR \
--runThreadN 8 \
--runMode genomeGenerate \
--genomeDir $HOME/database/GRCh37.STAR-${STAR_version} \
--genomeFastaFiles $HOME/database/GRCh37.fa/GRCh37.fa \
--sjdbGTFfile $HOME/database/GTF/Homo_sapiens.GRCh37.74.gtf \
--sjdbOverhang 100
- gaptxt
- NCBIからダウンロードして解凍してご使用ください.(originalのままを使用しています)
- bait_file
- exomeの場合のbam summaryのcoverageを計算するとき使います.SureSelectなど使用したbaitファイルがある場合はそちらを設定してください.無い場合はrefGene.coding.exon.bedを使用してもらえればと思います.refGene.coding.exon.bed はrefGene.txtのcoding exon領域だけをとりだして,そちらをbaitの範囲としています.作成方法は以下のwebサイトに記載しています.(スクリプト修正中です)https://github.com/ken0-1n/RefGeneTxtToBed(しばらくお待ちください)Whole genomeシーケンスの場合はbait_fileを使用しません.Whole Genomeの解析の場合はパイプライン設定ファイルの以下のハイライトのパラメタをTrueに変更してください.
1 2 3 4 5 6 7 | [coverage]
qsub_option = -l s_vmem=1G,mem_req=1G
coverage = 2,10,20,30,40,50,100
wgs_flag = False
wgs_incl_bed_width = 1000000
wgs_i_bed_lines = 10000
wgs_i_bed_width = 100
|
- simple_repeat_tabix_db
- NCBIからsimpleRepeat.bedをダウンロードしてtabixのindexファイルをはります.
# tabixを作成する
cut -f2- simpleRepeat.txt > simpleRepeat.bed
tabix-0.2.6/bgzip simpleRepeat.bed
tabix-0.2.6/tabix simpleRepeat.bed.gz
- HGVD_tabix_db
- 京都大学からHGVDのファイルをダウンロード,VCF→TAB変換し,tabixのindexファイルをはります.
# TAB変換のツールはこちら
git clone https://github.com/Genomon-Project/genomon_utils
# tabixを作成する
python genomon_utils/annotator_HGVD.py DBexome20131010.tab | sort -k1,1 -k2,2n -k3,3n -k4,4 -k5,5 -k6,6 > DBexome20131010.bed
tabix-0.2.6/bgzip DBexome20131010.bed
tabix-0.2.6/tabix DBexome20131010.bed.gz
Genomonで呼び出されるソフトウェアのインストール¶
インストールが必要なソフトウェアはパイプライン設定ファイルに記載されています.ご使用のコンピュータに各ソフトウェアをインストールしてパイプライン設定ファイルの[SOFTWARE]に記載されているパスを書き換えてください
DNAパイプライン設定ファイル
RNAパイプライン設定ファイル
項目 | webサイト | バージョン |
---|---|---|
samtools | http://samtools.sourceforge.net/ | samtools-1.2 |
tophat2 | http://ccb.jhu.edu/software/tophat/index.shtml | 2.0.14.Linux |
STAR | https://github.com/alexdobin/STAR | 2.5.2a |
STAR-Fusion | https://github.com/STAR-Fusion/STAR-Fusion | Genomon-v2.5.0では未使用 |
bedtools | http://code.google.com/p/bedtools/ | bedtools-2.24.0 |
biobambam | https://github.com/gt1/biobambam | biobambam-0.0.191 |
blat | https://genome.ucsc.edu/FAQ/FAQblat.html#blat3 | BLAT v.34 |
hstlib | http://www.htslib.org/download/ | htslib-1.3 |
fusionfusion | https://github.com/Genomon-Project/fusionfusion | v0.4.0 |
fusion_utils | https://github.com/friend1ws/fusion_utils | v0.2.0 |
chimera_utils | https://github.com/friend1ws/chimera_utils | v0.5.1 |
intron_retention_utils | https://github.com/friend1ws/intron_retention_utils | v0.5.1 |
genomon_expression | https://github.com/Genomon-Project/GenomonExpression | v0.4.0 |
genomon_pa | https://github.com/aokad/GenomonPostAnalysis | v1.4.1 |
paplot | https://github.com/Genomon-Project/paplot | v0.5.5 |
STAR-FusionはGenomon-v2.6.0では未使用ですが,現バージョンでは設定のみ必要ですので,適当な空ファイルへのリンクを設定してください.
ANNOVARを使用する場合の設定について
ANNOVARのダウンロードにはユーザ登録 (User License Agreement) が必要です.
ANNOVARのホームページにてユーザ登録 (User License Agreement) が完了した後に,登録したメールアドレスにANNOVARをダウンロードするためのリンクが記載されたメールが届きます.そのリンクを使用してANNOVARをダウンロードします.ダウンロード後はANNOVARのPerlスクリプトを使用してdbSNP131などの各種データをダウンロードします.
# Genomonで必要なANNOVARのデータベースをダウンロードします.Copy and Pasteして使ってください.
DATABASE_LIST="
refGene
avsift
ljb26_all
cosmic68wgs
cosmic70
esp6500siv2_all
1000g2010nov
1000g2014oct
snp131
snp138
snp131NonFlagged
snp138NonFlagged
clinvar_20150629
"
for DATABASE in $DATABASE_LIST
do
./annotate_variation.pl -buildver hg19 -downdb -webfrom annovar $DATABASE humandb/
done
./annotate_variation.pl -buildver hg19 -downdb cytoBand humandb/
./annotate_variation.pl -buildver hg19 -downdb genomicSuperDups humandb/
ANNOVARを使用するようにパイプライン設定ファイルを編集する.以下の2か所の変更をお願いします.
[SOFTWARE]
annovar = [ANNOVARのパスをダウンロードしたANNOVAR]に変更する.
(例)annovar = /home/genomon/tools/annovar
[annotation]
active_annovar_flag = True
FalseをTrueに変更する (ANNOVARの使用する/しない)を管理しているフラグになります.デフォルトはFalseになります.
HGVDを使用する場合の設定について
HGVDのサイトのをお読みいただいた上,使用規約等に問題がなければパイプライン設定ファイルを編集する
active_HGVD_2013_flag = False
active_HGVD_2016_flag = False
FalseをTrueに変更する (HGVDの使用する/しない)を管理しているフラグになります.デフォルトはFalseになります.
ExACを使用する場合の設定について
ExACのサイトのをお読みいただいた上,使用規約等に問題がなければパイプライン設定ファイルを編集する
active_ExAC_flag = False
FalseをTrueに変更する (ExACの使用する/しない)を管理しているフラグになります.デフォルトはFalseになります.
実行時の環境設定¶
ジョブを投入するときに使うDRAMMのライブラリを設定します.
# N1GE用のDRMAA(HGCスパコンであればこちらでOK)です.ご使用しているDRMシステムのライブラリに変更をお願いします.
export DRMAA_LIBRARY_PATH= the path to the libdrmaa.so.1.0