Genomonインストール

HGCスパコン以外のコンピュータにインストールする場合に必要な手順です.

インストール必須要件

  • Linux
  • Drmaa(http://www.drmaa.org/)が使用できるDRMシステム
  • DRMシステムを入れて運用する程度のスペックのあるコンピュータ
※HGCスパコンではGrid Engineを使用しています

Genomonのインストール

GenomonとGenomonを動かすのに必要なpythonパッケージのインストールについて記載します. 必要なパッケージは4つです→Genomon,ruffus,PyYAML,drmaa

# Genomonのダウンロードとインストール
wget https://github.com/Genomon-Project/GenomonPipeline/archive/v2.2.0.tar.gz
tar xzvf v2.2.0.tar.gz
cd GenomonPipeline-v2.2.0
python setup.py install --user

# ruffusのダウンロードとインストール
wget https://github.com/bunbun/ruffus/archive/v2.6.3.tar.gz
tar xzvf v2.6.3.tar.gz
cd ruffus-2.6.3
python setup.py install --user

# PyYAMLのダウンロード
git clone https://github.com/ravenac95/PyYAML
cd PyYAML
python setup.py install --user

# drmaa
pip install drmaa --user

Genomonで使用するデータベースのインストール

インストールが必要なデータベースはパイプライン設定ファイルに記載されています.ご使用のコンピュータに各データベースをインストールしてパイプライン設定ファイルの[REFERENCE]に記載されているパスを書き換えてください.

ref_fasta
cfgに指定したリファレンスゲノムと,それに紐づくBWA indexファイル,FASTA indexファイルを用意する必要があります.まずはメインのリファレンスゲノムですが,Genomon2では以下の3つのFASTAファイルをマージしたものを使用しています.
1) Human Genome
2) Human herpesvirus 4 complete wild type genome
3) decoy
リファレンスの特性について詳細は上記の各webサイトの説明よんでください.たとえば,GRCh37-liteはpseudo-autosomal regions on chrY masked with Nsしているなどの記載があります.他にBWA index, FASTA indexを生成する必要があります.

・BWA index ファイルの作成コマンド
/home/w3varann/genomon_pipeline-2.0.5/tools/bwa-0.7.8/bwa index {マージしたファイル}
・FASTA index ファイルの作成コマンド
/home/w3varann/genomon_pipeline-2.0.5/tools/samtools-1.2/samtools faidx {マージしたファイル}

interval_list
並列処理をするために使用します.以下のサイトからダウンロードしてください
star_genome
Star indexファイルを作成する必要があります.解析対象のreadのおよその長さに合わせてオプション –sjdbOverhang の指定を変えることができますが,100で大体よいとマニュアルに書いてあって,実際に問題なく検出できているので,現在はread lengthによって変えなくても良しとしています
gaptxt
NCBIからダウンロードして解凍してご使用ください(originalのままを使用しています)
bait_file
exomeの場合のbam summaryのcoverageを計算するとき使います.SureSelectなど使用したbaitファイルがある場合はそちらを設定してください.無い場合はrefGene.coding.exon.bedを使用してもらえればと思います.refGene.coding.exon.bed はrefGene.txtのcoding exon領域だけをとりだして,そちらをbaitの範囲としています.作成方法は以下のwebサイトに記載しています.
Whole genomeシーケンスの場合はbait_fileを使用しません.Whole Genomeの解析の場合はパイプライン設定ファイルの以下のハイライトのパラメタをTrueに変更してください.
1
2
3
4
5
6
7
[coverage]
qsub_option = -l s_vmem=1G,mem_req=1G
coverage    = 2,10,20,30,40,50,100
wgs_flag = False
wgs_incl_bed_width = 1000000
wgs_i_bed_lines = 10000
wgs_i_bed_width = 100
simple_repeat_tabix_db
NCBIからsimpleRepeat.bedをダウンロードしてtabixのindexファイルをはります.
# tabixを作成する
cut -f2- simpleRepeat.txt > simpleRepeat.bed
tabix-0.2.6/bgzip simpleRepeat.bed
tabix-0.2.6/tabix simpleRepeat.bed.gz
HGVD_tabix_db
京都大学からHGVDのファイルをダウンロード,VCF→TAB変換し,tabixのindexファイルをはります.
# TAB変換のツールはこちら
git clone https://github.com/Genomon-Project/genomon_utils
# tabixを作成する
python genomon_utils/annotator_HGVD.py DBexome20131010.tab | sort -k1,1 -k2,2n -k3,3n -k4,4 -k5,5 -k6,6 > DBexome20131010.bed
tabix-0.2.6/bgzip DBexome20131010.bed
tabix-0.2.6/tabix DBexome20131010.bed.gz

Genomonで呼び出されるソフトウェアのインストール

インストールが必要なソフトウェアはパイプライン設定ファイルに記載されています.ご使用のコンピュータに各ソフトウェアをインストールしてパイプライン設定ファイルの[SOFTWARE]に記載されているパスを書き換えてください

DNAパイプライン設定ファイル

項目 webサイト バージョン
blat https://genome.ucsc.edu/FAQ/FAQblat.html#blat3 BLAT v.34
bwa http://bio-bwa.sourceforge.net/ bwa-0.7.8
samtools http://samtools.sourceforge.net/ samtools-1.2
bedtools http://code.google.com/p/bedtools/ bedtools-2.24.0
biobambam https://github.com/gt1/biobambam biobambam-0.0.191
bamstats https://github.com/ICGC-TCGA-PanCancer/PCAP-core PCAP-core-dev.20150511
hstlib http://www.htslib.org/download/ htslib-1.3
genomon_sv https://github.com/Genomon-Project/GenomonSV genomonsv-0.4.0beta2
sv_utils https://github.com/friend1ws/sv_utils v0.4.0beta
mutfilter https://github.com/Genomon-Project/GenomonMutationFilter v0.1.0
ebfilter https://github.com/Genomon-Project/EBFilter v0.1.1
fisher https://github.com/Genomon-Project/GenomonFisher v0.1.1
mutanno https://github.com/Genomon-Project/GenomonMutationAnnotator v0.1.0
genomon_pa https://github.com/aokad/GenomonPostAnalysis v1.0.2
pa_plot https://github.com/Genomon-Project/paplot v0.2.8
mutil https://github.com/Genomon-Project/GenomonMutationAnnotator v0.3.0
ANNOVAR http://annovar.openbioinformatics.org/en/latest/ versionは最新でよい

RNAパイプライン設定ファイル

項目 webサイト バージョン
samtools http://samtools.sourceforge.net/ samtools-1.2
tophat2 http://ccb.jhu.edu/software/tophat/index.shtml 2.0.14.Linux
STAR https://github.com/alexdobin/STAR 2.4
STAR-Fusion https://github.com/STAR-Fusion/STAR-Fusion Genomon-v2.0.5では未使用
fusionfusion https://github.com/Genomon-Project/fusionfusion v0.1.0

ANNOVARを使用する場合の設定について

ANNOVARのダウンロードにはユーザ登録 (User License Agreement) が必要です.
ANNOVARのホームページにてユーザ登録 (User License Agreement) が完了した後に,登録したメールアドレスにANNOVARをダウンロードするためのリンクが記載されたメールが届きます.そのリンクを使用してANNOVARをダウンロードします.ダウンロード後はANNOVARのPerlスクリプトを使用してdbSNP131などの各種データをダウンロードします.
# Genomonで必要なANNOVARのデータベースをダウンロードします.Copy and Pasteして使ってください.
DATABASE_LIST="
refGene
avsift
ljb26_all
cosmic68wgs
cosmic70
esp6500siv2_all
1000g2010nov
1000g2014oct
snp131
snp138
snp131NonFlagged
snp138NonFlagged
clinvar_20150629
"
for DATABASE in $DATABASE_LIST
do
  ./annotate_variation.pl -buildver hg19 -downdb -webfrom annovar $DATABASE humandb/
done
./annotate_variation.pl -buildver hg19 -downdb cytoBand humandb/
./annotate_variation.pl -buildver hg19 -downdb genomicSuperDups humandb/

ANNOVARを使用するようにパイプライン設定ファイルを編集する.以下の2か所の変更をお願いします.

[SOFTWARE]
annovar = [ANNOVARのパスをダウンロードしたANNOVAR]に変更する.
()annovar = /home/genomon/tools/annovar

[annotation]
active_annovar_flag = True
FalseをTrueに変更する (ANNOVARの使用する/しない)を管理しているフラグになります.デフォルトはFalseになります.

HGVDを使用する場合の設定について

HGVDのサイトのをお読みいただいた上,使用規約等に問題がなければパイプライン設定ファイルを編集する
active_HGVD_flag = True
FalseをTrueに変更する (HGVDの使用する/しない)を管理しているフラグになります.デフォルトはFalseになります.

実行時の環境設定

ジョブを投入するときに使うDRAMMのライブラリを設定します.

# N1GE用のDRMAA(HGCスパコンであればこちらでOK)です.ご使用しているDRMシステムのライブラリに変更をお願いします.
export DRMAA_LIBRARY_PATH= the path to the libdrmaa.so.1.0