DNA 解析結果ファイルの説明

結果ファイルは実行時に指定した 出力ルートディレクトリに出力されます.

# 変異コール結果
{出力ルートディレクトリ}/post_analysis/{サンプル設定ファイル名}/merge_mutation_filt.txt
# SV検出結果
{出力ルートディレクトリ}/post_analysis/{サンプル設定ファイル名}/merge_sv_filt.txt
# BAMのQuality Controlの結果
{出力ルートディレクトリ}/post_analysis/{サンプル設定ファイル名}/merge_qc.txt
# Paplotの結果
# index.htmlをクリックすることで結果が表示されます.
{出力ルートディレクトリ}/paplot/{サンプル設定ファイル名}

変異コール結果

変異コールの結果はサンプルシートに入力したパターンによって少し異なります.
Normalサンプルがないパターン(パターン3,4)では,Normalサンプルの項目が出力されません.

サンプルシートのパターンについては DNA サンプル設定ファイルについて を参照ください.

mutationのコール結果は次のように出力されますが,サンプルシートのパターンによって,出力されないファイルもあります.
たとえば,すべてパターン1で入力した場合,パターン2,3,4のファイルは出力されません.

フィルタリングなし

# すべての結果をマージ
{出力ルートディレクトリ}/post_analysis/{サンプル設定ファイル名}/merge_mutation.txt

# パターン1の結果をマージ
{出力ルートディレクトリ}/post_analysis/{サンプル設定ファイル名}/merge_mutation_pair_controlpanel.txt

# パターン2の結果をマージ
{出力ルートディレクトリ}/post_analysis/{サンプル設定ファイル名}/merge_mutation_pair.txt

# パターン3の結果をマージ
{出力ルートディレクトリ}/post_analysis/{サンプル設定ファイル名}/merge_mutation_unpair_controlpanel.txt

# パターン4の結果をマージ
{出力ルートディレクトリ}/post_analysis/{サンプル設定ファイル名}/merge_mutation_unpair.txt

フィルタリングあり

フィルタの内容はNormalサンプルがあるかないかで異なります.次の項目を参照ください.

# すべての結果をマージ
{出力ルートディレクトリ}/post_analysis/{サンプル設定ファイル名}/merge_mutation_filt.txt

# パターン1の結果をマージ
{出力ルートディレクトリ}/post_analysis/{サンプル設定ファイル名}/merge_mutation_pair_controlpanel_filt.txt

# パターン2の結果をマージ
{出力ルートディレクトリ}/post_analysis/{サンプル設定ファイル名}/merge_mutation_pair_filt.txt

# パターン3の結果をマージ
{出力ルートディレクトリ}/post_analysis/{サンプル設定ファイル名}/merge_mutation_unpair_controlpanel_filt.txt

# パターン4の結果をマージ
{出力ルートディレクトリ}/post_analysis/{サンプル設定ファイル名}/merge_mutation_unpair_filt.txt

Tumor V.S. Normalで比較 (パターン1, パターン2)

変異コール結果ファイルはパイプライン設定ファイルの以下のハイライトの値でフィルタしています.

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
[fisher_mutation_call]
# Fisher(P-value)>= 1.0
fisher_pval-log10_thres = 1.0
post_10_q_thres = 0.1

[realignment_filter]
# variantPairNum_tumor >= 4
disease_min_mismatch=4
# variantPairNum_normal <= 2
control_max_mismatch=2
score_diff=5
window_size=200
max_depth=5000
# P-value(fisher)_realignment: >= 1.0
fisher_pval-log10_thres = 1.0
post_10_q_thres = 0.1

[eb_filter]
map_quality = 20
base_quality = 15
# EBCall(P-value)>= 4.0
ebcall_pval-log10_thres = 4.0

各カラムの説明

Chr Start End:変異候補のポジション
Ref:変異候補のポジションのリファレンス塩基です.Insertion の場合は - (ハイフン) が表示されます.
Alt:変異候補のポジションの塩基配列です.Deletion の場合は - (ハイフン) になります.
ANNOVARの結果:ANNOVAR をご使用の方はこのカラムに結果が出力されます. 各カラムの説明は ANNOVAR のwebページでチェックしてください.
depth_tumor:Tumorのdepth
variantNum_tumor:
 Tumorの変異アレルの数
depth_normal:Normalのdepth
variantNum_normal:
 Normalの変異アレルの数
bases_tumor:Tumorの塩基数.フォーマットは(depth_strand+,variantNum_strand+,depth_strand-,variantNum_strand-)の数になります.
bases_normal:Normalの塩基数.
A_C_G_T_tumor:Tumorの塩基数.SNVの場合は(A,C,G,T) の各個数,indel の場合は (Depth, indelのリード数) になります.
A_C_G_T_normal:Normalの塩基数.
misRate_tumor:Tumorのミスマッチ率.
strandRatio_tumor:
 Tumorのstrand ratio.
misRate_normal:Normalのミスマッチ率
strandRatio_normal:
 Normalのstrand ratio.変異数がない場合は - が出力されます.
P-value(fisher):
 Fisher -log10(p値)
RefNum_tumor:変異を含まないリード数
AltNum_tumor:変異を含むリード数
OtherNum_tumor:リアライメントできなかったリード数
RefNum_normal:変異を含まないリード数
AltNum_normal:変異を含むリード数
OtherNum_normal:
 リアライメントできなかったリード数
P-value(fisher)_realignment:
 Fisher-log10(p値).tableは((RefNum_tumor,RefNum_normal),(AltNum_tumor,AltNum_normal))
indel_variantNum:
 変異候補周辺のindelを含むリード数(indelは同一ポジションであれば加算される)
indel_mismatch_rate:
 上記indelのミスマッチ率
bp_mismatch_count:
 変異候補周辺のbreakpointを含むリード数(breakpointは同一ポジションにあれば加算される)
distance_from_breakpoint:
 変異候補からbreakpoointが何塩基離れているか表示されます.
simple_repeat_pos:
 変異候補のポジションとSimpleRepeatに登録されているポジションがintersectした場合にSimpleRepeatのポジションが表示されます.
simple_repeat_seq:
 上記SimpleRepeatの配列
P-value(EBCall):
 EBCall -log10(p値) sample.csvにcontrolパネルがNoneの場合は出力されません
HGVDの結果:HGVDをご使用の方はここにHGVDの結果が出力されます.

Normalなし (パターン3, パターン4)

変異コール結果ファイルはパイプライン設定ファイルの以下のハイライトの値でフィルタしています.

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
[fisher_mutation_call]
# Fisher(P-value)>= 1.0
fisher_pval-log10_thres = 1.0
post_10_q_thres = 0.1

[realignment_filter]
# variantPairNum_tumor >= 4
disease_min_mismatch=4
control_max_mismatch=2
score_diff=5
window_size=200
max_depth=5000
# P-value(fisher)_realignment: >= 1.0
fisher_pval-log10_thres = 1.0
post_10_q_thres = 0.1

[eb_filter]
map_quality = 20
base_quality = 15
# EBCall(P-value)>= 4.0
ebcall_pval-log10_thres = 4.0

各カラムの説明

Chr Start End:変異候補のポジション
Ref:変異候補のポジションのリファレンス塩基です.Insertion の場合は”-“ハイフンが表示されます.
Alt:変異候補のポジションの塩基配列です.Deletion の場合は”-“ハイフンになります.
ANNOVARの結果:ANNOVAR をご使用の方はANNOVARの結果が出力されます.各カラムの説明は ANNOVAR のwebページでチェックしてください.
depth:depth
variantNum:変異アレルのリード数
bases:フォーマットは(depth_strand+,variantNum_strand+,depth_strand-,variantNum_strand-)の数になります.
A_C_G_T:SNVの場合は(A,C,G,T) の各個数,indel の場合は (Depth, indelのリード数) になります.
misRate:ミスマッチ率.
strandRatio:strand ratio.
10%_posterior_quantile:
 depthと変異アレルの数は二項分布でモデル化するためにβ分布を利用.10%の値
posterior_mean:mean値
90%_posterior_quantile:
 depthと変異アレルの数は二項分布でモデル化するためにβ分布を利用.90%の値
readPairNum:変異を含まないリード数
variantPairNum:変異を含むリード数
otherPairNum:リアライメントできなかったリード数
10%_posterior_quantile(realignment):
 realignmentのreadPairNumとvariantPairNumでβ分布を利用.10%の値
posterior_mean(realignment):
 mean値
90%_posterior_quantile(realignment):
 realignmentのreadPairNumとvariantPairNumでβ分布を利用.90%の値
simple_repeat_pos:
 SimpleRepeatに登録されているか
simple_repeat_seq:
 上記SimpleRepeatの配列
P-value(EBCall):
 EBCall -log10(p値) sample.csvにcontrolパネルがNoneの場合は出力されません
HGVDの結果:HGVDをご使用の方はここにHGVDの結果が出力されます.

SV検出結果

サンプルシートのパターンについては DNA サンプル設定ファイルについて を参照ください.

SV検出結果は次のように出力されますが,サンプルシートのパターンによって,出力されないファイルもあります.
たとえば,すべてパターン1で入力した場合,パターン2,3,4のファイルは出力されません.

フィルタリングなし

# すべての結果をマージ
{出力ルートディレクトリ}/post_analysis/{サンプル設定ファイル名}/sv.txt

# パターン1の結果をマージ
{出力ルートディレクトリ}/post_analysis/{サンプル設定ファイル名}/sv_pair_controlpanel.txt

# パターン2の結果をマージ
{出力ルートディレクトリ}/post_analysis/{サンプル設定ファイル名}/sv_pair.txt

# パターン3の結果をマージ
{出力ルートディレクトリ}/post_analysis/{サンプル設定ファイル名}/sv_unpair_controlpanel.txt

# パターン4の結果をマージ
{出力ルートディレクトリ}/post_analysis/{サンプル設定ファイル名}/sv_unpair.txt

フィルタリングあり

フィルタの内容はdna_genomon.cfgで設定したパラメータに基づいていますが,デフォルトは以下です.

min_tumor_allele_freq >= 0.07
max_control_variant_read_pair >= 1
control_depth_thres >= 10
inversion_size_thres >= 1000
# すべての結果をマージ
{出力ルートディレクトリ}/post_analysis/{サンプル設定ファイル名}/sv_filt.txt

# パターン1の結果をマージ
{出力ルートディレクトリ}/post_analysis/{サンプル設定ファイル名}/sv_pair_controlpanel_filt.txt

# パターン2の結果をマージ
{出力ルートディレクトリ}/post_analysis/{サンプル設定ファイル名}/sv_pair_filt.txt

# パターン3の結果をマージ
{出力ルートディレクトリ}/post_analysis/{サンプル設定ファイル名}/sv_unpair_controlpanel_filt.txt

# パターン4の結果をマージ
{出力ルートディレクトリ}/post_analysis/{サンプル設定ファイル名}/sv_unpair_filt.txt

各カラムの説明

Chr_1:第1ブレークポイントにおける染色体 chromosome for the 1st breakpoint
Pos_1:第1ブレークポイントにおける座標
Dir_1:第1ブレークポイントの向き
Chr_2:第2ブレークポイントにおける染色体
Pos_2:第2ブレークポイントにおける座標
Dir_2:第2ブレークポイントの向き
Inserted_Seq:ブレークポイント間の挿入塩基配列
Variant_Type:構造変異のタイプ(deletion, inversion, tandem_duplication, translocation)
Gene_1:第1ブレークポイントにおける遺伝子
Gene_2:第2ブレークポイントにおける遺伝子
Exon_1:第1ブレークポイントにおけるエキソンに対応する遺伝子
Exon_2:第2ブレークポイントにおけるエキソンに対応する遺伝子
Num_Tumor_Ref_Read_Pair:
 tumor sampleにおけるリファレンス配列(構造変異なし配列)をサポートするリードペアの本数
Num_Tumor_Var_Read_Pair:
 tumor sampleにおける変異配列をサポートするリードペアの本数
Tumor_VAF:tumor sampleにおける変異配列をサポートするリードペアの割合
Num_Control_Ref_Read_Pair:
 matched control sampleにおけるリファレンス配列(構造変異なし配列)をサポートするリードペアの本数
Num_Control_Var_Read_Pair:
 matched control sampleにおける変異配列をサポートするリードペアの本数
Control_VAF:matched control sampleにおける変異配列をサポートするリードペアの割合
Minus_Log_Fisher_P_value:
 -log10 (P-value) fisher’s exact test on contingency table of (tumor v.s. matched control) and (reference variant read pairs)
Non-Matched_Control_Sample_With_Max_Junction:
 non-matched control sampleにおいて対応するjunction read pairが最大となったサンプル
Num_Max_Non-Matched_Control_Junction:
 non-matched control sampleにおいて対応するjunction read pairの最大数
Max_Over_Hang_1:
 第1ブレークポイントにおける最大オーバーハングサイズ
Max_Over_Hang_2:
 第2ブレークポイントにおける最大オーバーハングサイズ

QC結果 (BAMのQuality Control)

各カラムの説明

bam_filename:

the name of the bam file stats have been collected for.

sample:

the name of the sample (taken from the bam file).

platform:

the name of the hardware platform (taken from the bam file).

platform_unit:

the platform unit (i.e. lane/run) of the hardware platform (taken from the bam file).

library:

the library name associated with the read group.

readgroup:

the read group name.

read_length_r1:

the read length associated with read 1.

read_length_r2:

the read length associated with read 2.

#_mapped_bases:

the total number of mapped bases.

  • #_mapped_bases_r1: the total number of mapped bases for all read 1s.
  • #_mapped_bases_r2: the total number of mapped bases for all read 2s.
#_divergent_bases:
 

the total number of bases divergent from the reference.

  • #_divergent_bases_r1: the total number of bases divergent from the reference for all read 1s.
  • #_divergent_bases_r2: the total number of bases divergent from the reference for all read 2s.
#_total_reads:

the total number of reads.

  • #_total_reads_r1: the total number of read 1s.
  • #_total_reads_r2: the total number of read 2s.
#_mapped_reads:

the total number of unmapped reads.

  • #_mapped_reads_r1: the total number of unmapped read 1s.
  • #_mapped_reads_r2: the total number of unmapped read 2s.
#_mapped_reads_properly_paired:
 

the total number of properly paired reads.

#_gc_bases_r1:

the total number of G/C bases in read 1s.

#_gc_bases_r2:

the total number of G/C bases in read 2s.

mean_insert_size:
 

the mean insert size.

insert_size_sd:

the insert size standard deviation.

median_insert_size:
 

the median insert size.

#_duplicate_reads:
 

the total number of duplicate reads.

total_depth:

the total number of depth.

bait_size:

bait size.

average_depth:

the mean depth. (total_depth/bait_size)

depth_stdev:

the depth standard deviation.

Nx_ratio:

coverage N※以上のdepthを持つbaseの比率. (Nx/bait_size)

Nx:

N以上のdepthを持つbase総数

※ coverage Nはパイプライン設定ファイルで指定した値です.

1
2
3
4
5
6
7
[coverage]
qsub_option = -l s_vmem=1G,mem_req=1G
coverage    = 2,10,20,30,40,50,100
wgs_flag = False
wgs_incl_bed_width = 1000000
wgs_i_bed_lines = 10000
wgs_i_bed_width = 100