DNA 解析結果ファイルの説明

結果ファイルは実行時に指定した 出力ルートディレクトリに以下に出力されます.

# 変異コール結果
{出力ルートディレクトリ}/post_analysis/{サンプル設定ファイル名}/merge_mutation_filt.txt
# SV検出結果
{出力ルートディレクトリ}/post_analysis/{サンプル設定ファイル名}/merge_sv_filt.txt
# BAMのQuality Controlの結果
{出力ルートディレクトリ}/post_analysis/{サンプル設定ファイル名}/merge_qc.txt
# Paplotの結果
# index.htmlをクリックすることで結果が表示されます.
{出力ルートディレクトリ}/paplot/{サンプル設定ファイル名}

変異コール結果(Tumor V.S. Normalで比較)

(Tumor V.S. Normalで比較した)変異コール結果ファイルはパイプライン設定ファイルの以下のハイライトの値でフィルタしています.

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
[fisher_mutation_call]
fisher_pval-log10_thres = 1.0
post_10_q_thres = 0.1

[realignment_filter]
disease_min_mismatch=4
control_max_mismatch=2
score_diff=5
window_size=200
max_depth=5000
fisher_pval-log10_thres = 1.0
post_10_q_thres = 0.1

[eb_filter]
map_quality = 20
base_quality = 15
ebcall_pval-log10_thres = 4.0

各カラムの説明

Chr Start End
変異候補のポジション
Ref
変異候補のポジションのリファレンス塩基です.Insertion の場合は”-“ハイフンが表示されます.
Alt
変異候補のポジションの塩基配列です.Deletion の場合は”-“ハイフンになります.
ANNOVARの結果
ANNOVAR をご使用の方はこのカラムに結果が出力されます.各カラムの説明は ANNOVAR のwebページでチェックしてください.
depth_tumor
Tumorのdepth
variantNum_tumor
Tumorの変異アレルの数
depth_normal
Normalのdepth
variantNum_normal
Normalの変異アレルの数
bases_tumor
Tumorの塩基数.フォーマットは(depth_strand+,variantNum_strand+,depth_strand-,variantNum_strand-)の数になります.
bases_normal
Normalの塩基数.
A_C_G_T_tumor
Tumorの塩基数.SNVの場合は(A,C,G,T) の各個数,indel の場合は (Depth, indelのリード数) になります.
A_C_G_T_normal
Normalの塩基数.
misRate_tumor
Tumorのミスマッチ率.
strandRatio_tumor
Tumorのstrand ratio.
misRate_normal
Normalのミスマッチ率
strandRatio_normal
Normalのstrand ratio.変異数がない場合は-が出力されます.
P-value(fisher)
Fisher -log10(p値)
RefNum_tumor
変異を含まないリード数
AltNum_tumor
変異を含むリード数
OtherNum_tumor
リアライメントできなかったリード数
RefNum_normal
変異を含まないリード数
AltNum_normal
変異を含むリード数
OtherNum_normal
リアライメントできなかったリード数
P-value(fisher)_realignment
Fisher-log10(p値).tableは((RefNum_tumor,RefNum_normal),(AltNum_tumor,AltNum_normal))
indel_variantNum
変異候補周辺のindelを含むリード数(indelは同一ポジションであれば加算される)
indel_mismatch_rate
上記indelのミスマッチ率
bp_mismatch_count
変異候補周辺のbreakpointを含むリード数(breakpointは同一ポジションにあれば加算される)
distance_from_breakpoint
変異候補からbreakpoointが何塩基離れているか表示されます.
simple_repeat_pos
変異候補のポジションとSimpleRepeatに登録されているポジションがintersectした場合にSimpleRepeatのポジションが表示されます.
simple_repeat_seq
上記SimpleRepeatの配列
P-value(EBCall)
EBCall -log10(p値) sample.csvにcontrolパネルがNoneの場合は出力されません
HGVDの結果
HGVDをご使用の方はここにHGVDの結果が出力されます.

変異コール結果 (Tumor V.S. Normalで比較しない)

(Tumor V.S. Normalで比較しない)変異コール結果ファイルはパイプライン設定ファイルの以下のハイライトの値でフィルタしています.

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
[fisher_mutation_call]
fisher_pval-log10_thres = 1.0
post_10_q_thres = 0.1

[realignment_filter]
disease_min_mismatch=4
control_max_mismatch=2
score_diff=5
window_size=200
max_depth=5000
fisher_pval-log10_thres = 1.0
post_10_q_thres = 0.1

[eb_filter]
map_quality = 20
base_quality = 15
ebcall_pval-log10_thres = 4.0

各カラムの説明

Chr Start End
変異候補のポジション
Ref
変異候補のポジションのリファレンス塩基です.Insertion の場合は”-“ハイフンが表示されます.
Alt
変異候補のポジションの塩基配列です.Deletion の場合は”-“ハイフンになります.
ANNOVARの結果
ANNOVAR をご使用の方はANNOVARの結果が出力されます.各カラムの説明は ANNOVAR のwebページでチェックしてください.
depth
depth
variantNum
変異アレルのリード数
bases
フォーマットは(depth_strand+,variantNum_strand+,depth_strand-,variantNum_strand-)の数になります.
A_C_G_T
SNVの場合は(A,C,G,T) の各個数,indel の場合は (Depth, indelのリード数) になります.
misRate
ミスマッチ率.
strandRatio
strand ratio.
10%_posterior_quantile
depthと変異アレルの数は二項分布でモデル化するためにβ分布を利用.10%の値
posterior_mean
mean値
90%_posterior_quantile
depthと変異アレルの数は二項分布でモデル化するためにβ分布を利用.90%の値
readPairNum
変異を含まないリード数
variantPairNum
変異を含むリード数
otherPairNum
リアライメントできなかったリード数
10%_posterior_quantile(realignment)
realignmentのreadPairNumとvariantPairNumでβ分布を利用.10%の値
posterior_mean(realignment)
mean値
90%_posterior_quantile(realignment)
realignmentのreadPairNumとvariantPairNumでβ分布を利用.90%の値
simple_repeat_pos
SimpleRepeatに登録されているか
simple_repeat_seq
上記SimpleRepeatの配列
P-value(EBCall)
EBCall -log10(p値) sample.csvにcontrolパネルがNoneの場合は出力されません
HGVDの結果
HGVDをご使用の方はここにHGVDの結果が出力されます.

SV検出結果

genomonSV.result.filt.txt(フィルタ済み結果)ファイルは,genomonSV.result.txtをdna_genomon.cfgで設定したパラメータに基づいてフィルタリングした結果です.

各カラムの説明

Chr_1
第1ブレークポイントにおける染色体 chromosome for the 1st breakpoint
Pos_1
第1ブレークポイントにおける座標
Dir_1
第1ブレークポイントの向き
Chr_2
第2ブレークポイントにおける染色体
Pos_2
第2ブレークポイントにおける座標
Dir_2
第2ブレークポイントの向き
Inserted_Seq
ブレークポイント間の挿入塩基配列
Variant_Type
構造変異のタイプ(deletion, inversion, tandem_duplication, translocation)
Gene_1
第1ブレークポイントにおける遺伝子
Gene_2
第2ブレークポイントにおける遺伝子
Exon_1
第1ブレークポイントにおけるエキソンに対応する遺伝子
Exon_2
第2ブレークポイントにおけるエキソンに対応する遺伝子
Num_Tumor_Ref_Read_Pair
tumor sampleにおけるリファレンス配列(構造変異なし配列)をサポートするリードペアの本数
Num_Tumor_Var_Read_Pair
tumor sampleにおける変異配列をサポートするリードペアの本数
Tumor_VAF
tumor sampleにおける変異配列をサポートするリードペアの割合
Num_Control_Ref_Read_Pair
matched control sampleにおけるリファレンス配列(構造変異なし配列)をサポートするリードペアの本数
Num_Control_Var_Read_Pair
matched control sampleにおける変異配列をサポートするリードペアの本数
Control_VAF
matched control sampleにおける変異配列をサポートするリードペアの割合
Minus_Log_Fisher_P_value
-log10 (P-value) fisher’s exact test on contingency table of (tumor v.s. matched control) and (reference variant read pairs)
Non-Matched_Control_Sample_With_Max_Junction
non-matched control sampleにおいて対応するjunction read pairが最大となったサンプル
Num_Max_Non-Matched_Control_Junction
non-matched control sampleにおいて対応するjunction read pairの最大数
Max_Over_Hang_1
第1ブレークポイントにおける最大オーバーハングサイズ
Max_Over_Hang_2
第2ブレークポイントにおける最大オーバーハングサイズ

QC結果 (BAMのQuality Control)

各カラムの説明

bam_filename
the name of the bam file stats have been collected for.
sample
the name of the sample (taken from the bam file).
platform
the name of the hardware platform (taken from the bam file).
platform_unit
the platform unit (i.e. lane/run) of the hardware platform (taken from the bam file).
library
the library name associated with the read group.
readgroup
the read group name.
read_length_r1
the read length associated with read 1.
read_length_r2
the read length associated with read 2.
#_mapped_bases
the total number of mapped bases.
#_mapped_bases_r1:
 the total number of mapped bases for all read 1s.
#_mapped_bases_r2:
 the total number of mapped bases for all read 2s.
#_divergent_bases
the total number of bases divergent from the reference.
#_divergent_bases_r1:
 the total number of bases divergent from the reference for all read 1s.
#_divergent_bases_r2:
 the total number of bases divergent from the reference for all read 2s.
#_total_reads
the total number of reads.
#_total_reads_r1
the total number of read 1s.
#_total_reads_r2
the total number of read 2s.
#_mapped_reads
the total number of unmapped reads.
#_mapped_reads_r1:
 the total number of unmapped read 1s.
#_mapped_reads_r2:
 the total number of unmapped read 2s.
#_mapped_reads_properly_paired
the total number of properly paired reads.
#_gc_bases_r1
the total number of G/C bases in read 1s.
#_gc_bases_r2
the total number of G/C bases in read 2s.
mean_insert_size
the mean insert size.
insert_size_sd
the insert size standard deviation.
median_insert_size
the median insert size.
#_duplicate_reads
the total number of duplicate reads.
total_depth
the total number of depth.
bait_size
bait size.
average_depth
the mean depth. (total_depth/bait_size)
depth_stdev
the depth standard deviation.
Nx_ratio
coverage N※以上のdepthを持つbaseの比率. (Nx/bait_size)
Nx
N以上のdepthを持つbase総数

※ coverage Nはパイプライン設定ファイルで指定した値です.

1
2
3
4
5
6
7
[coverage]
qsub_option = -l s_vmem=1G,mem_req=1G
coverage    = 2,10,20,30,40,50,100
wgs_flag = False
wgs_incl_bed_width = 1000000
wgs_i_bed_lines = 10000
wgs_i_bed_width = 100