stLFR重测序分析报告

English

stLFR-reSeq V2.0.0.0

1.数据产出

对高分子量gDNA样品使用华大智造的MGIEasy stLFR文库构建试剂盒进行文库制备,随后使用华大智造DNBSEQ测序仪对stLFR文库测序最终产出stLFR数据。stLFR数据将使用SOAPnuke进行低质量序列过滤得到有效数据,对有效数据进行碱基分布、质量分布、Q20、Q30等指标析以评估数据质量。

样品

V300022071A

序列统计

样本V300022071A
原始序列数1,685,759,388
原始碱基数(bp)168,575,938,800
有效序列数1,348,332,758
有效碱基数(bp)134,833,275,800
Q20(%)97.01
Q30(%)88.65
测序深度(X)56.19

 a. 原始序列经过低质量过滤后得到有效序列,低质量序列为包含以下任何一条:(1)含有接头序列;(2)序列中N比例超过1%;(3)序列中质量值低于10比例超过10%。

 b. Q20、Q30为有效序列中质量高于20或30的碱基比例。

 c. 测序深度根据原始序列数统计。

碱基分布

碱基比例分布图(x轴表示序列上的位置,y轴显示序列具体位置上的五种碱基比例)。

碱基质量分布

碱基质量分布图(x轴表示序列上的位置,y轴显示序列具体位置上的碱基质量分布热图,从白到绿到红依次表示碱基比例从低到高)。

2.stLFR长片段产出

使用虚拟隔离共标记技术实现的长片段序列是stLFR产品的特色。通过对长片段与barcode的组合关系、长片段长度及覆盖分析来展示stLFR产品的长片段性能。

文库片段Barcode统计

样本V300022071A
理论Barcode种类3,623,878,656
实际Barcode种类59,735,965
实际Barcode比例1.65%
序列对数842,879,694
拆分后有效序列对数713,953,863
拆分率84.7%
拆分后数据量(G)142.79

 a. stLFR数据是通过barcode进行长片段序列构建,因此需要首先对stLFR数据进行barcode拆分及过滤,并对每条序列进行barcode标记。表格显示了stLFR数据barcode拆分及过滤结果。

文库片段barcode分布图

stLFR文库片段与barcode关系示意图(x轴表示长片段中包含barcode的个数,y轴表示包含特定barcode个数的长片段数目)。

文库片段长度分布图

stLFR文库片段长度分布(x轴表示长度,y轴表示特定长度片段的比例)。

文库片段覆盖分布图

stLFR文库片段覆盖度分布(x轴表示覆盖度,y轴表示特定覆盖度的片段数目)。

3.比对信息

stLFR有效序列通过BWA或MegaBOLT软件与参考基因组进行比对定位,并通过比对率、深度覆盖、插入片段等指标进行性能评估。

比对统计

样本V300022071A
比对序列数1,346,475,379
比对碱基数(bp)134,647,537,900
比对率99.86%
成对比对率99.33%
错配碱基数746,868,575
错配率0.55%
重复序列数314,482,226
重复率23.32%
平均测序深度(X)26.822664
有效平均深度(X)34.98
覆盖度(≥1X)99.13%
覆盖度(≥4X)98.91%
覆盖度(≥10X)98.34%
覆盖度(≥20X)93.84%
平均插入片段(bp)228.31

 a. 比对结果基于低质量过滤及barcode拆分后的有效数据进行统计。

 b. 比对率和成对比对率分别表示正确和成对正确的比对到参考基因组的序列比例。

 c. 错配表示序列中与参考基因组不同的碱基信息。

 d. 重复序列表示来自PCR或其他因素导致的重复序列。

 e. 有效平均深度表示去除重复序列后基因组平均覆盖深度。

 f. 覆盖度分别统计参考基因组中覆盖超过1层、4层、10层、20层的比例。

 g. 平均插入片段表示成对比对序列的平均片段长度。

插入片段

插入片段分布图(x轴表示插入片段大小,y轴表示特定插入片段的比例)。

深度累积分析

累积深度分布图(x轴表示测序覆盖深度,y轴表示全基因组范围不低于特定覆盖深度的比例)。

深度分布

深度分布图(x轴表示测序覆盖深度,y轴表示特定覆盖深度在全基因组范围中所占比例)。

GC偏差

GC-bias分布图(x轴表示GC比例,y轴蓝点表示特定GC比例的归一化覆盖深度,y轴绿线表示特定GC区域的平均质量值,y轴红线表示参考基因组中特定GC所占比例)。

4.变异信息

通过GATK或MegaBLOT以及华大自主开发的CNV及SV软件对stLFR数据进行多种变异检测,得到SNP、INDEL、CNV、SV突变信息,并通过CIRCOS进行可视化展示。

变异统计

样本V300022071A
SNP个数3,976,683
dbSNP比例93.19%
未知SNP270,752
未知SNP比例6.81%
Ti/Tv1.95
INDEL个数913,668
dbINDEL比例73.8%
CNV deletion568
CNV duplication36
SV DEL28
SV DUP6
SV INV7
SV TRA0

 a. SNP: 单核苷酸多态性。

 b. Ti/TV:SNP的转换颠换比例。

 c. INDEL:插入与缺失。

 d. CNV:拷贝数变异。

 e. SV:结构变异。

 f. DEL: 缺失突变。

 g. DUP:重复突变。

 h. INV: 颠倒突变。

 i. TRA:移位突变。

变异评估

TPFPFNPPVSensitivityF-measure
SNP3,189,73310,16820,5240.99680.99360.9952
Indel455,21523,13026,0480.95160.94590.9488

 a. PPV: 阳性预测值,准确度,TP/(TP+FP)。

 b. Sensitivity: 灵敏度, TP/(TP+FN).

 c. F-measure: 灵敏度与准确度的调和平均数, 2*TP/(2*TP+FP+FN).

变异结果CIRCOS示意图

全基因组变异示意图及图例(图形由6个圆环组成,从外到内依次是(i)染色体、(ii)SNP密度曲线、(iii)INDEL密度曲线、(iv)CNV中deletion分布图、(v)CNV中duplication分布图、(vi)SV分布图)。

5.单倍体组装信息

使用HapCUT2软件结合stLFR数据的比对及突变信息进行单倍体组装,获取高质量的单倍体组装结果。

单倍体组装统计

染色体转换率错配率一致率缺失率SNP组装数AN50N50block组装率phasing rate
10.01010.00480.2740.0009176,55610,335,8129,395,6660.11560.9954
20.00050.00030.32310.0005179,14615,956,81110,450,1790.15270.9963
30.00040.00030.17590.0004149,64710,121,4689,445,8290.1070.9967
40.01050.00480.29670.0006158,04117,745,17217,799,1990.13310.9965
50.00980.0040.27350.0005144,07329,257,52529,402,5370.23410.9965
60.01080.00440.27780.0004156,46312,084,35511,848,0710.20950.9966
70.00390.00170.24810.0006125,83916,590,96316,637,9240.18580.9964
80.00940.00390.27130.0006120,38910,515,2739,614,3790.16180.9967
90.010.00480.21480.0017102,69714,486,48313,793,9370.17030.9943
100.00460.00250.25010.0005113,96616,063,79216,124,2110.170.9963
110.01090.00490.21940.0005106,38213,220,22912,827,5410.15090.9966
120.00030.00030.20020.0004102,26111,496,4978,466,5990.17660.9965
130.00060.00040.36230.000378,91127,849,57327,930,5810.33840.9968
140.00050.00030.14830.001172,4587,483,2314,494,1880.22270.9958
150.00090.00030.2690.001163,19611,982,0197,995,6800.22940.995
160.00070.00040.44460.000875,17422,472,70322,524,7340.41370.9967
170.00070.00040.25070.000656,9826,892,7066,906,4350.18220.9958
180.00950.00470.29760.000362,85913,105,91813,142,4110.25620.9969
190.01440.00650.41330.000652,98220,934,91721,011,3600.44510.9963
200.00040.00020.22560.000449,75412,073,89412,120,6540.4130.9968
210.00050.00030.26890.001440,17614,433,34714,479,2680.38190.9956
220.01110.0050.37130.001633,85022,849,32712,138,9690.63060.9959
X0.0010.00050.18030.000671,8287,022,6705,134,6560.12480.9946
Y0000.00771,80464,24900.45250.955
全基因组0.00570.00260.26630.00072,295,43413,899,41011,697,6880.2050.9962

 a. 转换率: 发生转换错误位点的比例。

 b. 错配率:发生不一致错配位点的比例。

 c. 一致率: 单倍体与参考序列的最小汉明距离。

 d. 缺失率:所有覆盖位点上发生错配的比例。

 e. SNP组装数: 用于组装成单倍体的SNV数据。

 f. AN50: 单倍体结果中AN50。

 g. N50: 单倍体结果中N50。

 h. block组装率: 最大组装单倍体block中SNP比例。

 i. SNP组装率: 用于单倍体组装的SNP比例。

单倍体组装示意图

单倍体组装示意图(每一行表示一个染色体,白色表示没有组装区域,灰色、深蓝色表示独立组装好的单倍体block)。