对高分子量gDNA样品使用华大智造的MGIEasy stLFR文库构建试剂盒进行文库制备,随后使用华大智造DNBSEQ测序仪对stLFR文库测序最终产出stLFR数据。stLFR数据将使用SOAPnuke进行低质量序列过滤得到有效数据,对有效数据进行碱基分布、质量分布、Q20、Q30等指标析以评估数据质量。
对高分子量gDNA样品使用华大智造的MGIEasy stLFR文库构建试剂盒进行文库制备,随后使用华大智造DNBSEQ测序仪对stLFR文库测序最终产出stLFR数据。stLFR数据将使用SOAPnuke进行低质量序列过滤得到有效数据,对有效数据进行碱基分布、质量分布、Q20、Q30等指标析以评估数据质量。
V300022071A
样本 | V300022071A |
---|---|
原始序列数 | 1,685,759,388 |
原始碱基数(bp) | 168,575,938,800 |
有效序列数 | 1,348,332,758 |
有效碱基数(bp) | 134,833,275,800 |
Q20(%) | 97.01 |
Q30(%) | 88.65 |
测序深度(X) | 56.19 |
a. 原始序列经过低质量过滤后得到有效序列,低质量序列为包含以下任何一条:(1)含有接头序列;(2)序列中N比例超过1%;(3)序列中质量值低于10比例超过10%。
b. Q20、Q30为有效序列中质量高于20或30的碱基比例。
c. 测序深度根据原始序列数统计。
碱基比例分布图(x轴表示序列上的位置,y轴显示序列具体位置上的五种碱基比例)。
碱基质量分布图(x轴表示序列上的位置,y轴显示序列具体位置上的碱基质量分布热图,从白到绿到红依次表示碱基比例从低到高)。
使用虚拟隔离共标记技术实现的长片段序列是stLFR产品的特色。通过对长片段与barcode的组合关系、长片段长度及覆盖分析来展示stLFR产品的长片段性能。
样本 | V300022071A |
---|---|
理论Barcode种类 | 3,623,878,656 |
实际Barcode种类 | 59,735,965 |
实际Barcode比例 | 1.65% |
序列对数 | 842,879,694 |
拆分后有效序列对数 | 713,953,863 |
拆分率 | 84.7% |
拆分后数据量(G) | 142.79 |
a. stLFR数据是通过barcode进行长片段序列构建,因此需要首先对stLFR数据进行barcode拆分及过滤,并对每条序列进行barcode标记。表格显示了stLFR数据barcode拆分及过滤结果。
stLFR文库片段与barcode关系示意图(x轴表示长片段中包含barcode的个数,y轴表示包含特定barcode个数的长片段数目)。
stLFR文库片段长度分布(x轴表示长度,y轴表示特定长度片段的比例)。
stLFR文库片段覆盖度分布(x轴表示覆盖度,y轴表示特定覆盖度的片段数目)。
stLFR有效序列通过BWA或MegaBOLT软件与参考基因组进行比对定位,并通过比对率、深度覆盖、插入片段等指标进行性能评估。
样本 | V300022071A |
---|---|
比对序列数 | 1,346,475,379 |
比对碱基数(bp) | 134,647,537,900 |
比对率 | 99.86% |
成对比对率 | 99.33% |
错配碱基数 | 746,868,575 |
错配率 | 0.55% |
重复序列数 | 314,482,226 |
重复率 | 23.32% |
平均测序深度(X) | 26.822664 |
有效平均深度(X) | 34.98 |
覆盖度(≥1X) | 99.13% |
覆盖度(≥4X) | 98.91% |
覆盖度(≥10X) | 98.34% |
覆盖度(≥20X) | 93.84% |
平均插入片段(bp) | 228.31 |
a. 比对结果基于低质量过滤及barcode拆分后的有效数据进行统计。
b. 比对率和成对比对率分别表示正确和成对正确的比对到参考基因组的序列比例。
c. 错配表示序列中与参考基因组不同的碱基信息。
d. 重复序列表示来自PCR或其他因素导致的重复序列。
e. 有效平均深度表示去除重复序列后基因组平均覆盖深度。
f. 覆盖度分别统计参考基因组中覆盖超过1层、4层、10层、20层的比例。
g. 平均插入片段表示成对比对序列的平均片段长度。
插入片段分布图(x轴表示插入片段大小,y轴表示特定插入片段的比例)。
累积深度分布图(x轴表示测序覆盖深度,y轴表示全基因组范围不低于特定覆盖深度的比例)。
深度分布图(x轴表示测序覆盖深度,y轴表示特定覆盖深度在全基因组范围中所占比例)。
GC-bias分布图(x轴表示GC比例,y轴蓝点表示特定GC比例的归一化覆盖深度,y轴绿线表示特定GC区域的平均质量值,y轴红线表示参考基因组中特定GC所占比例)。
通过GATK或MegaBLOT以及华大自主开发的CNV及SV软件对stLFR数据进行多种变异检测,得到SNP、INDEL、CNV、SV突变信息,并通过CIRCOS进行可视化展示。
样本 | V300022071A |
---|---|
SNP个数 | 3,976,683 |
dbSNP比例 | 93.19% |
未知SNP | 270,752 |
未知SNP比例 | 6.81% |
Ti/Tv | 1.95 |
INDEL个数 | 913,668 |
dbINDEL比例 | 73.8% |
CNV deletion | 568 |
CNV duplication | 36 |
SV DEL | 28 |
SV DUP | 6 |
SV INV | 7 |
SV TRA | 0 |
a. SNP: 单核苷酸多态性。
b. Ti/TV:SNP的转换颠换比例。
c. INDEL:插入与缺失。
d. CNV:拷贝数变异。
e. SV:结构变异。
f. DEL: 缺失突变。
g. DUP:重复突变。
h. INV: 颠倒突变。
i. TRA:移位突变。
TP | FP | FN | PPV | Sensitivity | F-measure | |
---|---|---|---|---|---|---|
SNP | 3,189,733 | 10,168 | 20,524 | 0.9968 | 0.9936 | 0.9952 |
Indel | 455,215 | 23,130 | 26,048 | 0.9516 | 0.9459 | 0.9488 |
a. PPV: 阳性预测值,准确度,TP/(TP+FP)。
b. Sensitivity: 灵敏度, TP/(TP+FN).
c. F-measure: 灵敏度与准确度的调和平均数, 2*TP/(2*TP+FP+FN).
全基因组变异示意图及图例(图形由6个圆环组成,从外到内依次是(i)染色体、(ii)SNP密度曲线、(iii)INDEL密度曲线、(iv)CNV中deletion分布图、(v)CNV中duplication分布图、(vi)SV分布图)。
使用HapCUT2软件结合stLFR数据的比对及突变信息进行单倍体组装,获取高质量的单倍体组装结果。
染色体 | 转换率 | 错配率 | 一致率 | 缺失率 | SNP组装数 | AN50 | N50 | block组装率 | phasing rate |
---|---|---|---|---|---|---|---|---|---|
1 | 0.0101 | 0.0048 | 0.274 | 0.0009 | 176,556 | 10,335,812 | 9,395,666 | 0.1156 | 0.9954 |
2 | 0.0005 | 0.0003 | 0.3231 | 0.0005 | 179,146 | 15,956,811 | 10,450,179 | 0.1527 | 0.9963 |
3 | 0.0004 | 0.0003 | 0.1759 | 0.0004 | 149,647 | 10,121,468 | 9,445,829 | 0.107 | 0.9967 |
4 | 0.0105 | 0.0048 | 0.2967 | 0.0006 | 158,041 | 17,745,172 | 17,799,199 | 0.1331 | 0.9965 |
5 | 0.0098 | 0.004 | 0.2735 | 0.0005 | 144,073 | 29,257,525 | 29,402,537 | 0.2341 | 0.9965 |
6 | 0.0108 | 0.0044 | 0.2778 | 0.0004 | 156,463 | 12,084,355 | 11,848,071 | 0.2095 | 0.9966 |
7 | 0.0039 | 0.0017 | 0.2481 | 0.0006 | 125,839 | 16,590,963 | 16,637,924 | 0.1858 | 0.9964 |
8 | 0.0094 | 0.0039 | 0.2713 | 0.0006 | 120,389 | 10,515,273 | 9,614,379 | 0.1618 | 0.9967 |
9 | 0.01 | 0.0048 | 0.2148 | 0.0017 | 102,697 | 14,486,483 | 13,793,937 | 0.1703 | 0.9943 |
10 | 0.0046 | 0.0025 | 0.2501 | 0.0005 | 113,966 | 16,063,792 | 16,124,211 | 0.17 | 0.9963 |
11 | 0.0109 | 0.0049 | 0.2194 | 0.0005 | 106,382 | 13,220,229 | 12,827,541 | 0.1509 | 0.9966 |
12 | 0.0003 | 0.0003 | 0.2002 | 0.0004 | 102,261 | 11,496,497 | 8,466,599 | 0.1766 | 0.9965 |
13 | 0.0006 | 0.0004 | 0.3623 | 0.0003 | 78,911 | 27,849,573 | 27,930,581 | 0.3384 | 0.9968 |
14 | 0.0005 | 0.0003 | 0.1483 | 0.0011 | 72,458 | 7,483,231 | 4,494,188 | 0.2227 | 0.9958 |
15 | 0.0009 | 0.0003 | 0.269 | 0.0011 | 63,196 | 11,982,019 | 7,995,680 | 0.2294 | 0.995 |
16 | 0.0007 | 0.0004 | 0.4446 | 0.0008 | 75,174 | 22,472,703 | 22,524,734 | 0.4137 | 0.9967 |
17 | 0.0007 | 0.0004 | 0.2507 | 0.0006 | 56,982 | 6,892,706 | 6,906,435 | 0.1822 | 0.9958 |
18 | 0.0095 | 0.0047 | 0.2976 | 0.0003 | 62,859 | 13,105,918 | 13,142,411 | 0.2562 | 0.9969 |
19 | 0.0144 | 0.0065 | 0.4133 | 0.0006 | 52,982 | 20,934,917 | 21,011,360 | 0.4451 | 0.9963 |
20 | 0.0004 | 0.0002 | 0.2256 | 0.0004 | 49,754 | 12,073,894 | 12,120,654 | 0.413 | 0.9968 |
21 | 0.0005 | 0.0003 | 0.2689 | 0.0014 | 40,176 | 14,433,347 | 14,479,268 | 0.3819 | 0.9956 |
22 | 0.0111 | 0.005 | 0.3713 | 0.0016 | 33,850 | 22,849,327 | 12,138,969 | 0.6306 | 0.9959 |
X | 0.001 | 0.0005 | 0.1803 | 0.0006 | 71,828 | 7,022,670 | 5,134,656 | 0.1248 | 0.9946 |
Y | 0 | 0 | 0 | 0.0077 | 1,804 | 64,249 | 0 | 0.4525 | 0.955 |
全基因组 | 0.0057 | 0.0026 | 0.2663 | 0.0007 | 2,295,434 | 13,899,410 | 11,697,688 | 0.205 | 0.9962 |
a. 转换率: 发生转换错误位点的比例。
b. 错配率:发生不一致错配位点的比例。
c. 一致率: 单倍体与参考序列的最小汉明距离。
d. 缺失率:所有覆盖位点上发生错配的比例。
e. SNP组装数: 用于组装成单倍体的SNV数据。
f. AN50: 单倍体结果中AN50。
g. N50: 单倍体结果中N50。
h. block组装率: 最大组装单倍体block中SNP比例。
i. SNP组装率: 用于单倍体组装的SNP比例。
单倍体组装示意图(每一行表示一个染色体,白色表示没有组装区域,灰色、深蓝色表示独立组装好的单倍体block)。