近年来,以快速、低成本、高通量为特点的深度测序(又称下一代测序,nextgeneration sequencing,NGS)技术极大地推动了相关科学和产业的进步,是未来精准医疗和健康产业的基石。深度测序产生了海量的数据,需要新的、专业的技术、方法和软件来分析与处理。目前,国内外已有大量优秀的研究人员发表了针对深度测序数据分析的新方法和新软件的论文。但是,国内外全面介绍深度测序数据分析及实例的书籍尚不多见。本书的编写目的就是为不同专业背景的读者提供一本实用的关于深度测序数据分析的书籍。
本书几乎涵盖了深度测序数据分析及应用的各个方面,适用于从事深度测序数据分析研究的技术人员和学者。在本书中,不仅可以了解到深度测序技术应用的领域,还可以通过具体实例,了解到不同软件的相关算法、原理及使用方法,以帮助选择适合自身研究和应用、学习所需要的深度测序数据分析的解决方案。同时,我们构建了本书配套的网站以方便读者进行实例学习,网址为http://sysbio.suda.edu.cn/NGS_book/index.php.
本书共包括11章。第1章主要介绍了深度测序技术的常用平台和原理、对现代生物医学研究范式的影响、对生物信息学带来的挑战和机遇,以及深度测序数据分析的常见软件和平台;第2章介绍了深度测序相关的数据库和数据格式;第3章介绍了碱基识别的方法;第4章介绍了基因组序列比对;第5章介绍了序列片段的组装:第6章介绍了染色质免疫共沉淀测序数据分析;第7章介绍了转录组测序数据的分析;第8章介绍了microRNA-Seq的数据分析;第9章介绍了变异检测;第10章介绍了单细胞测序数据分析;第11章介绍了深度测序数据的可视化软件。本书的编写工作是苏州大学系统生物学研究中心师生多年来共同努力的结果,由于NGS领域发展迅速,且我们的时间和学识有限,难免有错误与不当之处,还希望读者反馈指正,我们将在以后再版时进行修改和更正。
本书各章的编写分工如下:前言及第1章,沈百荣、钱福良、李庆辉、汤溢飞:第2章,吴文涛:第3章,王晶;第4章,尚婧;第5章,张文宇;第6章,李庆辉、荆鑫华;第7章,严文颖、林宇鑫、汤溢飞;第8章,林宇鑫、李粤;第9章,崔卫荣、严文颖、蒋峻峰;第10章,张文宇;第11章,李吟、汤思捷。网站由林宇鑫、刘行云、严文颖开发。
目录
前言
1 深度测序技术与生物信息学 1
1.1 深度测序的常用平台 1
1.1.1 Illumina测序系统 1
1.1.2 Roche 454测序仪 5
1.1.3 Applied Biosystems SOLiD测序仪 7
1.1.4 PacBio RSII单分子测序 8
1.1.5 Ion PGM和Proton半导体测序仪 8
1.2 深度测序技术对生物医学研究和社会的影响 9
1.2.1 生物医学大数据与生物医学研究范式的改变 9
1.2.2 深度测序技术对经济市场的影响 10
1.2.3 深度测序技术对社会的影响 11
1.3 深度测序数据处理的挑战 12
1.3.1 数据存取方面的挑战 12
1.3.2 计算技术方面的挑战 13
1.3.3 数据应用方面的挑战 14
1.3.4 人才缺失与跨学科人才教育的挑战 15
1.4 常见的软件和分析平台介绍 15
1.4.1 生物信息学杂志特刊中的软件及其分类 15
1.4.2 R与Bioconductor软件平台 16
参考文献 17
2 深度测序相关数据库和数据格式 19
2.1 深度测序相关的数据库 19
2.2 深度测序相关的数据格式 22
2.2.1 序列与质量分数相关格式 22
2.2.2 序列比对的相关格式 24
2.2.3 序列组装的相关格式 24
2.2.4 突变的相关格式 25
2.2.5 序列注释及可视化的相关格式 25
2.3 格式转换 27
2.3.1 数据格式转换软件NGSFormatConverter 27
2.3.2 NGSFormatConverter的安装与应用 29
参考文献 30
3 碱基识别 32
3.1 深度测序碱基识别简介 32
3.2 Illumina平台碱基识别软件 33
参考文献 36
4 基因组序列比对 37
4.1 短序列片段比对软件的发展 37
4.1.1 深度测序技术带来的机遇 37
4.1.2 深度测序数据带来的比对定位瓶颈 37
4.2 深度测序片段比对软件的比较 39
4.2.1 深度测序片段比对软件 39
4.2.2 深度测序片段比对定位软件算法比较 40
4.2.3 比对定位软件性能比较 45
4.2.4 比对定位软件评价 47
4.3 深度测序片段比对软件实例演示 50
4.4 展望 51
参考文献 53
5 小片段序列组装 55
5.1 问题阐述:小片段序列组装 55
5.1.1 小片段组装类型 55
5.1.2 当前组装过程的挑战 56
5.1.3 小片段组装过程的意义 56
5.2 组装策略:如何将小片段组装成重叠群 58
5.2.1 基因组序列的组装 58
5.2.2 转录组序列的组装 63
5.3 算法评价:如何选取一个合适的组装软件 63
5.3.1 基因组组装软件的选择 64
5.3.2 转录组组装软件的选择 66
5.4 程序示例:如何执行一个片段组装过程 67
5.4.1 基因组测序数据的组装 67
5.4.2 转录组测序数据的组装 69
5.5 总结和展望:组装算法何去何从 70
参考文献 71
6 染色质免疫共沉淀测序数据分析 73
6.1 ChIP-Seq简介 73
6.1.1 ChIP-Seq的出现 73
6.1.2 ChIP-Seq的基本实验流程 75
6.1.3 影响ChIP-Seq实验成功的因素 76
6.2 ChIP-Seq数据计算分析 77
6.2.1 碱基识别 77
6.2.2 定位到基因组 78
6.2.3 富集区域的鉴定 78
6.2.4 其他下游分析 80
6.3 Peak Calling算法比较 81
6.4 ChIP-Seq数据分析应用实例 84
6.4.1 峰的寻找 84
6.4.2 基因关联 86
6.4.3 Motif发现 87
6.4.4 注释分析 87
6.4.5 可视化 88
6.5 ChIP-Seq软件的改进和发展方向 89
参考文献 91
7 转录组测序数据分析 93
7.1 RNA-Seq简介 93
7.2 RNA-Seq技术的应用 96
7.3 RNA-Seq数据处理与软件 97
7.3.1 概述 97
7.3.2 剪接位点预测软件 98
7.3.3 基因表达水平分析软件 101
7.3.4 综合性分析软件 102
7.4 软件安装与使用 105
7.4.1 选择性剪接软件 105
7.4.2 基因表达水平分析软件 110
7.4.3 综合性分析软件 111
7.5 展望 118
参考文献 119
8 microRNA-Seq数据分析 121
8.1 microRNA简介 121
8.2 深度测序与microRNA-Seq技术 122
8.2.1 概述 122
8.2.2 microRNA-Seq实验流程 123
8.2.3 microRNA-Seq数据处理 123
8.3 microRNA-Seq数据分析软件 125
8.3.1 概述 125
8.3.2 本地分析软件 126
8.3.3 在线分析软件 138
8.4 软件性能比较 146
8.4.1 测试数据与环境配置 146
8.4.2 运行时间比较 147
8.4.3 敏感度与准确度比较 147
8.4.4 新的miRNA预测 148
参考文献 149
9 变异检测 151
9.1 引言 151
9.2 基因组多态性 153
9.3 变异的类型及其检测 157
9.3.1 SNP 157
9.3.2 结构变异 159
9.4 变异检测软件实例 166
9.4.1 Genome Analysis Toolkit简介 166
9.4.2 Genome Analysis Toolkit安装 166
9.4.3 Genome Analysis Toolkit使用 168
9.5 展望 171
参考文献 172
10 单细胞测序数据分析 176
10.1 单细胞测序技术的简要发展历程 176
10.2 单细胞测序的技术实现及主要分类 177
10.2.1 常用单细胞分离的技术 178
10.2.2 单细胞基因组测序技术 179
10.2.3 单细胞转录组测序技术 180
10.2.4 单细胞表观遗传组测序技术 181
10.3 单细胞测序的技术应用 181
10.3.1 单细胞测序技术在癌症生物中的应用 182
10.3.2 单细胞测序技术在发育生物中的应用 182
10.3.3 单细胞测序技术在微生物学研究中的应用 183
10.3.4 单细胞测序技术的临床应用前景 183
10.4 单细胞测序技术的数据分析实例 183
10.4.1 输入数据以及数据分析工具介绍 184
10.4.2 数据的读入与归一化 184
10.4.3 根据归一化后的数据鉴定样本中高度差异表达的基因 184
10.5 单细胞测序技术的未来发展趋势 185
参考文献 186
11 深度测序的数据可视化软件 188
11.1 数据可视化技术的生物问题和应用背景 188
11.1.1 生物问题 188
11.1.2 应用背景 188
11.2 数据可视化相关软件介绍和比较 189
11.2.1 基于网络的可视化浏览器 190
11.2.2 基于本地平台的可视化软件 191
11.3 软件示例 197
11.3.1 Savant安装 197
11.3.2 Savant运行实例 198
参考文献 205