本书主要围绕AI系统的理论基础与技术基础知识展开,结合实例进行介绍,旨在让读者了解AI系统的来龙去脉,形成对AI系统的系统化与层次化的初步理解,掌握AI系统基本理论、技术、实际应用及研究方向,为后续从事具体的学习研究工作和项目开发工作奠定基础。
本书首先介绍AI的历史、现状与发展及AI系统的基本知识,后分为AI硬件与体系结构、AI编译与计算架构、AI推理系统与引擎、AI框架核心模块四篇进行详细介绍,涉及AI系统从底层原理到应用落地的全貌,反映了AI系统架构的前沿技术。
更多科学出版社服务,请扫码获取。
广州大学(本科)、西安电子科技大学(硕士)、东南大学(博士)华为昇腾业务训练总架构师、MinSpore架构师AI系统架构出版《深度学习原理与实践》、《深度强化学习原理与实践》等4本专著,为早年 AI 知识的普及作了一定的铺垫作用。发表113篇算法专利,围绕智能驾驶、情景感知、AI系统底层的编译器、AI框架、上层应用算法构建了一系列的全包围专利点进行了重点布局。上海交通大学企业导师
目录
第1章 AI系统概述/1
1.1 AI历史与现状/1
1.2 AI发展驱动力/11
1.3 AI系统架构介绍/19
1.4 AI系统与AI算法关系/27
第一篇 AI硬件与体系结构
第2章 AI计算体系/37
2.1引言/37
2.2 AI计算模式/41
2.3关键设计指标/57
2.4核心计算之矩阵乘/63
2.5计算之比特位宽/67
第3章 AI芯片体系/72
3.1 CPU基础/72
3.2 CPU指令集架构/81
3.3 CPU计算本质/94
3.4 CPU计算时延/99
3.5 GPU基础/104
3.6 AI专用芯片基础/123
第4章 GPU—以英伟达为例/130
4.1 引言/130
4.2 Tensor Core基本原理/154
4.3 Tensor Core架构演进/160
4.4 Tensor Core深度剖析/171
4.5分布式通信/179
4.6 NVLink原理剖析 /186
4.7 NVSwitch深度解析/194
第5章 TPU—以谷歌为例/202
5.1 引言/202
5.2 谷歌TPU v1脉动阵列/212
5.3 谷歌TPU v2训练芯片/219
5.4 谷歌TPU v3 Pod服务器/228
5.5 谷歌TPU v4与光路交换/235
第6章 NPU—以昇腾为例/244
6.1 引言/244
6.2 昇腾AI处理器/251
6.3 昇腾AI核心单元/259
6.4 昇腾数据布局转换/273
第7章 AI芯片思考与展望/279
7.1 GPU架构与CUDA关系/279
7.2 从GPU对AI芯片思考/285
7.3 AI芯片发展方向/291
7.4 超异构计算/298
第二篇 AI编择与计算架构
第8章 传统编译器/311
8.1 引言/311
8.2传统编译器介绍/318
8.3 GCC基本介绍与特征/324
8.4 LLVM架构设计和原理/329
8.5 LLVM IR基本概念/334
8.6 LLVM IR细节详解/340
8.7 LLVM前端和优化层/345
8.8 LLVM后端代码生成/350
第9章 AI编译器/356
9.1 引言/356
9.2 AI编译器历史阶段/365
9.3 AI编译器基本架构/371
9.4 AI编译器挑战与思考/378
第10章 前端优化/388
10.1 引言/388
10.2 图算IR/389
10.3 算子融合/393
10.4 布局转换原理/400
10.5 内存分配算法/406
10.6 常量折叠原理/412
10.7 公共子表达式消除原理/415
10.8 死代码消除/417
10.9 代数简化/420
第11章 后端优化/425
11.1 弓1言/425
11.2 计算与调度/428
11.3 算子手工优化/434
11.4 算子循环优化/440
11.5 指令和存储优化/447
11.6 Auto-Tuning 原理/452
第12章 计算架构/454
12.1 芯片的编程体系/454
12.2 SIMD & SIMT与芯片架构/456
12.3 SIMD & SIMT与编程关系/465
12.4 CUDA计算结构/470
第13章 CANN&Ascend C计算架构/475
13.1 昇腾异构计算架构CANN/475
13.2 CANN与算子/482
13.3 算子开发编程语言Ascend C/485
13.4 Ascend C语法扩展/492
13.5 Ascend C编程范式以向量为例/500
第三篇 AI推理系统与引擎
第14章 推理系统/511
14.1 引言/511
14.2 推理系统介绍/515
14.3 推理流程全景/523
14.4 推理系统架构/526
14.5 推理引擎架构/530
14.6 昇腾推理引擎MrndlE/549
14.7 昇腾计算语言AscendCL/552
第15章 模型小型化/561
15.1 推理参数了解/561
15.2 CNN模型小型化/563
15.3 Transformer模型小型化/579
第16章 模型轻量化/585
16.1 引言/585
16.2 量化基本原理/586
16.3 感知量化训练/592
16.4 训练后量化与部署/598
16.5 模型剪枝原理/604
16.6 知识蒸馏原理/611
第17章 模型转换/619
17.1 引言/619
17.2 推理文件格式/626
17.3 自定义计算图/634
17.4 模型转换流程/643
第18章 计算图优化架构/647
18.1 引言/647
18.2 离线图优化技术/651
18.3 其他计算图优化/667
第19章 Kernel优化/676
19.1 引言/676
19.2 卷积计算原理/680
19.3 Im2Col算法/690
19.4 Wmograd算法/698
19.5 QNNPACK算法/705
19.6推理内存布局/715
第四篇 AI框架核心模块
第20章 AI框架基础/721
20.1 引言/721
20.2 AI框架作用/721
20.3 AI框架之争/727
20.4 AI框架的编程范式/735
20.5 昇思MrndSpore关键特性/741
第21章 自动微分/753
21.1 引言/753
21.2 什么是微分/753
21.3 微分计算模式/760
21.4 微分实现方式/768
21.5 动手实现自动微分/775
21.6 动手实现PyTorch微分/778
21.7 自动微分的挑战和未来/784
第22章 计算图/790
22.1 引言/790
22.2计算图基本原理/791
22.3计算图与自动微分/798
22.4计算图的调度与执行/804
22.5计算图的控制流实现/811
22.6动态图与静态图转换/818
第23章 分布式并行/823
23.1 引言/823
23.2数据并行/823
23.3数据并行进阶/837
23.4张量并行/849
23.5流水并行/855
23.6混合并行/858
23.7 昇思 MindSpore并行/860
参考文献/867
索引/883
彩图