大模型技术掀起了新一轮人工智能浪潮,以ChatGPT 为核心的大模型相关技术可以应用于搜索、对话、内容创作等众多领域,在推荐系统领域的应用也不例外。本书主要分为3部分。第1部分简单介绍大模型相关技术,包括大模型的预训练、微调、在线学习、推理、部署等。第2部分将大模型在传统推荐系统中的应用抽象为4种范式——生成范式、预训练范式、微调范式、直接推荐范式,并对每种范式给出算法原理说明、案例讲解和代码实现。第3部分以电商场景为例,讲解大模型在电商中的7种应用,包括生成用户兴趣画像、生成个性化商品描述信息、猜你喜欢推荐、关联推荐、冷启动问题、推荐解释和对话式推荐,每种应用场景都包含完整的步骤说明和详细的代码实现,手把手教你构建大模型推荐系统。
刘强,2009年毕业于中国科学技术大学,有15年大数据与AI相关实践经验。出版过畅销书《推荐系统:算法、案例与大模型》和《构建企业级推荐系统:算法、工程实现与案例分析》,参与翻译《AI革命:人工智能如何为商业赋能》《认识AI:人工智能如何赋能商业(原书第2版)》《MongoDB性能调优实战》等书。目前担任杭州数卓信息技术有限公司CEO,公司业务方向为大模型推荐系统、大模型搜索、大模型知识库等,致力于帮助企业利用大模型技术实现降本、提效与精细化运营;兼任爱搭(AIda)高级技术顾问,与爱搭一同推动推荐系统及大模型技术在行业内落地应用。
01 基础知识 1
1.1 大模型相关资源 1
1.1.1 可用的模型及API 1
1.1.2 数据资源 3
1.1.3 软件资源 5
1.1.4 硬件资源 5
1.2 大模型预训练 5
1.2.1 数据收集与预处理 5
1.2.2 确定模型架构 7
1.2.3 确定目标函数及预训练 9
1.2.4 解码策略 10
1.3 大模型微调 13
1.3.1 微调原理 13
1.3.2 指令微调 14
1.3.3 对齐微调 17
1.4 大模型在线学习 21
1.4.1 提示词 21
1.4.2 上下文学习 23
1.4.3 思维链提示词 24
1.4.4 规划 26
1.5 大模型推理 27
1.5.1 高效推理技术 28
1.5.2 高效推理软件工具 29
1.6 总结 30
02 数据准备与开发环境准备 31
2.1 MIND数据集介绍 31
2.2 Amazon电商数据集介绍 34
2.3 开发环境准备 36
2.3.1 搭建CUDA开发环境 37
2.3.2 搭建MacBook 开发环境 40
2.4 总结 42
03 大模型推荐系统的数据来源、一般思路和4种范式 43
3.1 大模型推荐系统的数据来源 43
3.1.1 大模型相关的数据 44
3.1.2 新闻推荐系统相关的数据 44
3.1.3 将推荐数据编码为大模型可用数据 45
3.2 将大模型用于推荐的一般思路 46
3.3 将大模型应用于推荐的4种范式 46
3.3.1 基于大模型的生成范式 47
3.3.2 基于PLM的预训练范式 47
3.3.3 基于大模型的微调范式 48
3.3.4 基于大模型的直接推荐范式 49
3.4 总结 50
04 生成范式:大模型生成特征、训练数据与物品 51
4.1 大模型生成嵌入特征 51
4.1.1 嵌入的价值 51
4.1.2 嵌入方法介绍 52
4.2 大模型生成文本特征 57
4.2.1 生成文本特征 57
4.2.2 生成文本特征的其他方法 63
4.3 大模型生成训练数据 66
4.3.1 大模型直接生成表格类数据 66
4.3.2 大模型生成监督样本数据 67
4.4 大模型生成待推荐物品 69
4.4.1 为用户生成个性化新闻 69
4.4.2 生成个性化的视频 74
4.5 总结 77
05 预训练范式:通过大模型预训练进行推荐 78
5.1 预训练的一般思路和方法 78
5.1.1 预训练数据准备 78
5.1.2 大模型架构选择 79
5.1.3 大模型预训练 81
5.1.4 大模型推理(用于推荐) 82
5.2 案例讲解 84
5.2.1 基于PTUM架构的预训练推荐系统 84
5.2.2 基于P5的预训练推荐系统 86
5.3 基于MIND数据集的代码实战 91
5.3.1 预训练数据集准备 91
5.3.2 模型预训练 98
5.3.3 模型推理与验证 102
5.4 总结 104
06 微调范式:微调大模型进行个性化推荐 106
6.1 微调的方法 106
6.1.1 微调的价值 106
6.1.2 微调的步骤 107
6.1.3 微调的方法 111
6.1.4 微调的困难与挑战 113
6.2 案例讲解 114
6.2.1 TALLRec微调框架 114
6.2.2 GIRL:基于人类反馈的微调框架 117
6.3 基于MIND数据集实现微调 120
6.3.1 微调数据准备 120
6.3.2 模型微调 122
6.3.3 模型推断 130
6.4 总结 134
07 直接推荐范式:利用大模型的上下文学习进行推荐 135
7.1 上下文学习推荐基本原理 135
7.2 案例讲解 136
7.2.1 LLMRank实现案例 137
7.2.2 多任务实现案例 139
7.2.3 NIR实现案例 141
7.3 上下文学习推荐代码实现 142
7.3.1 数据准备 142
7.3.2 代码实现 145
7.4 总结 157
08 实战案例:大模型在电商推荐中的应用 158
8.1 大模型赋能电商推荐系统 158
8.2 新的交互式推荐范式 161
8.2.1 交互式智能体的架构 161
8.2.2 淘宝问问简介 162
8.3 大模型生成用户兴趣画像 164
8.3.1 基础原理与步骤介绍 164
8.3.2 数据预处理 165
8.3.3 代码实现 168
8.4 大模型生成个性化商品描述信息 178
8.4.1 基础原理与步骤介绍 178
8.4.2 数据预处理 179
8.4.3 代码实现 184
8.5 大模型应用于电商猜你喜欢推荐 196
8.5.1 数据预处理 196
8.5.2 模型微调 199
8.5.3 模型效果评估 205
8.6 大模型应用于电商关联推荐 209
8.6.1 数据预处理 209
8.6.2 多路召回实现 214
8.6.3 相似度排序实现 216
8.6.4 排序模型效果评估 219
8.7 大模型如何解决电商冷启动问题 221
8.7.1 数据准备 221
8.7.2 利用大模型生成冷启动商品的行为样本 226
8.7.3 利用大模型上下文学习能力推荐冷启动商品 228
8.7.4 模型微调 232
8.7.5 模型效果评估 232
8.8 利用大模型进行推荐解释,提升推荐说服力 237
8.8.1 数据准备 237
8.8.2 利用大模型上下文学习能力进行推荐解释 244
8.8.3 模型微调 248
8.8.4 模型效果评估 256
8.9 利用大模型进行对话式推荐 257
8.9.1 对话式大模型推荐系统的架构 257
8.9.2 数据准备 258
8.9.3 代码实现 260
8.9.4 对话式推荐案例 268
8.10 总结 269
09 工程实践:大模型落地真实业务场景 271
9.1 大模型推荐系统如何进行高效预训练和推理 271
9.1.1 模型高效训练 272
9.1.2 模型高效推理 273
9.1.3 模型服务部署 274
9.1.4 硬件选择建议 275
9.2 大模型落地企业级推荐系统的思考 275
9.2.1 如何将推荐算法嵌入大模型框架 275
9.2.2 大模型特性给落地推荐系统带来的挑战 276
9.2.3 大模型相关的技术人才匮乏 276
9.2.4 大模型推荐系统与传统推荐系统的关系 277
9.2.5 大模型推荐系统的投资回报率分析 277
9.2.6 大模型落地推荐场景的建议 277
9.3 总结 278
后记 279