内容简介
这是一部系统讲解评分卡建模的智能风控著作,从业务与技术、理论与实践、传统风控与智能风控等角度透彻讲解评分卡建模的原理、流程、方法及其风控策略构建。
作者在智能风控领域深耕十余年,既熟悉商业银行传统风控体系思想、方法、技术、工具,又熟悉人工智能背景下的创新智能风控相关解决方案、风险策略和风险建模技术,本书是作者实践经验的系统性总结。
本书内容分为六部分。
第1部分(第1章)介绍评分卡建模基础知识,包括评分卡模型的概念和定义、评分卡建模全流程、评分卡模型的评价等。
第二部分(第2章)介绍银行零售信贷领域产品特征和业务流程,以及信用风险和欺诈风险概念,介绍评分卡的应用场景和业务基础知识。
第三部分(第3~11章)系统介绍评分建模的全流程,覆盖需求理解、数据理解、特征工程、模型设计、模型开发、模型验证、模型部署、模型监控、模型优化等模型全生命周期各环节。
第四部分(第12~14章)总结了评分建模的关键问题及其解决方案,包括拒绝推断、模型可解释性等,以及模型开发过程中诸如分布不均衡、模型性能下降、模型迭代漂移等问题。
第五部分(第15章)介绍了当前业界除评分卡外使用频率Z高的高维机器学习技术,比较了传统评分卡模型和高维机器学习模型,并重点介绍了XGBoost和LightGBM模型。
第六部分(第16章)以贷前自动化审批场景为例,介绍基于评分的自动化审批策略构建,帮助读者理解评分卡模型在风险策略设计中的应用。
(1)作者经验丰富:智能风控领域深耕十余年,既熟悉商业银行传统风控体系思想、方法、技术、工具,又熟悉人工智能背景下创新智能风控相关解决方案、风险策略和风险建模技术。(2)内容系统扎实:全面系统讲解评分建模的理论知识、业务基础、建模全流程、Z新建模技术和风控策略构建。(3)行业一致好评:来自上海交通大学、乐信、西南财经大学、蚂蚁集团、360金融、eBay等学界和业界的近二十位风控专家高口碑推荐。(4)大量实战代码:结合实际生产环境,给出了大量Python代码,便于读者理解且可直接使用,实操性强。(5)新视角、新观点、新思考:在部分技术点上提出了作者的新看法和新观点,特别 是对模型的系统性思考、对拒绝推断的理解、对业务需求的理解等。 (6)融入Z新建模技术:评分卡建模是相对传统的建模技术,作者特地介绍了特征工程、模型可解释性、高维机器学习等Z新智能化建模技术。
为什么要写本书
近些年来,智能风控技术在金融风险管理中的应用越来越广泛。智能风控利用金融大数据、机器学习、深度学习、强化学习、时序数据分析、异常检测、社交网络分析、图深度学习、知识图谱、自然语言处理、文本挖掘等智能分析建模技术,以及分布式计算、实时流式计算、实时决策引擎、设备行为分析等数据工程技术,赋能金融风控管理,极大地提升了风险决策的准确性和效率。而评分卡模型作为智能风控技术的基础部分,以其良好的可解释性和稳定性广泛应用于金融领域。系统地掌握评分卡建模技术是很有必要的,既有助于直接进行量化建模,为金融风控提供决策支持,又有助于加深对风险建模的理解和认识,提升风险建模能力。
十多年前我初入金融风控领域,便是从评分卡建模开始上手的,至今一直从事风险量化建模、风控策略设计、风险解决方案相关工作。在早期做评分卡建模时,我对评分卡没有太深刻的认识。正所谓“无知者无畏”,我认为评分卡建模是很简单的事情。随着工作经验的不断积累,我逐渐尝试从更高层面分析和建模:1)从宏观建模全生命周期流程及全面风控体系的角度构建模型;2)开始深入探究和思考建模的技术细节;3)更加重视从业务角度(而非纯技术角度)思考建模问题。此外,我开始更深刻地理解评分卡建模技术的精妙之处,并对建模技术进行了系统性的思考、梳理和总结,也正是因为有了系统性的思考和总结,才有了本书的初稿。
近几年我经常参加智能风控和数据分析的线下交流活动,也曾受邀作为讲师为金融机构做内部风控培训,了解到很多风险建模人员都对评分卡建模缺乏深刻的理解。市面上已有的介绍评分卡建模技术的图书或者侧重理论介绍,实战内容很少,或者过于聚焦零散的技术片段和细枝末节,不够系统。不少朋友希望能有一本全面系统地介绍建模全流程和方法的图书,并能兼顾业务和技术,本书就是在此背景下完成的。
我曾在FICO和Accenture任职十余年,熟悉银行传统风控体系的思想、方法、技术和工具,近几年我又在国内领先的金融科技公司负责智能风控解决方案、风险策略设计和风险建模技术的创新研究,深刻体会到,在理解金融风险业务本质特征的基础上,既能继承传统金融风控核心技术,又能在人工智能背景下创新智能风控技术,实现“传统风控+智能风控”双引擎驱动,对从事金融风控的人员而言是很有必要的。在本书策划编辑杨福川的邀请下,我基于这些工作经验以及对智能风控的理解写了本书,供广大已从事或拟从事智能风控工作的读者参考,以期促进行业交流和人才技能提升。
读者对象
本书主要面向以下读者:
在金融机构(特别是商业银行、信用卡中心、持牌消费金融机构等)从事风险量化建模、风险数据分析、风控业务策略设计的人员;
在金融科技公司、互联网公司等科技类公司从事风险量化建模、风险数据分析、风控业务策略设计的人员;
对智能风控技术感兴趣的其他人员;
智能风控相关专业的在校学生。
本书特色
注重实战,代码丰富:本书基于作者十余年风险建模和风控策略经验,对评分卡建模技术进行了系统的梳理和总结,所介绍的内容都是实际风险建模工作中能用到的。另外还给出了丰富的Python代码示例,具有较强的实践性。
结构清晰,逻辑严谨:本书不仅包括模型本身的设计、开发、验证,还包括模型的工程部署、监控和优化,按建模方法论的流程对建模的各环节依次进行介绍。
新视角、新观点、新思考:本书在部分技术点上提出了一些新看法和新观点,特别是我对模型的系统化思考、对拒绝推断的理解、对业务需求的理解等方面,以期抛砖引玉,引起更广泛的交流和探讨。
融入建模技术:评分卡建模是相对传统的建模技术,我结合当前机器学习领域热点技术,介绍了特征工程、高维机器学习等技术。
如何阅读本书
本书内容分为6个部分。
第1章介绍评分卡入门知识,包括评分卡模型的概念和定义、评分卡建模全流程、对模型的评价等,以概念性内容介绍为主,帮助读者初步了解评分卡的基本概念。
第2章介绍零售信贷业务基础知识,包括银行零售信贷领域产品特征、业务流程,以及信用风险概念、欺诈风险概念,帮助读者理解评分卡的应用场景和要解决的业务问题。
第3~11章介绍评分卡建模全流程,是全书核心内容,覆盖业务需求理解、数据理解、特征工程、模型设计、模型开发、模型验证、模型部署、模型监控、模型优化等模型全生命周期的各个环节。该部分以技术介绍为主,帮助读者系统地掌握模型需求、设计、开发、测试、部署和应用全流程技术。
第12~14章介绍评分卡建模关键问题,包括拒绝推断问题、可解释性问题,以及模型开发过程中诸如分布不均衡、模型性能下降等常见问题及应对方案。
第15章介绍高维机器学习,讨论了当前业界除评分卡外使用频率较高的高维机器学习技术,并重点介绍了XGBoost和LightGBM模型。
第16章介绍风险策略应用,以贷前自动化审批场景为例,介绍了基于风险评分的自动化审批策略构建方法,帮助读者理解评分卡模型在风险策略设计中的应用。
本书是量化建模方法论的系统性总结和介绍,无论是对于已经从事评分卡建模多年的“老兵”,还是刚入行或即将入行的“新手”,都具有较好的参考价值。本书既可以作为系统性介绍评分卡建模技术的教科书,带领读者进行系统学习,也可以作为案头工具书,供读者在工作过程中随时查阅和参考。
勘误和支持
由于作者的水平有限,加之撰写时间仓促,书中难免会出现一些错误、疏漏或者不准确的地方,欢迎各位读者和专家批评指正。可以通过如下方式与作者交流或获得支持。
本书专属代码托管GitHub:https://github.com/jackzhang83/ScoreCard。
知乎:https://www.zhihu.com/people/boypet。
致谢
本书内容基于我十余年风险建模和风控策略经验。首先要感谢领我进门的前辈,既包括我工作过的公司的领导、技术专家和业务专家,也包括在我参与过的20余个大中型银行项目实施过程中与我深入交流的行方领导和业务专家。
特别感谢上海交通大学上海高级金融学院李祥林(David X. Li)教授、乐信集团首席风控官乔杨先生和同盾科技副总裁余旭鑫博士百忙之中抽出时间为本书作序。李祥林教授是信用风险特别是信用衍生品估值定价领域的知名学者和行业领先实践者,其基于Copula的信用衍生品定价原理在行业得到广泛应用。乔杨先生曾在Discover和数科工作多年,他撰写的《数据化风控》是风控建模从业者参考书。余旭鑫博士很重视咨询的专业性和价值,对于模型风险有独到见解,是国内模型风险管理(MRM)的积极倡导者。
其次感谢来自智能风控和数据分析行业交流圈的朋友。我一直推崇“三人行,必有吾
师”之训,非常乐于参与或组织行业交流,也有幸认识了许多业内同行,在交流过程中思想的碰撞对我有很大启发。
感谢机械工业出版社华章公司的策划编辑杨福川,他在近一年的时间中不断地鼓励我,并对本书的写作提出了一些建设性的意见。感谢本书责任编辑韩蕊,她认真审校了全书,并提出了不少中肯的建议。
后感谢我的妻子邢梦娟和我的女儿。写作需要牺牲不少陪伴家人的时间,她们非常理解和支持我;写作是一个既享受又折磨人的过程,她们给予我不少鼓励和督促。
张 伟(笔名:上善若愚)
2021年11月
作者简介
张伟(笔名:上善若愚)
金融科技公司技术合伙人、高级风控总监及解决方案专家,前FICO风险评分建模与风控业务策略专家。
在金融风险管理和智能风控领域有近15年工作经验,擅长业务策略、量化建模、解决方案、风控体系建设,专注于商业银行、消费金融和金融科技行业,在智能风控策略模型数据决策体系建设、风险业务架构和技术架构、信用风险业务策略与量化模型、信贷资产组合管理、金融资产定价与风险管理、业务安全技术、巴塞尔新资本协议等方面积累了丰富的工作经验。
曾作为技术专家或行业专家多次受邀出席上海市政府组织的行业产业联盟研讨调研座谈,多次受邀出席金融科技领域行业论坛并做主题演讲或圆桌讨论,多次接受主流金融科技媒体和财经媒体采访,并受聘为上海交通大学上海高金金融研究院研究员和华东理工大学商学院职业导师。
赞誉
序1
序2
序3
前言
第1章 评分卡建模理论基础 1
1.1 评分卡建模常见面试问题 1
1.2 关于模型的系统性理解 2
1.3 与建模密切相关的4个领域 3
1.3.1 机器学习 3
1.3.2 数据挖掘 4
1.3.3 数据分析 4
1.3.4 统计分析 5
1.3.5 四者之间的联系与区别 5
1.4 评分模型与评分卡模型 6
1.4.1 评分模型和评分卡模型的定义 6
1.4.2 评分卡模型的分类 6
1.4.3 评分卡模型的适用性 7
1.4.4 评分卡模型的价值 8
1.4.5 评分卡模型的应用 9
1.5 评分卡建模全流程 9
1.6 对评分卡模型的评价 10
1.7 本章小结 11
第2章 零售信贷业务基础和风险管理 12
2.1 银行零售信贷产品的产品特征和业务流程 12
2.1.1 个人贷款 13
2.1.2 信用卡 17
2.2 信用与信用风险 21
2.2.1 信用风险识别 22
2.2.2 信用风险评估 23
2.2.3 信用风险监测 24
2.2.4 信用风险控制 24
2.2.5 征信 25
2.3 欺诈与欺诈风险 26
2.3.1 欺诈风险的分类 27
2.3.2 欺诈风险的防范 27
2.3.3 欺诈风险与信用风险比较 27
2.4 本章小结 28
第3章 业务需求理解 29
3.1 业务需求理解概述 29
3.2 明确拟解决问题和分析目标 29
3.3 业务访谈的设计和实施 30
3.4 整体分析方案设计 31
3.5 本章小结 32
第4章 数据基础决定模型效果上限 33
4.1 关于数据的系统性认识 33
4.1.1 数据基本特征 33
4.1.2 常见数据问题 36
4.2 传统信贷业务数据 37
4.2.1 贷款可用数据 38
4.2.2 信用卡可用数据 38
4.3 征信数据 39
4.3.1 征信数据概述 39
4.3.2 一代人行征信 40
4.3.3 二代人行征信 41
4.3.4 一、二代人行征信的差异及映射转换 42
4.3.5 人行征信数据的使用 43
4.4 内外部大数据 44
4.4.1 大数据概述 44
4.4.2 银行内部大数据 45
4.4.3 银行外部大数据 45
4.5 数据质量诊断 46
4.5.1 数据质量诊断目的 46
4.5.2 数据质量诊断方法 47
4.6 业务数据分析 48
4.6.1 业务数据分析目的 48
4.6.2 业务数据分析方法 49
4.7 本章小结 49
第5章 利用特征工程提取有效的风险特征 50
5.1 特征工程概述 50
5.1.1 特征与特征工程 50
5.1.2 数据处理与特征工程流程 51
5.1.3 特征工程的理论体系 51
5.1.4 特征工程的抽象范式 52
5.2 特征预处理与转换 53
5.2.1 常见数据质量问题 53
5.2.2 特征清洗与预处理 53
5.2.3 特征编码 54
5.2.4 特征转换 55
5.3 特征提取与生成 56
5.3.1 业务专家经验定义 56
5.3.2 工程化自动化衍生 56
5.3.3 表征学习 58
5.4 特征评价、选择与降维 62
5.4.1 特征评价 62
5.4.2 特征选择与降维 63
5.5 自动化特征工程技术与工具 65
5.5.1 自动化特征工程概述 65
5.5.2 自动化特征工程工具 66
5.6 本章小结 74
第6章 评分卡模型设计 75
6.1 模型设计概述 75
6.1.1 模型设计的定义 75
6.1.2 模型设计的工作内容 76
6.2 排除规则与样本范围 76
6.2.1 排除规则和样本范围的定义 76
6.2.2 申请评分卡模型排除规则 77
6.2.3 行为评分卡模型排除规则 77
6.2.4 催收评分卡模型排除规则 78
6.3 模型细分 79
6.4 表现期定义与Vintage分析 80
6.4.1 表现期定义 80
6.4.2 Vintage分析 80
6.5 滚动率 83
6.5.1 滚动率定义 83
6.5.2 滚动率分析 84
6.5.3 滚动率计算常见问题 84
6.6 观察期的定义与选择 85
6.6.1 观察期的定义 85
6.6.2 观察期的选择 85
6.7 模型设计汇总计数 86
6.7.1 汇总计数定义 87
6.7.2 汇总计数的特别说明 87
6.8 建模方式和模型原型选择 87
6.9 本章小结 88
第7章 评分卡模型开发 89
7.1 模型开发概述 89
7.2 样本分区 90
7.3 样本抽样 91
7.4 变量预筛选 93
7.5 变量分箱 94
7.6 变量再筛选 96
7.7 变量转换WOE 97
7.8 使用逻辑回归进行模型拟合 97
7.8.1 多重共线性检验 97
7.8.2 逻辑回归建模 98
7.8.3 模型训练结果 100
7.9 模型验证 101
7.9.1 排序性 101
7.9.2 区分能力 101
7.9.3 稳定性 103
7.9.4 分值集中度 103
7.9.5 分值分布 104
7.9.6 离散度 104
7.10 评分标尺 105
7.11 模型导出PMML并测试 107
7.12 评分卡建模专用Python包 108
7.12.1 scorecardpy工具包 108
7.12.2 toad工具包 108
7.12.3 RiskModeler工具包 109
7.13 评分卡建模实例 109
7