信息抽取的目的是从海量互联网文本信息中抽取结构化知识,是知识图谱自动化构建、更新的基础,为信息检索、推荐系统、智能问答等诸多研究领域提供底层知识推理支撑并取得了重大突破,是推动人工智能技术由感知走向认知的关键要素,具有重要的研究意义和实用价值。本书梳理了命名实体识别、关系抽取、事件抽取等相关研究方向的知识资源、基础理论和实践应用,详细介绍了实体关系联合抽取、弱监督关系抽取、基于迁移学习的关系抽取、多实例联合事件抽取、基于因变量的事件模板推导等前沿理论研究,并以领域知识图谱、事理图谱等为例,详细介绍了信息抽取在图谱构建中的应用。最后本书对信息抽取进行了总结和未来研究方向展望。
1963年10月生,籍贯湖南。1986年1月加入中国共产党,1989年3月参加工作。1983年毕业于武汉测绘科技大学计算机系获学士学位,1986年毕业于国防科技大学计算机系获硕士学位,1989年毕业于中国科学院计算技术研究所获博士学位,后留所工作,先后任助理研究员、副研究员、研究员;1997年至2009年在中科院计算机语言信息工程研究中心任副主任、研究员并先后兼任中科院华建集团党委委员、副书记,2009年至今任北京理工大学计算机学院院长、教授,兼北京市海量语言信息处理与云计算应用工程技术研究中心主任及中-德语言信息处理联合实验室主任;现为国家"863计划”主题专家组成员、中国人工智能学会及中国中文信息学会副理事长、教育部计算机教学指导委员会委员、北京市学位委员会委员。主持承担了国家自科基金重点项目、"973计划”课题、"863计划”项目等20多项国家级科研攻关项目,获得了国家科技进步一等奖等8项国家级和省部级奖励,1997年享受国务院政府特殊津贴,2014年当选全国优秀科技工作者。
第1章 绪论 1
1.1 研究背景及意义 1
1.2 基本定义及问题描述 3
1.2.1 概念 3
1.2.2 命名实体识别 3
1.2.3 关系抽取 4
1.2.4 事件抽取 4
1.2.5 资源受限 6
1.2.6 信息抽取应用 7
1.3 基本研究方法与代表性系统 9
1.3.1 基于规则的方法 9
1.3.2 基于统计模型的方法 10
1.3.3 基于深度学习的方法 10
1.3.4 基于文本挖掘的方法 10
1.4 本书章节组织架构 11
第2章 基础理论 13
2.1 词汇语义表示 13
2.1.1 基于矩阵分解的方法 13
2.1.2 基于预测任务的方法 15
2.2 序列标注 16
2.3 条件随机场 18
2.3.1 线性链条件随机场 18
2.3.2 Viterbi算法 19
2.4 循环神经网络 20
2.4.1 朴素循环神经网络 21
2.4.2 长短期记忆网络 22
2.4.3 门控循环单元 22
2.4.4 双向循环神经网络 23
2.5 卷积神经网络 24
2.5.1 文本上的卷积 25
2.5.2 卷积神经网络的优点 25
2.6 图卷积神经网络 26
2.7 多任务学习 28
2.7.1 多任务学习模式 28
2.7.2 多任务学习有效性分析 29
2.8 远程监督 30
2.9 迁移学习 30
2.9.1 基于实例的迁移学习 31
2.9.2 基于特征的迁移学习 31
2.9.3 基于共享参数的迁移学习 31
参考文献 32
第3章 信息抽取相关评测和标注资源 35
3.1 MUC系列评测会议 35
3.2 ACE系列评测会议 37
3.3 TAC-KBP系列评测会议 40
3.4 其他研究活动 43
3.5 信息抽取标注资源 43
参考文献 45
第4章 联合实体识别的关系抽取 48
4.1 引言 48
4.2 问题描述 51
4.3 基于序列建模的实体识别 51
4.3.1 基于BERT的句子编码 51
4.3.2 头实体识别 52
4.3.3 尾实体识别 53
4.4 基于生成的实体关系联合抽取 53
4.4.1 句子编码 55
4.4.2 基于集合预测的解码过程 56
4.5 基于翻译的实体关系联合抽取 57
4.5.1 输入编码 57
4.5.2 实体识别 58
4.5.3 关系预测 58
4.5.4 基于翻译的实体关系联合抽取案例 61
4.6 实验验证 62
4.6.1 数据集和评价指标 63
4.6.2 对比算法 63
4.6.3 实验结果 64
4.6.4 问题与思考 65
4.7 本章小结 66
参考文献 67
第5章 弱监督的关系抽取 69
5.1 引言 69
5.2 问题分析 70
5.3 基于注意力机制的弱监督关系抽取 73
5.3.1 基于切分卷积神经网络的关系抽取 73
5.3.2 基于句子级别的注意力机制的远程监督关系抽取 76
5.3.3 基于实体描述的句子级别的注意力机制的远程监督关系抽取 77
5.3.4 基于非独立同分布的远程监督关系抽取 80
5.4 基于图卷积的远程监督关系抽取 82
5.4.1 基于依存树的图卷积关系抽取 82
5.4.2 基于注意力机制引导的图卷积神经网络关系抽取 85
5.5 基于篇章级别的远程监督关系抽取 87
5.6 实验验证 91
5.7 本章小结 95
参考文献 96
第6章 基于知识迁移的关系抽取 101
6.1 引言 101
6.2 同类别迁移的关系抽取 102
6.2.1 引言 102
6.2.2 相关工作 104
6.2.3 基于领域分离映射的领域自适应关系抽取框架 106
6.2.4 实验部分 111
6.2.5 总结与分析 117
6.3 跨类别迁移的关系抽取 118
6.3.1 引 言 118
6.3.2 相关工作 120
6.3.3 基于任务感知的小实例关系抽取模型 122
6.3.4 实验部分 129
6.3.5 总结与分析 134
6.4 不均衡模型训练方法 135
6.4.1 引 言 135
6.4.2 相关工作 137
6.4.3 基于多分布选择的不均衡数据分类方法 140
6.4.4 实验部分 144
6.4.5 总结与分析 149
6.5 本章小结 149
参考文献 150