本书由国际数据挖掘领域泰斗、UIUC韩家玮教授和其学生张超博士(现为佐治亚理工学院助理教授)合著。介绍了将非结构化文本数据转换为多维知识的数据挖掘技术,并讲解了他们开发的文本多维数据集框架的原理和使用方法。
译者序
作者简介
译者简介
第1章 引言 1
1.1 概述 1
1.2 主要部分 3
1.2.1 第一部分:立方体构造 3
1.2.2 第二部分:立方体开发 5
1.2.3 示例应用 5
1.3 技术路线 6
1.3.1 任务1:分类器生成 7
1.3.2 任务2:文档分配 8
1.3.3 任务3:多维摘要 8
1.3.4 任务4:跨维度预测 9
1.3.5 任务5:异常事件检测 9
1.3.6 小结 9
1.4 本书大纲 10
第一部分 立方体构造算法
第2章 主题级分类器生成 12
2.1 概述 12
2.2 相关工作 15
2.2.1 监督分类器学习 15
2.2.2 基于模式的提取 15
2.2.3 基于聚类的分类器构建 16
2.3 准备工作 17
2.3.1 问题定义 17
2.3.2 方法概述 17
2.4 自适应词聚类 18
2.4.1 划分主题的球形聚类 18
2.4.2 识别代表性词语 20
2.5 自适应词嵌入 21
2.5.1 分布式词语表示 21
2.5.2 学习局部词嵌入 21
2.6 实验评估 22
2.6.1 实验设计 22
2.6.2 定性结果 24
2.6.3 定量分析 27
2.7 小结 29
第3章 词语级分类器生成 30
3.1 概述 30
3.2 相关工作 32
3.3 问题定义 33
3.4 HiExpan框架 33
3.4.1 框架概述 33
3.4.2 关键词提取 34
3.4.3 层次树扩展 34
3.4.4 分类器全局优化 41
3.5 实验 42
3.5.1 实验设计 42
3.5.2 定性结果 43
3.5.3 定量结果 44
3.6 小结 47
第4章 弱监督文本分类 48
4.1 概述 48
4.2 相关工作 51
4.2.1 潜在变量模型 51
4.2.2 基于嵌入的模型 51
4.3 准备工作 52
4.3.1 问题定义 52
4.3.2 方法概述 53
4.4 伪文档生成 53
4.4.1 建模类分布 53
4.4.2 生成伪文档 55
4.5 自训练的神经模型 56
4.5.1 神经模型预训练 56
4.5.2 神经模型自训练 57
4.5.3 基于CNN和RNN的实例化 58
4.6 实验 59
4.6.1 数据集 59
4.6.2 基线 59
4.6.3 实验设计 60
4.6.4 实验结果 61
4.6.5 参数研究 65
4.6.6 案例研究 67
4.7 小结 68
第5章 弱监督层次文本分类 69
5.1 概述 69
5.2 相关工作 71
5.2.1 弱监督文本分类 71
5.2.2 层次文本分类 71
5.3 问题定义 72
5.4 伪文档生成 72
5.5 层次分类模型 74
5.5.1 局部分类器预训练 75
5.5.2 全局分类器自训练 75
5.5.3 阻断机制 77
5.5.4 推导 77
5.5.5 算法概述 77
5.6 实验 78
5.6.1 实验设计 78
5.6.2 定量比较 80
5.6.3 组件评估 82
5.7 小结 84
第二部分 立方体开发算法
第6章 多维摘要 86
6.1 概述 86
6.2 相关工作 89
6.3 准备工作 90
6.3.1 文本立方体准备 90
6.3.2 问题定义 91
6.4 排名度量 91
6.4.1 普遍性和完整性 92
6.4.2 邻域敏感的独特性 92
6.5 RepPhrase方法 96
6.5.1 简介 96
6.5.2 混合离线物化 97
6.5.3 最优在线处理 100
6.6 实验 101
6.6.1 实验设计 101
6.6.2 有效性评估 103
6.6.3 效率评估 107
6.7 小结 111
第7章 立方体空间中的跨维度预测 112
7.1 概述 112
7.2 相关工作 114
7.3 准备工作 115
7.3.1 问题描述 115
7.3.2 方法概述 115
7.4 半监督多模态嵌入 117
7.4.1 无监督重构任务 117
7.4.2 监督分类任务 119
7.4.3 优化程序 119
7.5 多模态嵌入的在线更新 120
7.5.1 生命衰减学习 120
7.5.2 基于约束的学习 121
7.5.3 复杂度分析 124
7.6 实验 124
7.6.1 实验设计 124
7.6.2 定量比较 127
7.6.3 案例研究 129
7.6.4 参数影响 132
7.6.5 下游应用 134
7.7 小结 135
第8章 立方体空间中的事件检测 136
8.1 概述 136
8.2 相关工作 138
8.2.1 突发事件检测 138
8.2.2 时空事件检测 139
8.3 准备工作 140
8.3.1 问题定义 140
8.3.2 方法概述 140
8.3.3 多模态嵌入 142
8.4 候选生成 143
8.4.1 贝叶斯混合聚类模型 144
8.4.2 参数评估 145
8.5 候选分类 146
8.5.1 多模态嵌入的特征推导 146
8.5.2 分类过程 147
8.6 支持持续的事件检测 147
8.7 复杂度分析 148
8.8 实验 148
8.8.1 实验设计 148
8.8.2 定性结果 150
8.8.3 定量结果 153
8.8.4 可扩展性研究 154
8.8.5 特征的重要性 155
8.9 小结 156
第9章 结论 157
9.1 总结 157
9.2 未来工作 158
参考文献 160