IBM SPSS Modeler 18.0数据挖掘权威指南_张浩彬周伟珠_9787115507594

本书是一本以数据挖掘应用为主导，以SPSS Modeler为实践框架的应用指南，内容涵盖数据挖掘方法论、数据读取、数据处理、数据可视化、统计分析与检验、数据挖掘算法、自动建模、集成与扩展、模型部署以及性能优化等，力求帮助读者全面掌握数据挖掘项目的主要内容以及实践细节。除了操作层面，本书也尽可能地把专业晦涩的数据挖掘知识及商业应用内容以通俗易懂的方式传递给读者，同时所有场景会结合IBM SPSS工具进行实现并提供样例学习，方便读者在学习的同时加深巩固和理解。如果你是在校学生、刚刚从事数据分析的大学毕业生、数据分析爱好者、市场营销人员、产品运营人员或者数据分析师，如果你希望提升自己的数据挖掘技术，那么就适合阅读本书。

第 1章 IBM SPSS Modeler基本介绍 1 1.1　SPSS简介　1 1.2　SPSS Modeler的特点　1 1.3　CRISP-DM方法论　4 1.4　SPSS Modeler 下载与安装　6 1.5　SPSS Modeler的主界面及基本操作　9 1.5.1　主界面介绍　9 1.5.2　鼠标基本操作　15 1.6　SPSS Modeler连接服务器端　15 1.7　从SPSS Modeler中获取帮助　17 1.8　实战技巧　20 第　2章数据读取——源节点　24 2.1　数据的身份（存储类型、测量级别和角色）　24 2.1.1　变量的存储类型　24 2.1.2　变量的测量级别　25 2.1.3　变量的角色　26 2.2　数据读取　26 2.2.1　读取Excel文件数据　27 2.2.2　读取变量文件数据　30 2.2.3　读取SPSS（.sav）文件数据　32 2.2.4　读取数据库数据　36 2.3　实战技巧　40 第3章　数据整理——关于数据的基本设定与集成　43 3.1　字段的“类型”功能　43 3.2　字段的“过滤器”功能　44 3.3　数据集成　46 3.3.1　数据的记录集成：追加节点　46 3.3.2　数据的字段集成：合并节点　49 3.4　实战技巧　51 第4章　数据整理——关于行的处理　53 4.1　数据“选择”功能　53 4.1.1　功能介绍　53 4.1.2　实战技巧　55 4.2　使用参数及全局变量实现数据选择功能　56 4.2.1　参数功能　56 4.2.2　使用参数实例介绍　57 4.2.3　使用全局变量功能介绍　59 4.2.4　使用全局变量实例介绍　59 4.3　数据排序　62 4.4　数据区分　63 4.5　数据汇总　68 4.5.1　功能介绍　68 4.5.2　实战技巧　72 第5章　数据整理——关于列的处理　73 5.1　导出　73 5.1.1　功能介绍　73 5.1.2　实例介绍　81 5.2　填充　84 5.3　重新分类　86 5.4　匿名化　89 5.5　分级化　92 5.6　设为标志　100 5.6.1　功能介绍　100 5.6.2　实例介绍　100 5.7　重建　103 5.7.1　功能介绍　103 5.7.2　实例介绍　104 5.8　转置　107 5.8.1　功能介绍　107 5.8.2　实例介绍　107 5.9　历史记录　109 5.9.1　功能介绍　109 5.9.2　实例介绍　109 5.10　字段重排　113 5.11　时间间隔　116 5.11.1　功能介绍　116 5.11.2　实例介绍　116 5.12　自动数据准备　121 第6章　图形可视化——图形节点　128 6.1　“散点图”节点　128 6.1.1　散点图　128 6.1.2　线图　139 6.1.3　多重散点图　142 6.1.4　时间散点图　143 6.2　“条形图”节点　145 6.2.1　简单条形图　145 6.2.2　堆积条形图　147 6.3　“直方图”节点　148 6.3.1　直方图　148 6.3.2　堆积直方图　149 6.4　“网络”节点　151 6.5　“图形板”节点　154 6.5.1　气泡图　155 6.5.2　散点图矩阵　156 6.5.3　箱图　157 6.5.4　聚类箱图　159 6.5.5　热图　161 6.6　实战技巧：图形的编辑模式　162 第7章　描述性统计分析　164 7.1　描述性统计分析概述　164 7.2　数据审核，一键输出描述性统计分析结果169 7.3　缺失值的定义、检查和处理　173 7.3.1　缺失值的定义和检查　173 7.3.2　缺失值的自动化处理　177 7.4　实战技巧　182 第8章　常用的统计检验分析　184 8.1　两个连续型变量的关系分析——相关分析　184 8.1.1　相关分析　184 8.1.2　相关分析实践——“Statistics”节点　185 8.2　两个分类型变量的关系分析——卡方检验　187 8.2.1　列联表与卡方检验　188 8.2.2　卡方检验实践——“矩阵”节点　190 8.3　连续型变量与分类型变量间的关系分析——t检验及卡方分析　193 8.3.1　两组独立样本均值比较　193 8.3.2　两组配对样本均值比较　194 8.3.3　方差分析　194 8.3.4　均值比较实践——“平均值”节点　195 8.4　实战技巧：相关分析的注意事项　199 第9章　回归分析　200 9.1　一元线性回归分析　200 9.2　一元线性回归实践　203 9.3　多元线性回归分析　206 9.4　多元线性回归实践　210 9.5　逐步回归分析　216 9.6　逐步回归实践　218 9.7　实战技巧　220 第　10章 Logistic回归分析　222 10.1　Logistic回归理论概要　222 10.2　Logistic回归中的检验　225 10.2.1　方程的显著性检验　225 10.2.2　系数显著性检验　225 10.2.3　拟合优度检验　227 10.3　Logistic回归实践案例　228 10.4　实战技巧　237 第　11章建模前的优化及准备工作　241 11.1　样本管理与分区　241 11.1.1　数据抽样　241 11.1.2　数据分区　244 11.1.3　数据平衡　245 11.2　特征选择　247 11.3　数据变换　253 11.4　实战技巧：分区与平衡的顺序　255 第　12章 RFM分析　257 第　13章决策树　264 13.1　决策树概述　264 13.1.1　决策树的直观理解　264 13.1.2　决策树的生长　265 13.1.3　决策树的剪枝　266 13.2　C5.0算法　267 13.2.1　C5.0算法的决策树生长　267 13.2.2　C5.0算法的决策树剪枝　270 13.2.3　代价敏感学习　270 13.2.4　C5.0算法实践案例　271 13.3　CART算法　277 13.3.1　CART算法的决策树生长　277 13.3.2　CART算法的决策树剪枝　279 13.3.3　先验概率　280 13.3.4　CART算法实践案例　281 13.4　实战技巧　287 13.4.1　生成规则集　287 13.4.2　跟踪规则　289 第　14章神经网络　291 14.1　感知机　292 14.2　多层感知机与误差反向传播算法　295 14.2.1　隐藏层　295 14.2.2　反向传播算法　296 14.3　神经网络实践　299 14.4　实战技巧：生成“报告”　305 第　15章集成学习算法　311 15.1　Bagging　311 15.2　Boosting　312 15.3　随机森林　314 15.4　集成学习算法实践　314 15.4.1　Bagging和Boosting实践　315 15.4.2　随机森林实践　320 15.4.3　各个集成学习算法的结果比较　324 15.5　异质集成——“整体”节点　325 第　16章聚类分析　330 16.1　聚类方法概述　330 16.2　聚类方法的关键：距离　330 16.3　K-means算法　331 16.3.1　K-means算法原理　331 16.3.2　K-means的其他注意事项　332 16.4　K-means聚类实践　335 16.5　实践技巧：使用平行图进行比较分析　341 第　17章 KNN分类器　343 17.1　KNN学习方法原理　343 17.2　KNN分类实践　345 17.2.1　分类预测　346 17.2.2　最近邻识别　353 第　18章关联分析　356 18.1　关联分析的基本概念　356 18.2　关联规则的有效性指标　357 18.2.1　关联规则的基础评价性指标　358 18.2.2　关联规则的实用性指标　359 18.2.3　其他的关联规则评估指标　360 18.3　Apriori算法　361 18.3.1　生成频繁项集　361 18.3.2　生成关联规则　362 18.4　Apriori关联分析实践　363 18.5　实战技巧：导出生成的关联规则　367 第　19章自动建模　368 19.1　自动分类　368 19.1.1　功能介绍　368 19.1.2　实例介绍　368 19.2　自动聚类　375 19.2.1　功能介绍　375 19.2.2　实例介绍　376 19.3　自动数值　381 19.3.1　功能介绍　381 19.3.2　实例介绍　381 第　20章蒙特卡罗模拟法　386 20.1　模拟生成　386 20.1.1　功能介绍　386 20.1.2　实例介绍　389 20.2　模拟拟合　393 20.2.1　功能介绍　393 20.2.2　实例介绍　394 20.3　模拟求值　396 20.3.1　功能介绍　396 20.3.2　实例介绍　396 第　21章 SPSS Modeler的集成与扩展　404 21.1　SPSS Modeler与R、Python集成　404 21.1.1　概述　404 21.1.2　SPSS Modeler与R的集成环境准备　404 21.1.3　与R的集成功能介绍　407 21.1.4　实例介绍　408 21.2　定制对话框实现与R、Python的集成　416 21.2.1　定制对话框简介　416 21.2.2　安装配置自定义节点　422 21.3　SPSS Modeler扩展功能　422 21.3.1　功能介绍　422 21.3.2　获取天气数据的应用分析案例　425 第　22章 SPSS Modeler模型部署　434 22.1　产品架构　434 22.2　通过批处理任务定时运行模型　435 22.2.1　功能介绍　435 22.2.2　实例介绍　436 22.3　SPSS Modeler服务器安装及管理（For Linux）　438 22.3.1　正常维护SPSS Modeler服务器　438 22.3.2　SPSS Modeler 服务器如何在Linux上安装及配置　439 22.3.3　配置ODBC连接数据库　440 22.4　SPSS Modeler官方支持的数据库和Hadoop平台　443 第　23章性能优化　448 23.1　功能介绍　448 23.2　客户端SQL性能优化　451 23.3　数据库内建模　453 23.3.1　功能介绍　453 23.3.2　实例介绍　453 23.4　使用外部程序批量加载　456

你还可能感兴趣

我要评论