本书是一本应用爬虫技术进行数据采集、整理和数据可视化的实战读物。本书以高效开源的python语言编写,python拥有多重开源的网络爬虫工具、数据分析工具和数据可视化的工具,代码简洁,便于学习。本书集中于常用的python第三方工具,从工具的安装、引入到方法和属性做了详细的介绍,同时对各种方法和属性通过大量案例讲解帮助读者理解。每一章都有基础应用到综合实战,每一个案例都经过实战检验。本书既强调基础,又力求体现新知识与新技术,在编写体例上采用简约的文字表述,配合详细操作步骤的图片,图文并茂,直观明了。注重理论和实践相结合,设置了知识图谱、学习目标、知识指南、任务实训、结果分析等模块。为了让读者能够及时地检查自己的学习效果,把握自己的学习进度,每节都附有丰富的巩固训练,前五章还配有测试题,并通过配套的技能训练项目来加强学生技能的培养。
第1章Python爬虫应用基础 (主要介绍爬虫中重点应用知识)
1.1 Python的安装与开发环境配置
1.1.1在Windows上安装
1.1.2开发环境介绍
1.2 Python的基础
1.2.1 Python的基本语法
1.2.2数据类型与常用函数
1.2.3逻辑控制
1.3 Python序列应用(爬虫常用)
1.4 Python中的函数与类(含生成器、模块概念)
1.5 异常处理
第2章 python网页下载技术
2.1 HTTP协议简介
2.1.1 HTTP请求消息
2.1.2 HTTP响应消息
2.2 爬虫基础简介
2.2.1 爬虫分类
2.2.2 爬虫框架
2.3 robots协议
2.4 网页下载器requests库的应用
2.4.1 安装
2.4.2 requests库的常用方法
2.4.3 requests爬虫之定义请求头
2.4.4 requests库的响应信息
第3章 页面解析技术
3.1 html dom 基础
3.2 css selector定位器
3.2.1 安装应用环境
3.2.2 css选择器详解
3.2.3 lxml etree解释器
3.2.4 css选择器综合应用实战
3.3 BeautifulSoup4
3.3.1 安装环境
3.3.2 bs4库的应用
3.3.3 BeautifulSoup类的基本元素与常用方法
3.3.4 bs4综合应用实战
3.4 Xpath
3.4.1 Xpath基础
3.4.2 Xpath语法
3.4.3 XPath Helper插件
3.4.4 XPath综合应用
3.4.5 加密文字处理
3.4.6 字符串中无用字符清洗方法
3.5 正则表达式
3.5.1 语法
3.5.2 re模块中的常用函数
3.5.3 常用正则表达式
3.5.4 正则表达式解析网页应用实战
第4章 爬虫之文件存储
4.1 Python文件系统
4.1.1基本的文件读写
4.1.2 python文件与目录操作(os模块)
4.2 CSV文件
4.2.1 CSV简介
4.2.2 CSV的读写与格式转换
4.3 json文件
4.3.1 json文件简介
4.3.2 json文件的读写
4.5 MySQL数据库
4.5.1 MySQL的配置
4.5.2元组与列表方式读写MySQL
4.5.3 字典方式读写MySQL
4.6 网页数据清洗与存储综合应用
第5章 Scrapy框架
5.1 Scray工作机制
5.2 Scrapy的安装与入门
5.2.1 安装环境
5.2.2 Scrapy框架部件功能介绍
5.3编写Scrapy爬虫
5.3.1 Scrapy框架模式编写bs4中的综合应用程序
5.3.2 综合应用实战
第6章 动态网页爬取
6.1 JavaScript与AJAX技术
6.1.1 JavaScript语言
6.1.2 AJAX
6.2抓取AJAX数据
6.2.1分析数据
6.2.2提取数据
6.2.3 综合实战(爬取起点中文网信息写入txt文件)
6.3 抓取动态内容
6.3.1动态渲染页面
6.3.2使用Selenium
6.3.3 综合实战
第7章 数据可视化
7.1 pandas 应用
7.2 matplotlib应用
7.3 pyecharts 应用