类似推荐
编辑推荐
详解数据抓取、数据处理和数据分析的整个流程。
内容简介
本书介绍如何使用Python语言进行网络爬虫程序的开发,从Python语言的基本特性入手,详细介绍了Python爬虫程序开发的各个方面,包括HTTP、HTML、JavaScript、正则表达式、自然语言处理、数据科学等不同领域的内容。全书共14章,分为基础篇、进阶篇、提高篇和实战篇四个部分,内容覆盖网络抓取与爬虫编程中的主要知识和技术。
同时,本书在重视理论基础的前提下,从实用性和丰富度出发,结合实例演示了编写爬虫程序的核心流程。
章节目录
版权信息
面向新工科高等院校大数据专业系列教材编委会成员名单
出版说明
前言
基础篇
第1章 Python基础及网络爬虫
1.1 了解Python语言
1.1.1 Python是什么
1.1.2 Python的应用现状
1.2 配置安装Python开发环境
1.2.1 在Windows上安装
1.2.2 在Ubuntu和MacOS上安装
1.2.3 IDE的使用:以PyCharm为例
1.2.4 Jupyter Notebook简介
1.3 Python基本语法介绍
1.3.1 HelloWorld与数据类型
1.3.2 逻辑语句
1.3.3 Python中的函数与类
1.3.4 更深入了解Python
1.4 互联网、HTTP与HTML
1.4.1 互联网与HTTP
1.4.2 HTML
1.5 Hello, Spider!
1.5.1 编写第一个爬虫程序
1.5.2 对爬虫的思考
1.6 分析网站
1.6.1 robots.txt与Sitemap简介
1.6.2 网站技术分析
1.6.3 网站所有者信息分析
1.6.4 使用开发者工具检查网页
1.7 本章小结
1.8 实践:Python环境的配置与爬虫的运行
1.8.1 需求说明
1.8.2 实现思路及步骤
1.9 习题
第2章 数据采集与预处理
2.1 数据
2.1.1 数据的概念
2.1.2 数据类型
2.1.3 数据的存储形式
2.1.4 数据的价值
2.1.5 大数据时代
2.2 数据分析过程
2.3 数据采集
2.3.1 数据采集的概念
2.3.2 数据采集的数据源
2.3.3 数据采集方法
2.4 数据清洗
2.4.1 数据清洗概述
2.4.2 数据清洗的内容
2.4.3 数据清洗的基本流程
2.4.4 数据清洗的评价标准
2.5 数据集成
2.6 数据转换
2.6.1 数据转换概念与策略
2.6.2 平滑处理
2.6.3 标准化处理
2.7 数据脱敏
2.7.1 数据脱敏的原则
2.7.2 数据脱敏的方法
2.8 本章小结
2.9 实践:使用Python尝试数据的清洗
2.9.1 需求说明
2.9.2 实现思路及步骤
2.10 习题
第3章 静态网页采集
3.1 从采集开始
3.2 正则表达式
3.2.1 什么是正则表达式
3.2.2 正则表达式的简单使用
3.3 BeautifulSoup爬虫
3.3.1 安装BeautifulSoup
3.3.2 BeautifulSoup的基本用法
3.4 XPath与lxml
3.4.1 XPath
3.4.2 lxml与XPath的使用
3.5 遍历页面
3.5.1 抓取下一个页面
3.5.2 完成爬虫
3.6 使用API
3.6.1 API简介
3.6.2 API使用示例
3.7 本章小结
3.8 实践:哔哩哔哩直播间信息爬取练习
3.8.1 需求说明
3.8.2 实现思路及步骤
3.9 习题
第4章 数据存储
4.1 Python中的文件
4.1.1 Python的文件读写
4.1.2 对象序列化
4.2 Python中的字符串
4.3 Python中的图片
4.3.1 PIL与Pillow模块
4.3.2 Python与OpenCV简介
4.4 CSV
4.4.1 CSV简介
4.4.2 CSV的读写
4.5 数据库的使用
4.5.1 MySQL的使用
4.5.2 SQLite3的使用
4.5.3 SQLAlchemy的使用
4.5.4 Redis的使用
4.5.5 MongoDB的使用
4.6 其他类型的文档
4.7 本章小结
4.8 实践:使用Python 3读写SQLite数据库
4.8.1 需求说明
4.8.2 实现思路及步骤
4.9 习题
进阶篇
第5章 JavaScript与动态内容
5.1 JavaScript与AJAX技术
5.1.1 JavaScript语言
5.1.2 AJAX
5.2 抓取AJAX数据
5.2.1 分析数据
5.2.2 数据提取
5.3 抓取动态内容
5.3.1 动态渲染页面
5.3.2 使用Selenium
5.3.3 PyV8与Splash
5.4 本章小结
5.5 实践:爬取机械工业出版社新书上架信息
5.5.1 需求说明
5.5.2 实现思路及步骤
5.6 习题
第6章 模拟登录与验证码
6.1 表单
6.1.1 表单与POST
6.1.2 POST发送表单数据
6.2 Cookie
6.2.1 Cookie简介
6.2.2 在Python中Cookie的使用
6.3 模拟登录网站
6.3.1 分析网站
6.3.2 Cookie方法的模拟登录
6.4 验证码
6.4.1 图片验证码
6.4.2 滑动验证
6.5 本章小结
6.6 实践:通过Selenium模拟登录Gitee并保存Cookie
6.6.1 需求说明
6.6.2 实现思路及步骤
6.7 习题
第7章 爬虫数据的分析与处理
7.1 Python与文本分析
7.1.1 文本分析简介
7.1.2 jieba与SnowNLP
7.1.3 NLTK
7.1.4 文本分类与聚类
7.2 数据处理与科学计算
7.2.1 从MATLAB到Python
7.2.2 NumPy
7.2.3 Pandas
7.2.4 Matplotlib
7.2.5 SciPy与SymPy
7.3 本章小结
7.4 实践:中国每年大学招生人数变化的可视化
7.4.1 需求说明
7.4.2 实现思路及步骤
7.5 习题
提高篇
第8章 爬虫的灵活性和多样性
8.1 爬虫的灵活性——以微信数据抓取为例
8.1.1 用Selenium抓取Web微信信息
8.1.2 基于Python的微信API工具
8.2 爬虫的多样性
8.2.1 在BeautifulSoup和XPath之外
8.2.2 在线爬虫应用平台
8.2.3 使用urllib
8.3 爬虫的部署和管理
8.3.1 使用服务器部署爬虫
8.3.2 本地爬虫的编写
8.3.3 爬虫的部署
8.3.4 实时查看运行结果
8.3.5 使用框架管理爬虫
8.4 本章小结
8.5 实践:基于PyQuery爬取菜鸟教程
8.5.1 需求说明
8.5.2 实现思路及步骤
8.6 习题
第9章 Selenium模拟浏览器与网站测试
9.1 测试
9.1.1 什么是测试
9.1.2 什么是TDD
9.2 Python的单元测试
9.2.1 使用unittest
9.2.2 其他方法
9.3 使用Python爬虫测试网站
9.4 使用Selenium测试
9.4.1 Selenium测试常用的网站交互
9.4.2 结合Selenium进行单元测试
9.5 本章小结
9.6 实践:使用Selenium爬取百度搜索“爬虫”的结果
9.6.1 需求说明
9.6.2 实现思路及步骤
9.7 习题
第10章 爬虫框架Scrapy与反爬虫
10.1 爬虫框架
10.1.1 Scrapy简介
10.1.2 安装与学习Scrapy
10.1.3 Scrapy爬虫编写
10.1.4 其他爬虫框架
10.2 网站反爬虫
10.2.1 反爬虫策略简介
10.2.2 伪装Headers
10.2.3 代理IP的使用
10.2.4 控制访问频率
10.3 本章小结
10.4 实践:使用反反爬虫策略抓取新浪体育频道热门新闻标题
10.4.1 需求说明
10.4.2 实现思路及步骤
10.5 习题
实战篇
第11章 实战:根据关键词爬取新闻
11.1 利用Web Scraper工具
11.1.1 Web Scraper介绍
11.1.2 利用Web Scraper爬取新华网新闻
11.2 利用Selenium和XPath技术
11.2.1 Selenium介绍
11.2.2 XPath介绍
11.2.3 根据关键词爬取新闻
11.3 本章小结
第12章 实战:爬取科研文献信息
12.1 科研文献数据爬取
12.1.1 网页URL分析
12.1.2 网页响应内容获取
12.1.3 数据持久化存储
12.1.4 爬虫代码编写
12.1.5 大数据量文献爬虫
12.1.6 针对反爬虫的措施
12.2 本章小结
第13章 实战:蒸汽平台游戏数据爬取
13.1 爬取蒸汽平台上最受好评的前100个游戏信息
13.1.1 多线程
13.1.2 搜索页面分析和爬虫实现
13.1.3 游戏页面分析和爬虫实现
13.1.4 信息存储和结果展示
13.2 本章小结
第14章 实战:Scrapy框架爬取股票信息
14.1 任务介绍
14.2 Scrapy项目实战
14.2.1 新建Scrapy爬虫项目
14.2.2 使用Scrapy shell抓取并查看页面
14.2.3 爬虫代码编写
14.2.4 运行并存储数据
14.2.5 设置文件修改
14.3 本章小结
参考文献
Python网络爬虫技术与实践是2023年由机械工业出版社出版,作者吕云翔 等 编著。
得书感谢您对《Python网络爬虫技术与实践》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。