实战Python网络爬虫

黄永祥

225千字字数

8.2 豆瓣评分

查阅电子书

手机扫码

微信扫一扫

关注微信公众号

因版权原因待上架

类似推荐

编辑推荐

本书从原理到实践，循序渐进地讲述了使用Python开发网络爬虫的核心技术。

内容简介

全书从逻辑上可分为基础篇、实战篇和爬虫框架篇三部分。基础篇主要介绍了编写网络爬虫所需的基础知识，包括网站分析、数据抓取、数据清洗和数据入库。网站分析讲述如何使用Chrome和Fiddler抓包工具对网站做全面分析；数据抓取介绍了Python爬虫模块Urllib和Requests的基础知识；数据清洗主要介绍字符串操作、正则和BeautifulSoup的使用；数据入库讲述了MySQL和MongoDB的操作，通过ORM框架SQLAlchemy实现数据持久化，进行企业级开发。实战篇深入讲解了分布式爬虫、爬虫软件的开发、12306抢票程序和微博爬取等。框架篇主要讲述流行的爬虫框架Scrapy，并以Scrapy与Selenium、Splash、Redis结合的项目案例，让读者深层次了解Scrapy的使用。此外，本书还介绍了爬虫的上线部署、如何自己动手开发一款爬虫框架、反爬虫技术的解决方案等内容。

本书使用Python 3.X编写，技术先进，项目丰富，适合欲从事爬虫工程师和数据分析师岗位的初学者、大学生和研究生使用，也很适合有一些网络爬虫编写经验，但希望更加全面、深入理解Python爬虫的开发人员使用。

作者简介

作者黄永祥，CSDN博客专家和签约讲师，多年软件研发经验，主要从事机器人流程系统研发、大数据系统研发、网络爬虫研发以及自动化运维系统研发。擅长使用Python编写高质量代码，对Python有深入研究，热爱分享和新技术的探索。

章节目录

版权信息

内容简介

作者简介

前言

第1章理解网络爬虫

1.1 爬虫的定义

1.2 爬虫的类型

1.3 爬虫的原理

1.4 爬虫的搜索策略

1.5 爬虫的合法性与开发流程

1.6 本章小结

第2章爬虫开发基础

2.1 HTTP与HTTPS

2.2 请求头

2.3 Cookies

2.4 HTML

2.5 JavaScript

2.6 JSON

2.7 Ajax

2.8 本章小结

第3章 Chrome分析网站

3.1 Chrome开发工具

3.2 Elements标签

3.3 Network标签

3.4 分析QQ音乐

3.5 本章小结

第4章 Fiddler抓包

4.1 Fiddler介绍

4.2 Fiddler安装配置

4.3 Fiddler抓取手机应用

4.4 Toolbar工具栏

4.5 Web Session列表

4.6 View选项视图

4.7 Quickexec命令行

4.8 本章小结

第5章爬虫库Urllib

5.1 Urllib简介

5.2 发送请求

5.3 复杂的请求

5.4 代理IP

5.5 使用Cookies

5.6 证书验证

5.7 数据处理

5.8 本章小结

第6章爬虫库Requests

6.1 Requests简介及安装

6.2 请求方式

6.3 复杂的请求方式

6.4 下载与上传

6.5 本章小结

第7章 Requests-Cache爬虫缓存

7.1 简介及安装

7.2 在Requests中使用缓存

7.3 缓存的存储机制

7.4 本章小结

第8章爬虫库Requests-HTML

8.1 简介及安装

8.2 请求方式

8.3 数据清洗

8.4 Ajax动态数据抓取

8.5 本章小结

第9章网页操控与数据爬取

9.1 了解Selenium

9.2 安装Selenium

9.3 网页元素定位

9.4 网页元素操控

9.5 常用功能

9.6 实战：百度自动答题

9.7 本章小结

第10章手机App数据爬取

10.1 Appium简介及原理

10.2 搭建开发环境

10.3 连接Android系统

10.4 App的元素定位

10.5 App的元素操控

10.6 实战：淘宝商品采集

10.7 本章小结

第11章 Splash、Mitmproxy与Aiohttp

11.1 Splash动态数据抓取

11.2 Mitmproxy抓包

11.3 Aiohttp高并发抓取

11.4 本章小结

第12章验证码识别

12.1 验证码的类型

12.2 OCR技术

12.3 第三方平台

12.4 本章小结

第13章数据清洗

13.1 字符串操作

13.2 正则表达式

13.3 BeautifulSoup数据清洗

13.4 本章小结

第14章文档数据存储

14.1 CSV数据的写入和读取

14.2 Excel数据的写入和读取

14.3 Word数据的写入和读取

14.4 本章小结

第15章 ORM框架

15.1 SQLAlchemy介绍与安装

15.2 连接数据库

15.3 创建数据表

15.4 添加数据

15.5 更新数据

15.6 查询数据

15.7 本章小结

第16章 MongoDB数据库操作

16.1 MongoDB介绍

16.2 MogoDB的安装及使用

16.3 连接MongoDB数据库

16.4 添加文档

16.5 更新文档

16.6 查询文档

16.7 本章小结

第17章实战：爬取51Job招聘信息

17.1 项目分析

17.2 获取城市编号

17.3 获取招聘职位总页数

17.4 爬取每个职位信息

17.5 数据存储

17.6 爬虫配置文件

17.7 本章小结

第18章实战：分布式爬虫——QQ音乐

18.1 项目分析

18.2 歌曲下载

18.3 歌手的歌曲信息

18.4 分类歌手列表

18.5 全站歌手列表

18.6 数据存储

18.7 分布式爬虫

18.8 本章小结

第19章实战：12306抢票爬虫

19.1 项目分析

19.2 验证码验证

19.3 用户登录与验证

19.4 查询车次

19.5 预订车票

19.6 提交订单

19.7 生成订单

19.8 本章小结

第20章实战：玩转微博

20.1 项目分析

20.2 用户登录

20.3 用户登录（带验证码）

20.4 关键词搜索热门微博

20.5 发布微博

20.6 关注用户

20.7 点赞和转发评论

20.8 本章小结

第21章实战：微博爬虫软件开发

21.1 GUI库及PyQt5的安装与配置

21.2 项目分析

21.3 软件主界面

21.4 相关服务界面

21.5 微博采集界面

21.6 微博发布界面

21.7 微博爬虫功能

21.8 本章小结

第22章 Scrapy爬虫开发

22.1 认识与安装Scrapy

22.2 Scrapy爬虫开发示例

22.3 Spider的编写

22.4 Items的编写

22.5 Item Pipeline的编写

22.6 Selectors的编写

22.7 文件下载

22.8 本章小结

第23章 Scrapy扩展开发

23.1 剖析Scrapy中间件

23.2 自定义中间件

23.3 实战：Scrapy+Selenium爬取豆瓣电影评论

23.4 实战：Scrapy+Splash爬取B站动漫信息

23.5 实战：Scrapy+Redis分布式爬取猫眼排行榜

23.6 分布式爬虫与增量式爬虫

23.7 本章小结

第24章实战：爬取链家楼盘信息

24.1 项目分析

24.2 创建项目

24.3 项目配置

24.4 定义存储字段

24.5 定义管道类

24.6 编写爬虫规则

24.7 本章小结

第25章实战：QQ音乐全站爬取

25.1 项目分析

25.2 项目创建与配置

25.3 定义存储字段和管道类

25.4 编写爬虫规则

25.5 本章小结

第26章爬虫的上线部署

26.1 非框架式爬虫部署

26.2 框架式爬虫部署

26.3 本章小结

第27章反爬虫的解决方案

27.1 常见的反爬虫技术

27.2 基于验证码的反爬虫

27.3 基于请求参数的反爬虫

27.4 基于请求头的反爬虫

27.5 基于Cookies的反爬虫

27.6 本章小结

第28章自己动手开发爬虫框架

28.1 框架设计说明

28.2 异步爬取方式

28.3 数据清洗机制

28.4 数据存储机制

28.5 实战：用自制框架爬取豆瓣电影

28.6 本章小结

实战Python网络爬虫是2019年由清华大学出版社出版,作者黄永祥。

得书感谢您对《实战Python网络爬虫》关注和支持，如本书内容有不良信息或侵权等情形的，请联系本网站。

得书 - 好书推荐、正版图书免费阅读