实战Python网络爬虫

实战Python网络爬虫

查阅电子书
手机扫码
  • 微信扫一扫

    关注微信公众号

因版权原因待上架

编辑推荐

本书从原理到实践,循序渐进地讲述了使用Python开发网络爬虫的核心技术。

内容简介

全书从逻辑上可分为基础篇、实战篇和爬虫框架篇三部分。基础篇主要介绍了编写网络爬虫所需的基础知识,包括网站分析、数据抓取、数据清洗和数据入库。网站分析讲述如何使用Chrome和Fiddler抓包工具对网站做全面分析;数据抓取介绍了Python爬虫模块Urllib和Requests的基础知识;数据清洗主要介绍字符串操作、正则和BeautifulSoup的使用;数据入库讲述了MySQL和MongoDB的操作,通过ORM框架SQLAlchemy实现数据持久化,进行企业级开发。实战篇深入讲解了分布式爬虫、爬虫软件的开发、12306抢票程序和微博爬取等。框架篇主要讲述流行的爬虫框架Scrapy,并以Scrapy与Selenium、Splash、Redis结合的项目案例,让读者深层次了解Scrapy的使用。此外,本书还介绍了爬虫的上线部署、如何自己动手开发一款爬虫框架、反爬虫技术的解决方案等内容。

本书使用Python 3.X编写,技术先进,项目丰富,适合欲从事爬虫工程师和数据分析师岗位的初学者、大学生和研究生使用,也很适合有一些网络爬虫编写经验,但希望更加全面、深入理解Python爬虫的开发人员使用。

作者简介

作者黄永祥,CSDN博客专家和签约讲师,多年软件研发经验,主要从事机器人流程系统研发、大数据系统研发、网络爬虫研发以及自动化运维系统研发。擅长使用Python编写高质量代码,对Python有深入研究,热爱分享和新技术的探索。

章节目录

版权信息

内容简介

作者简介

前言

第1章 理解网络爬虫

1.1 爬虫的定义

1.2 爬虫的类型

1.3 爬虫的原理

1.4 爬虫的搜索策略

1.5 爬虫的合法性与开发流程

1.6 本章小结

第2章 爬虫开发基础

2.1 HTTP与HTTPS

2.2 请求头

2.3 Cookies

2.4 HTML

2.5 JavaScript

2.6 JSON

2.7 Ajax

2.8 本章小结

第3章 Chrome分析网站

3.1 Chrome开发工具

3.2 Elements标签

3.3 Network标签

3.4 分析QQ音乐

3.5 本章小结

第4章 Fiddler抓包

4.1 Fiddler介绍

4.2 Fiddler安装配置

4.3 Fiddler抓取手机应用

4.4 Toolbar工具栏

4.5 Web Session列表

4.6 View选项视图

4.7 Quickexec命令行

4.8 本章小结

第5章 爬虫库Urllib

5.1 Urllib简介

5.2 发送请求

5.3 复杂的请求

5.4 代理IP

5.5 使用Cookies

5.6 证书验证

5.7 数据处理

5.8 本章小结

第6章 爬虫库Requests

6.1 Requests简介及安装

6.2 请求方式

6.3 复杂的请求方式

6.4 下载与上传

6.5 本章小结

第7章 Requests-Cache爬虫缓存

7.1 简介及安装

7.2 在Requests中使用缓存

7.3 缓存的存储机制

7.4 本章小结

第8章 爬虫库Requests-HTML

8.1 简介及安装

8.2 请求方式

8.3 数据清洗

8.4 Ajax动态数据抓取

8.5 本章小结

第9章 网页操控与数据爬取

9.1 了解Selenium

9.2 安装Selenium

9.3 网页元素定位

9.4 网页元素操控

9.5 常用功能

9.6 实战:百度自动答题

9.7 本章小结

第10章 手机App数据爬取

10.1 Appium简介及原理

10.2 搭建开发环境

10.3 连接Android系统

10.4 App的元素定位

10.5 App的元素操控

10.6 实战:淘宝商品采集

10.7 本章小结

第11章 Splash、Mitmproxy与Aiohttp

11.1 Splash动态数据抓取

11.2 Mitmproxy抓包

11.3 Aiohttp高并发抓取

11.4 本章小结

第12章 验证码识别

12.1 验证码的类型

12.2 OCR技术

12.3 第三方平台

12.4 本章小结

第13章 数据清洗

13.1 字符串操作

13.2 正则表达式

13.3 BeautifulSoup数据清洗

13.4 本章小结

第14章 文档数据存储

14.1 CSV数据的写入和读取

14.2 Excel数据的写入和读取

14.3 Word数据的写入和读取

14.4 本章小结

第15章 ORM框架

15.1 SQLAlchemy介绍与安装

15.2 连接数据库

15.3 创建数据表

15.4 添加数据

15.5 更新数据

15.6 查询数据

15.7 本章小结

第16章 MongoDB数据库操作

16.1 MongoDB介绍

16.2 MogoDB的安装及使用

16.3 连接MongoDB数据库

16.4 添加文档

16.5 更新文档

16.6 查询文档

16.7 本章小结

第17章 实战:爬取51Job招聘信息

17.1 项目分析

17.2 获取城市编号

17.3 获取招聘职位总页数

17.4 爬取每个职位信息

17.5 数据存储

17.6 爬虫配置文件

17.7 本章小结

第18章 实战:分布式爬虫——QQ音乐

18.1 项目分析

18.2 歌曲下载

18.3 歌手的歌曲信息

18.4 分类歌手列表

18.5 全站歌手列表

18.6 数据存储

18.7 分布式爬虫

18.8 本章小结

第19章 实战:12306抢票爬虫

19.1 项目分析

19.2 验证码验证

19.3 用户登录与验证

19.4 查询车次

19.5 预订车票

19.6 提交订单

19.7 生成订单

19.8 本章小结

第20章 实战:玩转微博

20.1 项目分析

20.2 用户登录

20.3 用户登录(带验证码)

20.4 关键词搜索热门微博

20.5 发布微博

20.6 关注用户

20.7 点赞和转发评论

20.8 本章小结

第21章 实战:微博爬虫软件开发

21.1 GUI库及PyQt5的安装与配置

21.2 项目分析

21.3 软件主界面

21.4 相关服务界面

21.5 微博采集界面

21.6 微博发布界面

21.7 微博爬虫功能

21.8 本章小结

第22章 Scrapy爬虫开发

22.1 认识与安装Scrapy

22.2 Scrapy爬虫开发示例

22.3 Spider的编写

22.4 Items的编写

22.5 Item Pipeline的编写

22.6 Selectors的编写

22.7 文件下载

22.8 本章小结

第23章 Scrapy扩展开发

23.1 剖析Scrapy中间件

23.2 自定义中间件

23.3 实战:Scrapy+Selenium爬取豆瓣电影评论

23.4 实战:Scrapy+Splash爬取B站动漫信息

23.5 实战:Scrapy+Redis分布式爬取猫眼排行榜

23.6 分布式爬虫与增量式爬虫

23.7 本章小结

第24章 实战:爬取链家楼盘信息

24.1 项目分析

24.2 创建项目

24.3 项目配置

24.4 定义存储字段

24.5 定义管道类

24.6 编写爬虫规则

24.7 本章小结

第25章 实战:QQ音乐全站爬取

25.1 项目分析

25.2 项目创建与配置

25.3 定义存储字段和管道类

25.4 编写爬虫规则

25.5 本章小结

第26章 爬虫的上线部署

26.1 非框架式爬虫部署

26.2 框架式爬虫部署

26.3 本章小结

第27章 反爬虫的解决方案

27.1 常见的反爬虫技术

27.2 基于验证码的反爬虫

27.3 基于请求参数的反爬虫

27.4 基于请求头的反爬虫

27.5 基于Cookies的反爬虫

27.6 本章小结

第28章 自己动手开发爬虫框架

28.1 框架设计说明

28.2 异步爬取方式

28.3 数据清洗机制

28.4 数据存储机制

28.5 实战:用自制框架爬取豆瓣电影

28.6 本章小结

实战Python网络爬虫是2019年由清华大学出版社出版,作者黄永祥。

得书感谢您对《实战Python网络爬虫》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。

购买这本书

你可能喜欢
Python 3反爬虫原理与绕过实战 电子书
适读人群 :本书既适合需要储备反爬虫知识的前端工程师和后端工程师阅读,也适合需要储备绕过知识的爬虫工程师、爬虫爱好者以及Python程序员阅读。 【人气推荐】《Python 3 网络爬虫开发实战》作者、微软小冰工程师崔庆才作序,腾讯、马蜂窝工程师倾力推荐。 【干货满满】爬虫工程师不可错过的“”,内容包括但不限于Cookie 反爬虫、WebSocket 反爬虫、字体反爬虫、WebDriver反爬虫、App 反爬虫、验证码反爬虫。 【反爬虫原理 爬虫实战】从实战出发,印证国内互联网企业内部加密原理,侧重讲解反爬虫的原理以及绕过方法。 【21个反爬虫示例】结合练习平台 Steamboat,帮助读者随时复现书中的 21个爬虫示例,巩固所学知识。
Python爬虫开发实战教程(微课版) 电子书
本书共5章,介绍了爬虫的基本结构及工作流程、抓包工具、模拟网络请求、网页解析、去重策略、常见反爬措施,以及大型商业爬虫框架Scrapy的应用,最后介绍了数据分析及可视化的相关基础知识。
Python网络爬虫实例教程(视频讲解版) 电子书
本书主要内容包括:网络爬虫概述、requests库入门、xapth语法详解、认识和应对反爬虫、模拟登录和验证码的处理、动态页面的分析方法、scrapy框架基础、应对反爬虫策略、scrapy数据存储、提交数据和保持登录、crawlspider模板、图片下载和文件下载、分布式爬虫、增量式爬虫、
Python网络爬虫技术(第2版)(微课版) 电子书
本书以项目为导向,以任务为驱动,较为全面地介绍了不同场景、不同平台使用Python爬取网络数据的方法,涉及静态网页、动态网页、登录后才能访问的网页、PC客户端、App客户端等。全书共7个项目,项目1介绍爬虫与反爬虫的基本概念,以及Python爬虫环境的配置;项目2介绍爬取过程中涉及的网页基础知识;项目3介绍在静态网页中爬取数据的过程;项目4介绍在动态网页中爬取数据的过程;项目5介绍对登录后才能访问
Python网络爬虫:从入门到精通(附微课) 电子书
本书主要介绍如何使用Python语言进行网络爬虫程序的开发,从Python语言的基本特性入手,详细介绍Python网络爬虫开发的多个方面,涉及HTTP、HTML、正则表达式、JavaScript、自然语言处理、数据处理与科学计算等不同领域的内容。全书共12章,包括基础篇、进阶篇、提高篇和实战篇4个部分。基础篇包括第1、2、3章,分别为Python基础及网络爬虫、静态网页抓取、数据存储。进阶篇包括第