Python网络爬虫权威指南(第2版)

Python网络爬虫权威指南(第2版)

查阅电子书
手机扫码
  • 微信扫一扫

    关注微信公众号

因版权原因待上架

编辑推荐

本书采用简洁强大的Python语言,全面介绍网页抓取技术,解答诸多常见问题,是掌握从数据爬取到数据清洗全流程的系统实践指南。

内容简介

本书采用简洁强大的Python 语言,介绍了网页抓取,并为抓取新式网络中的各种数据类型提供了全面的指导。第一部分重点介绍网页抓取的基本原理:如何用Python 从网络服务器请求信息,如何对服务器的响应进行基本处理,以及如何以自动化手段与网站进行交互。第二部分介绍如何用网络爬虫测试网站,自动化处理,以及如何通过更多的方式接入网络。

作者简介

作者瑞安·米切尔(Ryan Mitchell),数据科学家、软件工程师,有丰富的网络爬虫和数据分析实战经验,目前就职于美国格理集团,经常为网页数据采集项目提供咨询服务,并在美国东北大学和美国欧林工程学院任教。

章节目录

版权信息

版权声明

O'Reilly Media, Inc. 介绍

业界评论

前言

什么是网页抓取

为什么要做网页抓取

关于本书

排版约定

使用代码示例

O'Reilly Safari

联系我们

致谢

电子书

第一部分 创建爬虫

第1章 初见网络爬虫

1.1 网络连接

1.2 BeautifulSoup简介

第2章 复杂 HTML 解析

2.1 不是一直都要用锤子

2.2 再端一碗BeautifulSoup

2.3 正则表达式

2.4 正则表达式和BeautifulSoup

2.5 获取属性

2.6 Lambda表达式

第3章 编写网络爬虫

3.1 遍历单个域名

3.2 抓取整个网站

3.3 在互联网上抓取

第4章 网络爬虫模型

4.1 规划和定义对象

4.2 处理不同的网站布局

4.3 结构化爬虫

4.4 关于网络爬虫模型的思考

第5章 Scrapy

5.1 安装Scrapy

5.2 创建一个简易爬虫

5.3 带规则的抓取

5.4 创建item

5.5 输出item

5.6 item管线组件

5.7 Scrapy日志管理

5.8 更多资源

第6章 存储数据

6.1 媒体文件

6.2 把数据存储到CSV

6.3 MySQL

6.4 Email

第二部分 高级网页抓取

第7章 读取文档

7.1 文档编码

7.2 纯文本

7.3 CSV

7.4 PDF

7.5 微软Word和.docx

第8章 数据清洗

8.1 编写代码清洗数据

8.2 数据存储后再清洗

第9章 自然语言处理

9.1 概括数据

9.2 马尔可夫模型

9.3 自然语言工具包

9.4 其他资源

第10章 穿越网页表单与登录窗口进行抓取

10.1 Python Requests库

10.2 提交一个基本表单

10.3 单选按钮、复选框和其他输入

10.4 提交文件和图像

10.5 处理登录和cookie

10.6 其他表单问题

第11章 抓取 JavaScript

11.1 JavaScript简介

11.2 Ajax和动态HTML

11.3 处理重定向

11.4 关于JavaScript的最后提醒

第12章 利用 API 抓取数据

12.1 API概述

12.2 解析JSON数据

12.3 无文档的API

12.4 API与其他数据源结合

12.5 再说一点API

第13章 图像识别与文字处理

13.1 OCR库概述

13.2 处理格式规范的文字

13.3 读取验证码与训练Tesseract

13.4 获取验证码并提交答案

第14章 避开抓取陷阱

14.1 道德规范

14.2 让网络机器人看着像人类用户

14.3 常见表单安全措施

14.4 问题检查表

第15章 用爬虫测试网站

15.1 测试简介

15.2 Python单元测试

15.3 Selenium单元测试

15.4 单元测试与Selenium单元测试的选择

第16章 并行网页抓取

16.1 进程与线程

16.2 多线程抓取

16.3 多进程抓取

16.4 多进程抓取的另一种方法

第17章 远程抓取

17.1 为什么要用远程服务器

17.2 Tor代理服务器

17.3 远程主机

17.4 其他资源

第18章 网页抓取的法律与道德约束

18.1 商标、版权、专利

18.2 侵害动产

18.3 计算机欺诈与滥用法

18.4 robots.txt和服务协议

18.5 3个网络爬虫

18.6 勇往直前

关于作者

关于封面

看完了

Python网络爬虫权威指南(第2版)是2019年由人民邮电出版社出版,作者[美]瑞安•米切尔。

得书感谢您对《Python网络爬虫权威指南(第2版)》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。

购买这本书

你可能喜欢
机器学习实战 电子书
《机器学习实战》面向日常任务的高效实战内容,介绍并实现机器学习的主流算法。
在线视频技术精要 电子书
音视频、开发、人工智能、编解码,帮你构建在线视频技术的全景图在线视频技术。
给孩子的计算思维书:图形化编程及数学素养课(进阶篇) 电子书
本套书通过学习编程的形式培养计算思维,并将数学融入其中,分为基础篇和进阶篇。本书为进阶篇,进一步提升学习难度,通过编程启发思考,从而锻炼与提高孩子的计算思维能力。书中特别设计“数学小知识”栏目,讲述相关的数学知识,包括概率、斐波那契数列、指数、素数、最小公倍数、最大公约数等。与其他图形化编程图书相比,本书有两大特点:一是数学与图形化编程的深度融合,二是计算思维在图形化编程中的无形渗透。同时,本书配
给孩子的计算思维书:图形化编程及数学素养课(基础篇) 电子书
将数学与编程融合,培养计算思维与数学素养。
企业级云原生架构:技术、服务与实践 电子书
基于多年的大型项目架构设计实践经验,紧贴主流技术趋势,深入浅出介绍云原生相关技术及产品。