精通Scrapy网络爬虫

精通Scrapy网络爬虫

查阅电子书
手机扫码
  • 微信扫一扫

    关注微信公众号

因版权原因待上架

编辑推荐

《Scrapy爬虫框架实战》:从入门到高级探讨Python爬虫。

内容简介

本书讲解目前一个流行的开源python爬虫框架scrapy. 从快速入门以简单例子让读者对scrapy使用有个简单印象, 然后讲解scpray核心的每一个元素, 如spider, selecotr, item, link等等.基础部分完成后, 讲解爬虫高级话题, 如登录认证, 缓存下载, 执行javascript等等.

章节目录

封面页

书名页

版权页

内容简介

作者简介

前言

目录

第1章 初识Scrapy

1.1 网络爬虫是什么

1.2 Scrapy简介及安装

1.3 编写第一个Scrapy爬虫

1.3.1 项目需求

1.3.2 创建项目

1.3.3 分析页面

1.3.4 实现Spider

1.3.5 运行爬虫

1.4 本章小结

第2章 编写Spider

2.1 Scrapy框架结构及工作原理

2.2 Request和Response对象

2.2.1 Request对象

2.2.2 Response对象

2.3 Spider开发流程

2.3.1 继承scrapy.Spider

2.3.2 为Spider命名

2.3.3 设定起始爬取点

2.3.4 实现页面解析函数

2.4 本章小结

第3章 使用Selector提取数据

3.1 Selector对象

3.1.1 创建对象

3.1.2 选中数据

3.1.3 提取数据

3.2 Response内置Selector

3.3 XPath

3.3.1 基础语法

3.3.2 常用函数

3.4 CSS选择器

3.5 本章小结

第4章 使用Item封装数据

4.1 Item和Field

4.2 拓展Item子类

4.3 Field元数据

4.4 本章小结

第5章 使用Item Pipeline处理数据

5.1 Item Pipeline

5.1.1 实现Item Pipeline

5.1.2 启用Item Pipeline

5.2 更多例子

5.2.1 过滤重复数据

5.2.2 将数据存入MongoDB

5.3 本章小结

第6章 使用LinkExtractor提取链接

6.1 使用LinkExtractor

6.2 描述提取规则

6.3 本章小结

第7章 使用Exporter导出数据

7.1 指定如何导出数据

7.1.1 命令行参数

7.1.2 配置文件

7.2 添加导出数据格式

7.2.1 源码参考

7.2.2 实现Exporter

7.3 本章小结

第8章 项目练习

8.1 项目需求

8.2 页面分析

8.3 编码实现

8.4 本章小结

第9章 下载文件和图片

9.1 FilesPipeline和ImagesPipeline

9.1.1 FilesPipeline使用说明

9.1.2 ImagesPipeline使用说明

9.2 项目实战:爬取matplotlib例子源码文件

9.2.1 项目需求

9.2.2 页面分析

9.2.3 编码实现

9.3 项目实战:下载360图片

9.3.1 项目需求

9.3.2 页面分析

9.3.3 编码实现

9.4 本章小结

第10章 模拟登录

10.1 登录实质

10.2 Scrapy模拟登录

10.2.1 使用FormRequest

10.2.2 实现登录Spider

10.3 识别验证码

10.3.1 OCR识别

10.3.2 网络平台识别

10.3.3 人工识别

10.4 Cookie登录

10.4.1 获取浏览器Cookie

10.4.2 CookiesMiddleware源码分析

10.4.3 实现BrowserCookiesMiddleware

10.4.4 爬取知乎个人信息

10.5 本章小结

第11章 爬取动态页面

11.1 Splash渲染引擎

11.1.1 render.html端点

11.1.2 execute端点

11.2 在Scrapy中使用Splash

11.3 项目实战:爬取toscrape中的名人名言

11.3.1 项目需求

11.3.2 页面分析

11.3.3 编码实现

11.4 项目实战:爬取京东商城中的书籍信息

11.4.1 项目需求

11.4.2 页面分析

11.4.3 编码实现

11.5 本章小结

第12章 存入数据库

12.1 SQLite

12.2 MySQL

12.3 MongoDB

12.4 Redis

12.5 本章小结

第13章 使用HTTP代理

13.1 HttpProxyMiddleware

13.1.1 使用简介

13.1.2 源码分析

13.2 使用多个代理

13.3 获取免费代理

13.4 实现随机代理

13.5 项目实战:爬取豆瓣电影信息

13.5.1 项目需求

13.5.2 页面分析

13.5.3 编码实现

13.6 本章小结

第14章 分布式爬取

14.1 Redis的使用

14.1.1 安装Redis

14.1.2 Redis基本命令

14.1.3 Python访问Redis

14.2 scrapy-redis源码分析

14.2.1 分配爬取任务部分

14.2.2 汇总爬取数据部分

14.3 使用scrapy-redis进行分布式爬取

14.3.1 搭建环境

14.3.2 项目实战

14.4 本章小结

精通Scrapy网络爬虫是2017年由清华大学出版社出版,作者刘硕。

得书感谢您对《精通Scrapy网络爬虫》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。

购买这本书

你可能喜欢
网络基础 电子书
本书是华为ICT学院路由与交换技术官方教材,旨在帮助零基础和初级阶段的学生理解网络技术的基本理论。本书由浅入深地讲解网络技术,首先把网络的历史发展和网络给大众日常生活带来的变化作为全书的切入点;进而在后文中介绍了华为网络设备操作系统的一些简单使用方法,其中包括VRP系统的本地管理方法、VRP系统的基本命令和VRP系统的组合键与帮助功能;此后,本书按照OSI模型和TCP/IP模型自底向上的顺序,逐层
社交网络对齐 电子书
本书介绍了关于社交网络对齐的相关知识。
白话网络安全 电子书
本书汇集了“大东话安全”团队多年从事网络安全科普活动的经验和成果。
边缘计算光网络 电子书
本书是一本关于边缘计算光网络方面的学术专著,内容涉及边缘计算的概念原理、标准化进展以及边缘计算在光网络中的部署应用等。
软件定义光网络 电子书
本书是一本关于软件定义光网络方面的学术专著,内容涉及软件定义光网络的概念原理、体系架构、关键技术和应用案例等,目的在于帮助读者能够更好地学习和掌握软件定义光网络的原理与技术。全书共分为10章,第1章为智能光网络发展概述;第2章介绍软件定义光网络的概念与技术特征;第3章介绍软件定义光网络的体系架构;第4章介绍软件定义光网络虚拟化技术;第5章为软件定义光网络多域控制技术;第6章介绍IP与光协同控制技术