从零开始学Python网络爬虫

从零开始学Python网络爬虫

查阅电子书
手机扫码
  • 微信扫一扫

    关注微信公众号

因版权原因待上架

编辑推荐

本书适合爬虫技术初学者、爱好者及高等院校的相关学生,也适合数据爬虫工程师作为参考读物,同时也适合各大Python数据分析的培训机构作为教材使用。

内容简介

Python是数据分析的首选语言,而网络中的数据和信息很多,如何从中获取需要的数据和信息呢?最简单、直接的方法就是用爬虫技术来解决。本书是一本教初学者学习如何爬取网络数据和信息的入门读物。书中不仅有Python的相关内容,而且还有数据处理和数据挖掘等方面的内容。本书内容非常实用,讲解时穿插了22个爬虫实战案例,可以大大提高读者的实际动手能力。全书共分12章,核心主题包括Python零基础语法入门、爬虫原理和网页构造、第壹个爬虫程序、正则表达式、Lxml库与Xpath语法、使用API、数据库存储、多进程爬虫、异步加载、表单交互与模拟登录、Selenium模拟浏览器、Scrapy爬虫框架。此外,书中通过一些典型爬虫案例,讲解了有经纬信息的地图图表和词云的制作方法,让读者体验数据背后的乐趣。

作者简介

作者罗攀,知名论坛Python爬虫专题管理员。擅长Python爬虫技术,并对Python数据分析与挖掘也有研究。曾经在CSDN等多个知名博客网站发表多篇技术文章,深受读者的喜爱。目前从事线上Python网络爬虫的培训工作。

章节目录

版权信息

前言

第1章 Python零基础语法入门

1.1 Python与PyCharm安装

1.1.1 Python安装(Windows、Mac和Linux)

1.1.2 PyCharm安装

1.2 变量和字符串

1.2.1 变量

1.2.2 字符串的“加法”和“乘法”

1.2.3 字符串的切片和索引

1.2.4 字符串方法

1.3 函数与控制语句

1.3.1 函数

1.3.2 判断语句

1.3.3 循环语句

1.4 Python数据结构

1.4.1 列表

1.4.2 字典

1.4.3 元组和集合

1.5 Python文件操作

1.5.1 打开文件

1.5.2 读写文件

1.5.3 关闭文件

1.6 Python面向对象

1.6.1 定义类

1.6.2 实例属性

1.6.3 实例方法

1.6.4 类的继承

第2章 爬虫原理和网页构造

2.1 爬虫原理

2.1.1 网络连接

2.1.2 爬虫原理

2.2 网页构造

2.2.1 Chrome浏览器的安装

2.2.2 网页构造

2.2.3 查询网页信息

第3章 我的第一个爬虫程序

3.1 Python第三方库

3.1.1 Python第三方库的概念

3.1.2 Python第三方库的安装方法

3.1.3 Python第三方库的使用方法

3.2 爬虫三大库

3.2.1 Requests库

3.2.2 BeautifulSoup库

3.2.3 Lxml库

3.3 综合案例1——爬取北京地区短租房信息

3.3.1 爬虫思路分析

3.3.2 爬虫代码及分析

3.4 综合案例2——爬取酷狗TOP500的数据

3.4.1 爬虫思路分析

3.4.2 爬虫代码及分析

第4章 正则表达式

4.1 正则表达式常用符号

4.1.1 一般字符

4.1.2 预定义字符集

4.1.3 数量词

4.1.4 边界匹配

4.2 re模块及其方法

4.2.1 search()函数

4.2.2 sub()函数

4.2.3 findall()函数

4.2.4 re模块修饰符

4.3 综合案例1——爬取《斗破苍穹》全文小说

4.3.1 爬虫思路分析

4.3.2 爬虫代码及分析

4.4 综合案例2——爬取糗事百科网的段子信息

4.4.1 爬虫思路分析

4.4.2 爬虫代码及分析

第5章 Lxml库与Xpath语法

5.1 Lxml库的安装与使用方法

5.1.1 Lxml库的安装(Mac、Linux)

5.1.2 Lxml库的使用

5.2 Xpath语法

5.2.1 节点关系

5.2.2 节点选择

5.2.3 使用技巧

5.2.4 性能对比

5.3 综合案例1——爬取豆瓣网图书TOP250的数据

5.3.1 将数据存储到CSV文件中

5.3.2 爬虫思路分析

5.3.3 爬虫代码及分析

5.4 综合案例2——爬取起点中文网小说信息

5.4.1 将数据存储到Excel文件中

5.4.2 爬虫思路分析

5.4.3 爬虫代码及分析

第6章 使用API

6.1 API的使用

6.1.1 API概述

6.1.2 API使用方法

6.1.3 API验证

6.2 解析JSON数据

6.2.1 JSON解析库

6.2.2 斯必克API调用

6.2.3 百度地图API调用

6.3 综合案例1——爬取PEXELS图片

6.3.1 图片爬取方法

6.3.2 爬虫思路分析

6.3.3 爬虫代码及分析

6.4 综合案例2——爬取糗事百科网的用户地址信息

6.4.1 地图的绘制

6.4.2 爬取思路分析

6.4.3 爬虫代码及分析

第7章 数据库存储

7.1 MongoDB数据库

7.1.1 NoSQL概述

7.1.2 MongoDB的安装

7.1.3 MongoDB的使用

7.2 MySQL数据库

7.2.1 关系型数据库概述

7.2.2 MySQL的安装

7.2.3 MySQL的使用

7.3 综合案例1——爬取豆瓣音乐TOP250的数据

7.3.1 爬虫思路分析

7.3.2 爬虫代码及分析

7.4 综合案例2——爬取豆瓣电影TOP250的数据

7.4.1 爬虫思路分析

7.4.2 爬虫代码及分析

第8章 多进程爬虫

8.1 多线程与多进程

8.1.1 多线程和多进程概述

8.1.2 多进程使用方法

8.1.3 性能对比

8.2 综合案例1——爬取简书网热评文章

8.2.1 爬虫思路分析

8.2.2 爬虫代码及分析

8.3 综合案例2——爬取转转网二手市场商品信息

8.3.1 爬虫思路分析

8.3.2 爬虫代码及分析

第9章 异步加载

9.1 异步加载技术与爬虫方法

9.1.1 异步加载技术概述

9.1.2 异步加载网页示例

9.1.3 逆向工程

9.2 综合案例1——爬取简书网用户动态信息

9.2.1 爬虫思路分析

9.2.2 爬虫代码及分析

9.3 综合案例2——爬取简书网7日热门信息

9.3.1 爬虫思路分析

9.3.2 爬虫代码及分析

第10章 表单交互与模拟登录

10.1 表单交互

10.1.1 POST方法

10.1.2 查看网页源代码提交表单

10.1.3 逆向工程提交表单

10.2 模拟登录

10.2.1 Cookie概述

10.2.2 提交Cookie模拟登录

10.3 综合案例1——爬取拉勾网招聘信息

10.3.1 爬虫思路分析

10.3.2 爬虫代码及分析

10.4 综合案例2——爬取新浪微博好友圈信息

10.4.1 词云制作

10.4.2 爬虫思路分析

10.4.3 爬虫代码及分析

第11章 Selenium模拟浏览器

11.1 Selenium和PhantomJS

11.1.1 Selenium的概念和安装

11.1.2 浏览器的选择和安装

11.2 Selenium和PhantomJS的配合使用

11.2.1 模拟浏览器操作

11.2.2 获取异步加载数据

11.3 综合案例1——爬取QQ空间好友说说

11.3.1 CSV文件读取

11.3.2 爬虫思路分析

11.3.3 爬虫代码及分析

11.4 综合案例2——爬取淘宝商品信息

11.4.1 爬虫思路分析

11.4.2 爬虫代码及分析

第12章 Scrapy爬虫框架

12.1 Scrapy的安装和使用

12.1.1 Scrapy的安装

12.1.2 创建Scrapy项目

12.1.3 Scrapy文件介绍

12.1.4 Scrapy爬虫编写

12.1.5 Scrapy爬虫运行

12.2 综合案例1——爬取简书网热门专题信息

12.2.1 爬虫思路分析

12.2.2 爬虫代码及分析

12.3 综合案例2——爬取知乎网Python精华话题

12.3.1 爬虫思路分析

12.3.2 爬虫代码及分析

12.4 综合案例3——爬取简书网专题收录文章

12.4.1 爬虫思路分析

12.4.2 爬虫代码及分析

12.5 综合案例4——爬取简书网推荐信息

12.5.1 爬虫思路分析

12.5.2 爬虫代码及分析

从零开始学Python网络爬虫是2017年由机械工业出版社华章分社出版,作者罗攀蒋仟。

得书感谢您对《从零开始学Python网络爬虫》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。

购买这本书

你可能喜欢
Python网络爬虫实例教程(视频讲解版) 电子书
本书主要内容包括:网络爬虫概述、requests库入门、xapth语法详解、认识和应对反爬虫、模拟登录和验证码的处理、动态页面的分析方法、scrapy框架基础、应对反爬虫策略、scrapy数据存储、提交数据和保持登录、crawlspider模板、图片下载和文件下载、分布式爬虫、增量式爬虫、
Python网络爬虫技术(第2版)(微课版) 电子书
本书以项目为导向,以任务为驱动,较为全面地介绍了不同场景、不同平台使用Python爬取网络数据的方法,涉及静态网页、动态网页、登录后才能访问的网页、PC客户端、App客户端等。全书共7个项目,项目1介绍爬虫与反爬虫的基本概念,以及Python爬虫环境的配置;项目2介绍爬取过程中涉及的网页基础知识;项目3介绍在静态网页中爬取数据的过程;项目4介绍在动态网页中爬取数据的过程;项目5介绍对登录后才能访问
Python网络爬虫:从入门到精通(附微课) 电子书
本书主要介绍如何使用Python语言进行网络爬虫程序的开发,从Python语言的基本特性入手,详细介绍Python网络爬虫开发的多个方面,涉及HTTP、HTML、正则表达式、JavaScript、自然语言处理、数据处理与科学计算等不同领域的内容。全书共12章,包括基础篇、进阶篇、提高篇和实战篇4个部分。基础篇包括第1、2、3章,分别为Python基础及网络爬虫、静态网页抓取、数据存储。进阶篇包括第
Python 3反爬虫原理与绕过实战 电子书
适读人群 :本书既适合需要储备反爬虫知识的前端工程师和后端工程师阅读,也适合需要储备绕过知识的爬虫工程师、爬虫爱好者以及Python程序员阅读。 【人气推荐】《Python 3 网络爬虫开发实战》作者、微软小冰工程师崔庆才作序,腾讯、马蜂窝工程师倾力推荐。 【干货满满】爬虫工程师不可错过的“”,内容包括但不限于Cookie 反爬虫、WebSocket 反爬虫、字体反爬虫、WebDriver反爬虫、App 反爬虫、验证码反爬虫。 【反爬虫原理 爬虫实战】从实战出发,印证国内互联网企业内部加密原理,侧重讲解反爬虫的原理以及绕过方法。 【21个反爬虫示例】结合练习平台 Steamboat,帮助读者随时复现书中的 21个爬虫示例,巩固所学知识。
Python爬虫开发实战教程(微课版) 电子书
本书共5章,介绍了爬虫的基本结构及工作流程、抓包工具、模拟网络请求、网页解析、去重策略、常见反爬措施,以及大型商业爬虫框架Scrapy的应用,最后介绍了数据分析及可视化的相关基础知识。