Python网络爬虫技术与应用

Python网络爬虫技术与应用

查阅电子书
手机扫码
  • 微信扫一扫

    关注微信公众号

因版权原因待上架

编辑推荐

本书以Python爬虫为主线,全面介绍Python相关技术与应用。

内容简介

网络爬虫技术的重点之一是网络爬虫框架,因此本书结合网络爬虫框架的相关案例重点介绍网络爬虫的常见框架,包括PySpider网络爬虫框架的安装和使用,Scrapy网络爬虫框架的安装和使用,以及Scrapy网络爬虫管理与部署。

本书以Python网络爬虫开发为主线,兼顾理论与实战,全面介绍可操作的Python环境与系统开发相关知识,以及大数据算法、大数据分析、大数据系统互补的作用。

另外,本书对Python网络爬虫开发需要的reguests库、Scrapy解析库、存储库、XPath进行了介绍,并介绍了requests库、正则表达式、XPath等的使用方法,还重点讲解了这些库的实际应用。

本书可作为高等院校大数据、计算机、电子信息、软件技术相关专业研究生和高年级本科生的教材,也可作为大数据及编程爱好者的参考用书。

章节目录

版权信息

内容简介

前言 PREFACE

第1章 网络爬虫概述

1.1 网络爬虫简介

1.1.1 网络爬虫的概念与类别

1.1.2 网络爬虫的流程

1.1.3 网络爬虫的抓取

1.2 网络爬虫的攻防战

1.3 反网络爬虫技术及解决方案

1.4 本章习题

第2章 Python基本知识介绍

2.1 Python编程

2.1.1 Python的安装与环境配置

2.1.2 PyCharm的安装与使用

2.2 HTML基本原理

2.2.1 HTML简介

2.2.2 HTML的基本原理

2.3 基本库的使用

2.3.1 urllib库

2.3.2 requests库

2.3.3 re库

2.4 实战案例:百度新闻的抓取

2.5 本章习题

第3章 原生态网络爬虫开发

3.1 requests库详解

3.1.1 requests语法

3.1.2 requests库的使用

3.2 正则表达式

3.2.1 正则表达式详解与使用

3.2.2 Python与Excel

3.3 实战案例:环球新闻的抓取

3.4 本章习题

第4章 解析HTML内容

4.1 XPath的介绍与使用

4.1.1 XPath的介绍

4.1.2 XPath的使用

4.2 lxml库的安装与使用

4.2.1 lxml库的安装

4.2.2 lxml库的常见方法使用

4.3 Chrome浏览器分析网站

4.4 BeautifulSoup的安装与使用

4.5 实战案例:BeautifulSoup的使用

4.6 页面请求与JSON

4.6.1 JSON的介绍与应用

4.6.2 GET请求和POST请求

4.7 模拟浏览器

4.7.1 Selenium的介绍与安装

4.7.2 模拟点击

4.7.3 Ajax结果提取

4.8 实战案例:小说网站的抓取

4.9 模拟登录与验证

4.9.1 复杂的页面请求

4.9.2 代理IP

4.9.3 Cookie的使用与证书

4.9.4 使用Selenium进行模拟登录

4.10 验证码

4.10.1 手动打码

4.10.2 自动打码

4.11 实战案例:模拟登录及验证

4.11.1 基本思路与方法

4.11.2 使用Cookie

4.12 本章习题

第5章 Python与数据库

5.1 MySQL数据库的安装与应用

5.1.1 MySQL数据库的安装

5.1.2 MySQL数据库的应用

5.2 MongoDB的安装与使用

5.2.1 MongoDB的安装

5.2.2 MongoDB的使用

5.2.3 MongoDB的可视化工具RockMongo

5.3 Python库pymongo

5.4 本章习题

第6章 Python网络爬虫框架

6.1 Python网络爬虫的常见框架

6.2 PySpider网络爬虫框架简介

6.3 Scrapy网络爬虫框架简介

6.4 PySpider与Scrapy的区别

6.5 PySpider网络爬虫框架的安装和使用

6.5.1 PySpider的安装与部署

6.5.2 PySpider的界面介绍

6.5.3 PySpider的多线程网络爬虫

6.5.4 使用Phantomjs渲染

6.5.5 PySpider网络爬虫时间控制

6.5.6 RabbitMQ队伍去重

6.5.7 在Linux系统下安装部署PySpider

6.5.8 实战案例:使用PySpider抓取题库

6.6 Scrapy网络爬虫框架的安装和使用

6.6.1 Scrapy的简介与安装

6.6.2 Scrapy的项目文件介绍

6.6.3 Scrapy的使用

6.6.4 Scrapy中使用XPath

6.6.5 Scrapy与MongoDB

6.6.6 Scrapy_Redis的安装与使用

6.6.7 使用Redis缓存网页并自动去重

6.6.8 实战案例:抓取豆瓣Top250

6.7 Scrapy网络爬虫管理与部署

6.7.1 Scrapyd管理网络爬虫

6.7.2 使用SpiderKeeper进行任务监控与定时抓取

6.7.3 Supervisor网络爬虫进程管理

6.7.4 Scrapy项目设计思路

6.7.5 实战案例

6.8 本章习题

第7章 综合性实战案例

7.1 实战案例1:瀑布流抓取

7.2 实战案例2:网络爬虫攻防战

7.2.1 网络爬虫攻防技术认识

7.2.2 代理IP地址网站

7.2.3 抓取新浪微博内容

7.2.4 获得微博内容信息并保存到文本中

7.3 实战案例3:分布式抓取

7.3.1 背景/案例知识介绍

7.3.2 某研究中心的数据抓取

7.3.3 查看效果

7.4 实战案例4:微信公众号文章点赞阅读数抓取

7.4.1 所运用的内容讲解

7.4.2 抓取微信公众号文章的评论数据

7.4.3 效果展示

参考文献

Python网络爬虫技术与应用是2022年由清华大学出版社出版,作者邓维 等。

得书感谢您对《Python网络爬虫技术与应用》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。

购买这本书

你可能喜欢
Python爬虫开发 从入门到实战(微课版) 电子书
基于Python 3.X讲解,从入门到实战,全面讲解Python爬虫技术。全书重点难点附带微课讲解,书网融合互动学习。
网络存储技术应用项目化教程 电子书
本书采用项目式教学方法,详细讲解了基于WindowsServer2012平台构建企业网络存储架构的相关技术,共分23个项目,内容包括基本磁盘的配置与管理、动态磁盘的配置与管理、存储池的配置与管理、存储服务器的配置与管理、文件共享、NAS服务的配置与管理等相关技术。本书适合作高等院校网络技术相关专业的教材,也可作为社会培训机构的参考用书,还可供云计算基础架构工程师、系统管理员、网络工程师阅读和使用。
网络调研技术与实战 电子书
市场调研书籍,来自专业机构的案例深度剖析,五大调研主题多角度解读,帮你快速掌握网络调研的新技术、新方法与新流程。
园区网络架构与技术 电子书
《园区网络架构与技术》以园区网络所面临的业务挑战为切入点,详细介绍了智简园区网络的架构与技术,旨在向读者全面呈现新一代园区网络的解决方案、技术实现和规划设计等内容。本书基于华为公司在网络领域多年的技术积累和实践,系统介绍了虚拟化、大数据、AI、SDN等技术方案在园区网络中的应用,为快速、高效地重构园区网络提供参考。同时,本书结合华为公司丰富的工程实施经验,提供了详细的园区网络设计方法及部署建议,为
无线传感器网络技术与应用 第2版 电子书
《无线传感器网络技术与应用第2版》反映了无线传感器网络领域的新技术和成果,采用理论与实践并进的模式编写。《无线传感器网络技术与应用第2版》主要内容包括无线传感器网络、网络与通信技术、管理技术、安全技术、软硬件设计与测试、人工智能物联网、典型应用设计、工程实验指导8章。《无线传感器网络技术与应用第2版》可以作为高等院校的物联网工程、通信工程、计算机应用、人工智能等专业的教材,也可以作为建筑电气、网络