零基础学Python网络爬虫案例实战全流程详解(入门与提高篇)

零基础学Python网络爬虫案例实战全流程详解(入门与提高篇)

查阅电子书
手机扫码
  • 微信扫一扫

    关注微信公众号

因版权原因待上架

编辑推荐

本书面向零基础读者,从如何合法使用爬虫和Python编辑环境的安装开始到不同类型爬虫程序的开发都进行了详尽的讲解。

内容简介

在大数据时代的今天,无论是产品开始还是精准化营销越来越离不开大数据的支持,如何从浩瀚的网络中获取自己想要的大数据?这就需要网络爬虫,而是世界上80%的爬虫都是基于Python开发出来的,所以python爬虫技术是大数据挖掘、分析与可视化的基础。

本书面向零基础读者,从如何合法使用爬虫和Python编辑环境的安装开始到不同类型爬虫程序的开发都进行了详尽的讲解,从Python基础语法到Requests库、正则表达式、Scrapy框架、Beautiful Soup一个都不少。同时在相关地方也讲解了部分数据挖掘和数据分析的基础内容。

章节目录

版权信息

作者简介

前言

本书学习资源

第1章 Python基础

1.1 Python快速上手

1.1.1 安装Python

1.1.2 编写第一个Python程序

1.1.3 PyCharm的安装与使用

1.1.4 Jupyter Notebook的使用

1.2 Python语法基础知识

1.2.1 变量、行、缩进与注释

1.2.2 数据类型:数字与字符串

1.2.3 数据类型:列表与字典、元组与集合

1.2.4 运算符

1.3 Python语句

1.3.1 if条件语句

1.3.2 for循环语句

1.3.3 while循环语句

1.3.4 try/except异常处理语句

1.4 函数与库

1.4.1 函数的定义与调用

1.4.2 函数的返回值与变量的作用域

1.4.3 常用内置函数介绍

1.4.4 库的导入与安装

★ 课后习题

第2章 爬虫第一步:获取网页源代码

2.1 爬虫核心库1:Requests库

2.1.1 如何查看网页源代码

2.1.2 用Requests库获取网页源代码:百度新闻

2.1.3 Requests库的“软肋”

2.2 爬虫核心库2:Selenium库

2.2.1 模拟浏览器及Selenium库的安装

2.2.2 用Selenium库获取网页源代码:新浪财经股票信息

2.3 网页结构分析

2.3.1 网页结构基础

2.3.2 网页结构进阶

★ 课后习题

第3章 爬虫第二步:数据解析与提取

3.1 用正则表达式解析和提取数据

3.1.1 正则表达式基础1:findall()函数

3.1.2 正则表达式基础2:非贪婪匹配之“(.*?)”

3.1.3 正则表达式基础3:非贪婪匹配之“.*?”

3.1.4 正则表达式基础4:自动考虑换行的修饰符re.S

3.1.5 正则表达式基础5:知识点补充

3.1.6 案例实战:提取百度新闻的标题、网址、日期和来源

3.2 用BeautifulSoup库解析和提取数据

3.2.1 解析特定标签的网页元素

3.2.2 解析特定属性的网页元素

3.2.3 提取标签中的网址

3.2.4 案例实战:新浪新闻标题和网址爬取

3.3 百度新闻爬取进阶探索

3.3.1 批量爬取多家公司的新闻

3.3.2 将爬取结果保存为文本文件

3.3.3 异常处理及24小时不间断爬取

3.3.4 批量爬取多页内容

3.4 证券日报网爬取实战

3.4.1 用正则表达式爬取

3.4.2 用BeautifulSoup库爬取

3.5 中证网爬取实战

3.6 新浪微博爬取实战

3.7 上海证券交易所上市公司PDF文件下载

3.7.1 用Requests库下载文件的基本方法

3.7.2 初步尝试下载上海证券交易所上市公司PDF文件

3.8 豆瓣电影Top 250排行榜海报图片下载

3.8.1 爬取单页

3.8.2 爬取多页

★ 课后习题

第4章 爬虫神器Selenium库深度讲解

4.1 Selenium库进阶知识

4.2 新浪财经股票行情数据爬取

4.2.1 用Selenium库爬取股票行情数据

4.2.2 用新浪财经API爬取股票行情数据

4.3 东方财富网数据爬取

4.3.1 上市公司股吧帖子爬取

4.3.2 上市公司新闻爬取

4.3.3 上市公司研报PDF文件下载

4.4 上海证券交易所问询函信息爬取及PDF文件下载

4.4.1 批量下载单个页面上的PDF文件

4.4.2 批量下载多个页面上的PDF文件

4.4.3 汇总问询函信息并导出为Excel工作簿

4.5 银行间拆借利率爬取

4.6 雪球股票评论信息爬取

4.7 京东商品评价信息爬取

4.7.1 用Selenium库爬取

4.7.2 用Requests库爬取

4.8 淘宝天猫商品销量数据爬取

4.9 Selenium库趣味案例:网页自动投票

★ 课后习题

第5章 数据处理与可视化

5.1 数据清洗与优化技巧

5.1.1 常用的数据清洗手段及日期格式的统一

5.1.2 文本内容过滤——剔除噪声数据

5.1.3 数据乱码问题处理

5.1.4 数据爬后处理之舆情评分

5.2 数据可视化分析——词云图绘制

5.2.1 用jieba库实现中文分词

5.2.2 用wordcloud库绘制词云图

5.2.3 案例实战:新浪微博词云图绘制

★ 课后习题

第6章 数据结构化与数据存储

6.1 数据结构化神器——pandas库

6.1.1 用read_html()函数快速爬取网页表格数据

6.1.2 pandas库在爬虫领域的核心代码知识

6.2 新浪财经——资产负债表获取

6.3 百度新闻——文本数据结构化

6.3.1 将单家公司的新闻导出为Excel工作簿

6.3.2 将多家公司的新闻导出为Excel工作簿

6.4 百度爱企查——股权穿透研究

6.4.1 单层股权结构爬取

6.4.2 多层股权结构爬取

6.5 天天基金网——股票型基金信息爬取

6.5.1 爬取基金信息表格

6.5.2 爬取基金的详情页面网址

6.6 集思录——可转债信息爬取

6.7 东方财富网——券商研报信息爬取

6.7.1 爬取券商研报信息表格

6.7.2 爬取研报的详情页面网址

6.8 数据存储——MySQL快速入门

6.8.1 MySQL的安装

6.8.2 MySQL的基本操作

6.9 用Python操控数据库

6.9.1 用PyMySQL库操控数据库

6.9.2 案例实战:百度新闻数据爬取与存储

6.9.3 用pandas库操控数据库

★ 课后习题

第7章 Python多线程和多进程爬虫

7.1 理解线程与进程

7.1.1 计算机硬件结构基础知识

7.1.2 线程与进程

7.1.3 单线程、多线程与多进程

7.1.4 爬虫任务中的多线程与多进程

7.2 Python多线程爬虫编程实战

7.2.1 Python多线程编程基础知识

7.2.2 Python多线程编程进阶知识

7.2.3 案例实战:多线程爬取百度新闻

7.3 Python多进程爬虫编程实战

7.3.1 Python多进程编程基础知识

7.3.2 Python多进程编程进阶知识

7.3.3 案例实战:多进程爬取百度新闻

★ 课后习题

第8章 IP代理使用技巧与实战

8.1 结合Requests库使用IP代理

8.1.1 IP代理基础知识

8.1.2 IP代理的使用

8.2 IP代理实战1:用Requests库爬取公众号文章

8.2.1 直接用Requests库爬取

8.2.2 添加IP代理进行爬取

8.2.3 添加智能IP切换系统

8.3 结合Selenium库使用IP代理

8.4 IP代理实战2:用Selenium库爬取公众号文章

8.4.1 直接用Selenium库爬取

8.4.2 添加IP代理进行爬取

8.4.3 添加智能IP切换系统

★ 课后习题

后记

零基础学Python网络爬虫案例实战全流程详解(入门与提高篇)是2021年由机械工业出版社华章分社出版,作者王宇韬。

得书感谢您对《零基础学Python网络爬虫案例实战全流程详解(入门与提高篇)》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。

购买这本书

你可能喜欢
Python核心技术实战详解 电子书
1.内容讲解深入。 本书对Python的核心知识进行了深入剖析,循序渐进地讲解了核心功能模块的开发技术,帮助读者快速步入Python开发高手之列。 2.提供更为广泛的解决方案。 本书深入讲解了10个不同的主题模块,每一个主题涵盖了特定应用开发领域。在书中不仅给出了案例讲解,还包含了更多的拓展知识,能够帮助读者使用Python 开发各种类型的应用程序。 3.通过网站论坛形成互帮互学的朋友圈。 为了方便给读者答疑,特提供了网站论坛等支持,并且随时在线与读者互动,让大家在互学互帮中形成一个良好的学习编程的氛围。
从零开始:Photoshop工具详解与实战 电子书
本书是Adobe中国培训中心官方培训材。全书共分4章,分别讲解了工具箱、菜单命令、滤镜,以及综合实战案例。读者可以通过本书的学习快速掌握常用的Photoshop功能,并通过大量案例的练习强化学习效果。随书资源中包含所有实例的素材、效果文件、讲义、视频录像。本书适合广大Photoshop的初学者,以及有志于从事平面设计、插画设计、包装设计、网页制作、三维动画设计、影视广告设计等工作的人员使用,同时也
Python3快速入门与实战 电子书
理论与实战相结合,结合大量案例系统为你介绍Python。
Python数据分析入门与实战 电子书
掌握数据分析技巧,运用强大的Python工具,解决工作中繁琐的数据问题。
从零开始学UI——概念解析/实战提高/突破规则 电子书
本书是一本帮助热爱UI设计的学生及转行设计师快速掌握UI设计的专业书籍。书中深入浅出地介绍了UI入门需要掌握的基础知识,包括UI的基本概念、设计的基础知识、UI设计的组成部分,并详细指导读者运用Photoshop软件设计图标、界面和简单动效,帮助读者建立起基本的学习体系。最后,介绍了UI设计的基本规则,以及如何打破规则进行设计,帮助读者开拓思维,进行开放式设计。本书定位为入门学习,对于一些本身不具