网络爬虫原理与实践:基于C#语言

网络爬虫原理与实践:基于C#语言

查阅电子书
手机扫码
  • 微信扫一扫

    关注微信公众号

因版权原因待上架

编辑推荐

本书基于C#语言介绍网络爬虫开发的基本原理、技巧和应用实例。

内容简介

全书主要从“网络爬虫概述”“C#编程基础”“网络资源下载”“网页数据抽取”“其他数据抽取”“数据存储”“爬虫控制”“多线程爬虫”“使用代理”“模拟浏览器”“可视化模板配置”等方面对网络爬虫进行分析阐述。

作者简介

作者李健是资深软件开发工程师,毕业于中科院计算所,有多年C/C++开发经验,积累了丰富的实践经验。曾经参与了国家“十一五”863项目、北京市文化创意项目、上海世博会项目等多个项目的大型软件的架构、设计与开发。此外,对MPICH并行编程与高性能计算、脚本语言Lua、Android和iPhone等移动开发平台也有一定的研究。活跃于CSDN和博客园等技术社区,发表和分享了大量技术文章,深受网友欢迎。

章节目录

版权信息

前言

第1章 网络爬虫概述

1.1 网络基础

1.1.1 网络的基本概念

1.1.2 HTTP

1.1.3 会话机制

1.2 网页知识

1.2.1 HTML

1.2.2 CSS

1.2.3 JavaScript

1.3 网络爬虫的原理

1.3.1 网络爬虫概述

1.3.2 Robots协议

1.3.3 网络爬虫框架

第2章 C#编程基础

2.1 C#语言概述

2.1.1 C#与.NET框架

2.1.2 开发环境

2.1.3 语言生态

2.2 数据和运算

2.2.1 C#数据类型

2.2.2 常用运算符

2.3 流程控制

2.3.1 分支结构

2.3.2 循环结构

2.4 常用数据结构

2.4.1 字符串

2.4.2 数组

2.4.3 列表

2.4.4 字典

第3章 网络资源下载

3.1 同步下载

3.1.1 网页下载

3.1.2 编码检测

3.1.3 参数设置

3.2 异步下载

3.2.1 实现方式

3.2.2 性能分析

3.3 通用资源下载器

3.3.1 下载器的设计

3.3.2 下载器的实现

第4章 网页数据抽取

4.1 正则表达式抽取

4.1.1 正则表达式简介

4.1.2 使用Regex类

4.2 XPath抽取

4.2.1 XPath简介

4.2.2 使用HtmlAgilityPack

4.3 HTML解析器

4.4 综合实例:新闻资讯爬虫

4.4.1 爬虫设计

4.4.2 爬虫实现

第5章 其他数据抽取

5.1 XML数据抽取

5.1.1 XML简介

5.1.2 使用System.Xml

5.2 JSON数据抽取

5.2.1 JSON简介

5.2.2 使用Newtonsoft.Json

5.3 综合实例1:天气爬虫

5.3.1 问题描述与分析

5.3.2 爬虫设计

5.3.3 爬虫实现

5.4 综合实例2:音乐爬虫

5.4.1 问题描述

5.4.2 逆向分析

5.4.3 爬虫设计

5.4.4 爬虫实现

第6章 数据存储

6.1 数据的维度

6.2 文件存储

6.2.1 低维数据存储

6.2.2 高维数据存储

6.3 数据库存储

6.3.1 MySQL的安装和配置

6.3.2 将数据存入MySQL

第7章 爬虫控制

7.1 爬虫搜索方式

7.1.1 深度优先搜索

7.1.2 广度优先搜索

7.1.3 性能分析

7.2 爬虫控制器

7.2.1 控制器设计

7.2.2 控制器的实现

7.2.3 实时控制器

7.3 综合实例:站内文章爬虫

7.3.1 爬虫设计

7.3.2 爬虫实现

7.3.3 爬虫测试

第8章 多线程爬虫

8.1 多线程机制

8.1.1 Thread对象

8.1.2 BackgroundWorker控件

8.1.3 系统线程池

8.2 多线程爬虫

8.2.1 实现方法

8.2.2 性能对比

8.3 自定义线程池

8.3.1 线程池设计

8.3.2 线程池实现

8.3.3 性能测试

8.4 多线程爬虫控制器

8.4.1 多线程控制器实现

8.4.2 访问序列分析

第9章 使用代理

9.1 代理机制

9.1.1 使用WebProxy对象

9.1.2 使用全局代理

9.2 自定义代理池

9.2.1 代理池设计

9.2.2 代理池实现

第10章 模拟浏览器

10.1 浏览器的工作原理

10.1.1 网页解析过程

10.1.2 常见的浏览器内核

10.2 使用浏览器内核

10.2.1 Trident内核

10.2.2 Gecko内核

10.3 综合实例:网页翻译爬虫

10.3.1 问题描述

10.3.2 爬虫设计

10.3.3 爬虫实现

10.3.4 算法改进

第11章 可视化模板配置

11.1 可视化模板配置方法

11.1.1 抽取原理

11.1.2 模板表示

11.1.3 可视化配置

11.2 综合实例:可视化网页文章爬虫

11.2.1 爬虫设计

11.2.2 爬虫实现

参考文献

网络爬虫原理与实践:基于C#语言是2022年由机械工业出版社出版,作者李健。

得书感谢您对《网络爬虫原理与实践:基于C#语言》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。

购买这本书

你可能喜欢
Python网络爬虫从入门到精通 电子书
适读人群 :Python语言初学者;网络爬虫技术爱好者;数据分析从业人士 内容全面,结构清晰:本书详细介绍了网络爬虫技术的方方面面,讨论了数据抓取、数据处理和数据分析的整个流程。全书结构清晰,坚持理论知识与实践操作结合。 循序渐进,生动简洁:从简单的Python程序示例开始,在网络爬虫的核心主题之下一步步深入,兼顾内容的广度与深度。在行文中,使用生动简洁的阐述方式,力争详略得当。 示例丰富,实战性强:网络爬虫是实践性、操作性非常强的技术,本书将提供丰富的代码来作为读者的参考,同时对必要的术语和代码进行解释。从生活实际出发,选取实用性、趣味性兼具的主题进行网络爬虫实践。
边缘计算原理与实践 电子书
本书对边缘计算的发展历史与趋势、几种典型的边缘计算技术的基本架构与原理进行了阐述,并对边缘计算涉及的关键技术与最新进展、部署方案、应用场景与实践进行了详细讲解。本书涉及的内容广泛、技术思想凝炼,突出核心原理和关键技术的阐述,同时力图深入讲解边缘计算开源平台的使用过程。本书对从事边缘计算技术研发的专业人士、网络运营管理人员、相关专业高校学生以及对边缘计算技术感兴趣的读者,都具有一定的参考价值。
云计算原理与实践 电子书
本书系统地讲解了云计算的知识框架,包括云计算的三大认识角度(商业模式、计算范式、实现方式)、四个关键技术(计算、存储、网络、安全)、四种开发运维维度(云原生应用、云操作系统、云端软件、云运维),以及三大应用场景(云桌面、开发云、大数据与人工智能)。本书在大部分的章中安排了一个或多个基于开源软件的实训内容,以帮助读者更有效地动手实践,包括GitHub、Hadoop、OpenStack、KVM、Doc
深度学习原理与实践 电子书
(1)大量图例,简单易懂。作者亲自绘制了大量插图,力求还原深度学习的算法思想,分解和剖析晦涩的算法,用图例来表示复杂的问题。生动的图例也能给读者带来阅读乐趣,快乐地学习算法知识,体会深度学习的算法本质。 (2)简化公式,生动比喻。深度学习和机器学习类的书中通常会有大量复杂冗长的算法公式,为了避免出现读者读不懂的情况,本书尽可能地统一了公式和符号,简化相关公式,并加以生动的比喻进行解析。在启发读者的同时,锻炼读者分析问题和解决问题的能力。 (3)算法原理,代码实现。在介绍深度学习及相关算法的原理时,不仅给出了对应的公式,还给出了实现和求解公式的代码,让读者明确该算法的作用、输入和输出。原理与代码相结合,使得读者对深度学习的算法实现更加具有亲切感。 (4)深入浅出,精心剖析。理解深度学习需要一定的机器学习知识,本书在D1章介绍了深度学习与机器学习的关系,并简要介绍了机器学习的内容。在内容安排上,每章依次介绍模型框架的应用场景、结构和使用方式,最后通过真实的案例去全面分析该模型结构。目的是让读者可以抓住深度学习的本质。 (5)入门实践,案例重现。每一章最后的真实案例不是直接堆砌代码,而是讲解使用该算法模型的原因和好处。从简单的背景知识出发,使用前文讲解过的深度学习知识实现一个实际的工程项目。实践可以用于及时检验读者对所学知识的掌握程度,为读者奠定深度学习的实践基础。 将一本技术书籍写得通俗易懂谈何容易,但《深度学习原理与实践》这本书确实做到了。书中对近年来火热的深度学习理论知识进行简单剖析,化繁为简,没有局限于坐而论道,而是将实例和数学理论相结合,让读者能够快速理解各种模型并上手实践,值得细读。 --唐春明 广州大学数学与信息学科学院副院长 本书从原理、方法、实践这 3 个维度系统地介绍了深度学习的方方面面,内容详实,解读清晰,细节与全貌兼顾,既适合初学者阅读,也可以作为深入研究的参考用书。 --杨刚 西安电子科技大学教授 近年来出版的深度学习相关图书中,本书是我见过非常有指导意义的中文书籍之一。本书对 ANN、CNN、RNN 等模型进行深入浅出的介绍,引入大量图例和简化后的公式,让算法浅显易懂。每一章的实践内容都给人惊喜,强烈推荐! --吴健之 腾讯音乐高级工程师 作为产品经理,我能看懂的深度学习书籍实在太少了。本书恰到好处,插图丰富直观,数学公式简练,很喜欢此类风格的图书,易懂好学。即使你不是程序员或算法专家,该书也值得一看! --张瑞 中软国际高级产品经理
软件定义网络核心原理与应用实践(第二版)上册 电子书
本系列丛书包含核心原理和应用实践上下两册,对SDN技术进行了全面剖析和深入解读。本册属于核心原理部分,首先阐述了SDN的设计思想与体系架构,详细分析了控制转发分离和开放可编程两个重要属性,其次介绍了以OpenFlow为代表的SDN南向接口协议,以及北向和东西向接口协议,接下来根据SDN的层次化架构,自下而上依次介绍了SDN数据平面、控制平面和应用案例,梳理总结了SDN标准化和学术进展情况。