爬虫&数据分析

  • 崔庆才
  • 案例丰富,注重实战博客文章过百万的静觅大神力作全面介绍了数据采集、数据存储、动态网站爬取、App爬取、验证码破解、模拟登录、代理使用、爬虫框架、分布式爬取等知识涉及的库或工具:urllib、requests、BeautifulSoup、XPath、pyquery、redis-py、PyMongo、PyMySQL、Selenium、Splash、Charles、mitmproxy、mitmdump、Appium、pyspider、Scrapy、Scrapy-Redis、Scrapy-Splash、Docker、BloomFilter、Gerapy等

爬虫&数据分析相关书籍

Python网络爬虫技术 电子书
以任务为导向,介绍了不同场景下Python爬取网络数据的方法。
数据虚拟化:多源异构数据集成之道 电子书
本书介绍了大数据时代下多源异构数据集成的一项新技术:数据虚拟化。
大数据定义智能运维 电子书
运维数据治理开山之作,企业基础平台数据资源建设必备图书。
实战大数据(Hadoop+Spark+Flink)从平台构建到交互式数据分析(离线/实时) 电子书
面向大数据开发工程师,大数据运维工程师围绕Hadoop、Spark、Flink三大主流平台,详解大数据平台的搭建及数据分析(离线/实时)随书配备全套数据集、安装包、配置文件、海量教学视频(近30GB),方便学用
Elasticsearch数据搜索与分析实战 电子书
深入描述了Elasticsearch的各种运行机制。
基于机器学习的工作流活动推荐 电子书
随着云计算、大数据等的快速发展,越来越多的组织用信息化手段进行流程管理。如何提升流程执行的智能化程度、动态性和柔性,以提高对非标准业务的管理效率,是流程管理面临的一个重要问题。本书基于流程管理系统积累的日志,提出了3种流程管理的工作流活动推荐方法,分别为基于用户类别近邻的活动推荐方法、基于Pearson相关系数的活动推荐方法和基于协同过滤的活动推荐方法,并介绍了一种流程信息的可视化算法,实现了一个