电子书

数据采集与预处理

林子雨编著

本书共8章，内容包括概述、大数据实验环境搭建、网络数据采集、分布式消息系统Kafka、日志采集系统Flume、数据仓库中的数据集成、ETL工具Kettle、使用pandas进行数据清洗。

电子书

数据采集及预处理基础与应用

陈瑛

本书主要介绍如何利用Kettle和Python这两个具有代表性的工具进行数据预处理的相关技术与方法，包括数据抽取、数据清洗、数据集成、数据变换等。全书有9章，内容涉及数据采集、环境部署、Kettle安装及应用、pandas应用，以及数据可视化的基础内容。本书采用任务式编写形式，将大数据预处理技术的理论和实现分解到一个个任务中，融入到一个个典型案例中，让读者在完成各任务的同时掌握和理解相关内容。本书

电子书

Hadoop平台搭建与应用

米洪张鸰

本书以任务驱动为主线，围绕企业级应用进行项目任务设计，介绍了平台的本地模式安装、伪分布式模式安装及完全分布式模式安装，并基于Hadoop2.X生态系统，全面讲解了Hive环境搭建与基本操作、ZooKeeper环境搭建与基本操作、HBase环境搭建与基本操作、Hadoop常用工具组件的安装与应用、集群搭建与管理，以及Hadoop平台应用综合案例等相关知识及操作技能。

电子书

大数据采集、预处理与可视化（微课版）

葛继科

为了适应数字经济时代的新发展趋势，培养新时代大数据专业人才，编者通过总结多年的教学经验，借鉴国内外相关领域的教学优势，详细剖析大数据采集、预处理与可视化的基础理论、关键技术、相关工具和应用案例，进而编成本书。本书是集理论与实践于一体的应用型教材。全书共7章，包括大数据概述、Python程序设计、大数据采集、大数据预处理技术、Excel数据获取与预处理、Python数据预处理、数据可视化技术。本书在

电子书

大数据采集与爬虫

主编李俊翰付雯副主编王正霞胡心雷

《大数据采集与爬虫》主要讲解了如何使用Python编写网络爬虫程序，内容包括Python环境搭建、Python的基础语法、爬虫基础知识、网络基础知识、常用爬虫库和解析库、数据持久化存储、WebAPI和异步数据抓取技术、Selenium和ChromeDriver的用法，以及Scrapy爬虫框架的基本原理和操作。*后介绍了一个网络爬虫的综合案例，以巩固前面所学的知识。《大数据采集与爬虫》适合作为高等职

电子书

Python数据预处理

黑马程序员

全书共8章，其中第1章介绍数据预处理的入门知识；第2-6章介绍科学计算库numpy和数据分析库pandas，以及通过pandas库实现数据获取、数据清理、数据集成、数据变换和数据规约的功能；第7章介绍数据清理工具OpenRefine的安装及使用；第8章结合前期的核心知识进行实战演练。除第1章外，其他章均配置了丰富的示例或案例，读者可以一边学习一边练习，巩固所学的知识，并在实践中提升实际开发能力。本

电子书

Python网络爬虫与数据采集

主编

本书的主旨是介绍如何结合Python进行网络爬虫程序的开发，从Python语言的基本特性入手，详细介绍了Python爬虫开发的各个方面，涉及包括HTTP、HTML、JavaScript、正则表达式、自然语言处理、数据科学等不同领域的内容。全书共分为15章，包括了Python基础知识、网站分析、网页解析、Python文件读写、Python与数据库、AJAX技术、模拟登录、文本与数据分析、网站测试、S

电子书

Python数据预处理（微课版）

主编

本书以JupyterNotebook为主要开发工具，全面地介绍数据预处理的相关知识。全书共分8章，内容分别为初识Python数据预处理、数据获取与存储、数据清洗、数据集成、数据变换、数据规约、综合实战：家用热水器用户行为分析以及两个综合实战项目。每个章节均配置了丰富的示例或案例，通过本书的学习，读者可以充分理解常用数据预处理方法的精髓、掌握具体技术细节，并在实践中提升实际开发能力，为数据分析和机器

得书 - 好书推荐、正版图书免费阅读

数据采集与预处理

米洪张鸰

内容简介

章节目录

Python数据预处理（微课版）

高维数据分析预处理技术

Python程序设计与数据采集（微课版）

大数据测试技术数据采集、分析与测试实践（在线实验+在线自测）

大型无人机电力线路巡检数据采集与处理技术

数据采集与预处理

米洪 张鸰

内容简介

章节目录

Python数据预处理（微课版）

高维数据分析预处理技术

Python程序设计与数据采集（微课版）

大数据测试技术 数据采集、分析与测试实践（在线实验+在线自测 ）

大型无人机电力线路巡检数据采集与处理技术

米洪张鸰

大数据测试技术数据采集、分析与测试实践（在线实验+在线自测）