数据采集与预处理

数据采集与预处理

查阅电子书
手机扫码
  • 微信扫一扫

    关注微信公众号

内容简介

本书共8章,内容包括概述、大数据实验环境搭建、网络数据采集、分布式消息系统Kafka、日志采集系统Flume、数据仓库中的数据集成、ETL工具Kettle、使用pandas进行数据清洗。

数据采集与预处理是2022年由人民邮电出版社出版,作者林子雨 编著。

得书感谢您对《数据采集与预处理》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。

你可能喜欢
Python网络爬虫与数据采集 电子书
本书的主旨是介绍如何结合Python进行网络爬虫程序的开发,从Python语言的基本特性入手,详细介绍了Python爬虫开发的各个方面,涉及包括HTTP、HTML、JavaScript、正则表达式、自然语言处理、数据科学等不同领域的内容。全书共分为15章,包括了Python基础知识、网站分析、网页解析、Python文件读写、Python与数据库、AJAX技术、模拟登录、文本与数据分析、网站测试、S
Python数据预处理(微课版) 电子书
本书以JupyterNotebook为主要开发工具,全面地介绍数据预处理的相关知识。全书共分8章,内容分别为初识Python数据预处理、数据获取与存储、数据清洗、数据集成、数据变换、数据规约、综合实战:家用热水器用户行为分析以及两个综合实战项目。每个章节均配置了丰富的示例或案例,通过本书的学习,读者可以充分理解常用数据预处理方法的精髓、掌握具体技术细节,并在实践中提升实际开发能力,为数据分析和机器
Python数据预处理(微课版) 电子书
本书的设计和编写目标是培养读者的数据思维能力和数据预处理能力,内容具有典型性和实用性,系统介绍基于Python的数据预处理的流程和技术。全书共8个单元,单元1介绍数据预处理的基础知识,单元2介绍Python数据预处理的库pandas的用法及主要数据对象的用法,单元3~单元7依次介绍数据预处理流程中数据获取、数据合并、数据清洗、数据变换和数据描述等相关知识和技术。为突出培养读者的动手能力,本书单元2
高维数据分析预处理技术 电子书
作者针对高维稀疏数据挖掘问题,从数据预处理的角度,研究对象—属性空间的划分问题,其目的是把所研究的数据挖掘空间分解为若干规模较小的对象—属性空间,从而降低实际数据挖掘的难度。本书针对高维稀疏数据挖掘问题,以降低数据挖掘规模,建立了体系完整的数据预处理理论和方法,具有很强的理论意义和实际应用前景。
Python程序设计与数据采集(微课版) 电子书
本书知识框架可分为三部分。第一部分(第1章)阐述Python开发环境的搭建与使用;第二部分(第2章~第7章)阐述Python程序设计的基础知识,包括内置类型、运算符与内置函数,程序控制结构,列表与元组,字典与集合,字符串,函数;第三部分(第8章~第10章)阐述不同场景下Python数据采集的方法与应用,包括基于文件和设备的数据采集、基于SQLite数据库的数据采集、基于网页的数据采集。本书通过大量