数据采集与预处理技术应用

数据采集与预处理技术应用

查阅电子书
手机扫码
  • 微信扫一扫

    关注微信公众号

因版权原因待上架

编辑推荐

聚焦大数据关键技术要点,详解数据采集与数据预处理理论与技术。

内容简介

全书共9章,主要包括数据采集与预处理概述,大数据开发环境的搭建,使用Flume采集系统日志数据,使用Kafka采集系统日志数据,其他常用的系统日志数据采集工具,使用网络爬虫采集Web数据,Python数据预处理库的使用,使用ETL工具Kettle进行数据预处理,以及其他常用的数据预处理工具。

本书在第2章至第9章安排了丰富的实践操作,实现了理论与实践的有机结合,帮助读者更好地学习和掌握数据采集与预处理的关键技术。

本书可以作为高等院校大数据专业的大数据课程教材,也可以作为计算机相关专业的专业课或选修课教材,同时也可以作为从事大数据相关专业的工作人员的参考用书。

作者简介

编著者安俊秀,成都信息工程大学教授,访问学者,硕士生导师。软件自动生成与智能服务四川省学术带头人(知识本体和大数据方向)。并行计算与大数据研究所负责人。长期从事数据科学与大数据技术相关的研究与教学工作,已发表研究领域相关论文40余篇,主编大数据与人工智能方面专著或教材10余部。

章节目录

版权信息

面向新工科高等院校大数据专业系列教材 编委会成员名单

出版说明

前言

第1章 数据采集与预处理概述

1.1 大数据简介

1.2 数据分析简介

1.3 数据采集简介

1.4 数据预处理简介

习题

第2章 大数据开发环境的搭建

2.1 安装Python与JDK

2.2 MySQL数据库的安装与配置

2.3 Hadoop的安装与配置

2.4 在Hadoop集群上运行WordCount

习题

第3章 使用Flume采集系统日志数据

3.1 Flume概述

3.2 Flume的安装运行

3.3 Flume的核心组件

3.4 Flume拦截器与选择器

3.5 Flume负载均衡与故障转移

3.6 实践案例:使用Flume采集数据上传到HDFS

习题

第4章 使用Kafka采集系统日志数据

4.1 Kafka概述

4.2 Kafka的安装部署

4.3 Kafka的基本架构

4.4 实践案例:使用Kafka采集本地日志数据

4.5 实践案例:Kafka与Flume结合采集日志数据

习题

第5章 其他常用的系统日志数据采集工具

5.1 Scribe

5.2 Chukwa

5.3 Splunk

5.4 日志易

5.5 Logstash

5.6 Fluentd

习题

第6章 使用网络爬虫采集Web数据

6.1 网络爬虫概述

6.2 网络爬虫基础

6.3 常见的网络爬虫框架

6.4 实践案例:使用Scrapy爬取电商网站数据

习题

第7章 Python数据预处理库的使用

7.1 Python与数据分析

7.2 NumPy:数组与向量计算

7.3 Pandas:数据结构化操作

7.4 SciPy:科学化计算

7.5 Matplotlib:数据可视化

7.6 实践案例:使用Python预处理旅游路线数据

习题

第8章 使用ETL工具Kettle进行数据预处理

8.1 Kettle概述

8.2 Kettle的安装与配置

8.3 Kettle的基本使用

8.4 实践案例:使用Kettle处理某电商网站数据

习题

第9章 其他常用的数据预处理工具

9.1 Pig

9.2 OpenRefine

9.3 实践案例:使用Pig和OpenRefine预处理二手房数据

习题

参考文献

数据采集与预处理技术应用是2023年由机械工业出版社出版,作者安俊秀 编著。

得书感谢您对《数据采集与预处理技术应用》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。

购买这本书

你可能喜欢
大数据技术与应用基础项目教程 电子书
全书共十个项目,除了项目一介绍大数据基础理论外,其余项目均以实战为主线,内容循序渐进,逐步深入,围绕大数据技术的应用层层展开。内容主要包括大数据的基本概念、Ubuntu及服务安装配置、Hadoop集群部署、MapReduce编程、HBase数据库部署与应用、Hive数据仓库安装与应用、Pig数据分析、Sqoop数据迁移、Spark部署及数据分析等知识,最后以大数据技术的具体应用介绍了MapRedu
大数据技术原理与应用(第2版) 电子书
国内高校大数据课程知名教师倾心之作,带你“零基础”学习大数据。
Web数据库技术与MySQL应用教程 电子书
本书在介绍Web数据库基本理论与知识的基础上,详细分析和论述了利用HTML、PHP、ASP访问MySQL数据库的Web应用技术和方法,阐释了Web数据库系统的开发与应用技术,并提供了相应的网页及应用程序代码。
大数据技术原理与应用(第3版) 电子书
本书系统介绍了大数据的相关知识,分为大数据基础篇、大数据存储与管理篇、大数据处理与分析篇、大数据应用篇。
命名数据网络原理、技术与应用 电子书
本书是一本系统完整地介绍命名数据网络的书籍,几乎涵盖了所有相关命名数据网络的重要内容,对增强该方向的国内普及具有重要意义。本书作者长期在网络领域从事研究,精通传统IP网络、覆盖网以及未来新型网络,对命名数据网络有着国内前沿的研究,在此基础上对该书编写投入巨大精力,使得本书语言精练、思想深刻,便于读者在较短时间内对命名数据网络有一个全面把握。