类似推荐
编辑推荐
聚焦大数据关键技术要点,详解数据采集与数据预处理理论与技术。
内容简介
全书共9章,主要包括数据采集与预处理概述,大数据开发环境的搭建,使用Flume采集系统日志数据,使用Kafka采集系统日志数据,其他常用的系统日志数据采集工具,使用网络爬虫采集Web数据,Python数据预处理库的使用,使用ETL工具Kettle进行数据预处理,以及其他常用的数据预处理工具。
本书在第2章至第9章安排了丰富的实践操作,实现了理论与实践的有机结合,帮助读者更好地学习和掌握数据采集与预处理的关键技术。
本书可以作为高等院校大数据专业的大数据课程教材,也可以作为计算机相关专业的专业课或选修课教材,同时也可以作为从事大数据相关专业的工作人员的参考用书。
作者简介
编著者安俊秀,成都信息工程大学教授,访问学者,硕士生导师。软件自动生成与智能服务四川省学术带头人(知识本体和大数据方向)。并行计算与大数据研究所负责人。长期从事数据科学与大数据技术相关的研究与教学工作,已发表研究领域相关论文40余篇,主编大数据与人工智能方面专著或教材10余部。
章节目录
版权信息
面向新工科高等院校大数据专业系列教材 编委会成员名单
出版说明
前言
第1章 数据采集与预处理概述
1.1 大数据简介
1.2 数据分析简介
1.3 数据采集简介
1.4 数据预处理简介
习题
第2章 大数据开发环境的搭建
2.1 安装Python与JDK
2.2 MySQL数据库的安装与配置
2.3 Hadoop的安装与配置
2.4 在Hadoop集群上运行WordCount
习题
第3章 使用Flume采集系统日志数据
3.1 Flume概述
3.2 Flume的安装运行
3.3 Flume的核心组件
3.4 Flume拦截器与选择器
3.5 Flume负载均衡与故障转移
3.6 实践案例:使用Flume采集数据上传到HDFS
习题
第4章 使用Kafka采集系统日志数据
4.1 Kafka概述
4.2 Kafka的安装部署
4.3 Kafka的基本架构
4.4 实践案例:使用Kafka采集本地日志数据
4.5 实践案例:Kafka与Flume结合采集日志数据
习题
第5章 其他常用的系统日志数据采集工具
5.1 Scribe
5.2 Chukwa
5.3 Splunk
5.4 日志易
5.5 Logstash
5.6 Fluentd
习题
第6章 使用网络爬虫采集Web数据
6.1 网络爬虫概述
6.2 网络爬虫基础
6.3 常见的网络爬虫框架
6.4 实践案例:使用Scrapy爬取电商网站数据
习题
第7章 Python数据预处理库的使用
7.1 Python与数据分析
7.2 NumPy:数组与向量计算
7.3 Pandas:数据结构化操作
7.4 SciPy:科学化计算
7.5 Matplotlib:数据可视化
7.6 实践案例:使用Python预处理旅游路线数据
习题
第8章 使用ETL工具Kettle进行数据预处理
8.1 Kettle概述
8.2 Kettle的安装与配置
8.3 Kettle的基本使用
8.4 实践案例:使用Kettle处理某电商网站数据
习题
第9章 其他常用的数据预处理工具
9.1 Pig
9.2 OpenRefine
9.3 实践案例:使用Pig和OpenRefine预处理二手房数据
习题
参考文献
数据采集与预处理技术应用是2023年由机械工业出版社出版,作者安俊秀 编著。
得书感谢您对《数据采集与预处理技术应用》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。