本书共8章,内容包括概述、大数据实验环境搭建、网络数据采集、分布式消息系统Kafka、日志采集系统Flume、数据仓库中的数据集成、ETL工具Kettle、使用pandas进行数据清洗。
本书主要介绍如何利用Kettle和Python这两个具有代表性的工具进行数据预处理的相关技术与方法,包括数据抽取、数据清洗、数据集成、数据变换等。全书有9章,内容涉及数据采集、环境部署、Kettle安装及应用、pandas应用,以及数据可视化的基础内容。本书采用任务式编写形式,将大数据预处理技术的理论和实现分解到一个个任务中,融入到一个个典型案例中,让读者在完成各任务的同时掌握和理解相关内容。 本书既有技术的深度,也有行业应用的广度,适合作为高等院校计算机、数据科学与大数据技术等相关专业课程的教材,也适合作为数据处理行业从业人员的参考用书。
数据采集及预处理基础与应用是2024年由人民邮电出版社出版,作者陈瑛。
温馨提示:
1.本电子书已获得正版授权,由出版社通过知传链发行。
2.该电子书为虚拟物品,付费之后概不接收任何理由退款。电子书内容仅支持在线阅读,不支持下载。
3.您在本站购买的阅读使用权仅限于您本人阅读使用,您不得/不能给任何第三方使用,由此造成的一切相关后果本平台保留向您追偿索赔的权利!版权所有,后果自负!
得书感谢您对《数据采集及预处理基础与应用》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。