基于机器学习的数据缺失值填补:理论与方法

基于机器学习的数据缺失值填补:理论与方法

查阅电子书
手机扫码
  • 微信扫一扫

    关注微信公众号

因版权原因待上架

编辑推荐

资深专家多年研究和实践成果总结,创新性提出基于神经网络的填补方法和基于TS模型的填补方法,大幅提升缺失值填补效率。

内容简介

这是一部讲解如何基于机器学习技术实现数据缺失值填补的专著,与传统的基于统计学的缺失值填补方法相比,效率上得到了较大的提升。作者基于多年的研究和实践成果,创新性地提出了基于神经网络的缺失值填补方法和基于TS模型的缺失值填补方法。

全书共8章,可分为4个部分。

第壹部分(第1~3章):首先介绍缺失值填补领域的缺失数据机制、基本概念、性能度量等基础知识,随后详细阐述目前基于统计学、机器学习的缺失值填补理论与方法。

第二部分(第4~5章):对目前神经网络在缺失值填补领域的研究成果进行归纳总结,并从网络模型、填补方案角度阐述神经网络填补方法的设计及应用。

第三部分(第6~7章):详细介绍面向不完整数据的TS建模过程,随后通过特征选择算法处理TS建模中的特征冗余问题,并从前提参数优化和结论参数优化两个角度改进TS模型。

第四部分(第8章):以缺失值填补方法在我国贫困问题研究中的应用为例,展现缺失值填补方法的现实意义。

作者简介

作者赖晓晨,大连理工大学软件学院副教授、博士、硕士生导师,“宝钢教育”教师奖获得者,中国计算机学会会员。主要科研方向为人工智能、嵌入式系统,参与多项国家自然科学基金、国家重大研发计划、科技部973项目、863项目研究,发表SCI/EI收录学术论文20余篇,获得辽宁省技术发明三等奖1次。先后主持教改与课程建设项目3项、省部级项目14项、主持国家金课一门。与Google、Intel、ARM、Xilinx等国际公司有长期教学合作关系。

章节目录

版权信息

前言

第1章 绪论

1.1 缺失值填补的背景与意义

1.2 缺失值填补方法的研究现状概述

1.2.1 基于统计学的缺失值填补方法

1.2.2 基于机器学习的缺失值填补方法

1.3 缺失值填补的应用

1.4 本章小结

第2章 缺失数据的处理方法

2.1 数据缺失机制

2.1.1 完全随机缺失

2.1.2 随机缺失

2.1.3 非随机缺失

2.2 缺失数据的处理

2.2.1 不做处理

2.2.2 不完整样本删除

2.2.3 缺失值填补

2.3 缺失值填补概述

2.3.1 基本概念

2.3.2 方法分类

2.3.3 性能度量

2.4 本章小结

第3章 缺失值填补方法

3.1 基于样本间相似度的填补方法

3.1.1 均值填补法

3.1.2 热平台填补法

3.1.3 K最近邻填补法

3.1.4 基于聚类的填补方法

3.2 基于属性间相关性的填补方法

3.2.1 基于线性回归的填补方法

3.2.2 基于非线性回归的填补方法

3.2.3 基于神经网络的填补方法

3.3 基于参数估计的期望最大化填补方法

3.3.1 参数估计法

3.3.2 期望最大化填补法

3.4 针对缺失数据不确定性的填补方法

3.4.1 多重填补法

3.4.2 基于证据理论的填补方法

3.5 本章小结

第4章 面向不完整数据的神经网络填补方法

4.1 基于自组织映射网络的填补方法

4.1.1 自组织映射网络理论

4.1.2 自组织映射网络的缺失值处理

4.2 基于单层感知机的填补方法

4.2.1 单层感知机理论

4.2.2 传统单层感知机的改进

4.2.3 单层感知机填补模型

4.3 基于多层感知机的填补方法

4.3.1 多层感知机理论

4.3.2 基于多层感知机集群的填补方法

4.3.3 基于多层感知机简化集群的填补方法

4.4 基于自编码器及其变体的填补方法

4.4.1 基于自编码器的填补法

4.4.2 基于径向基函数自编码器的填补法

4.4.3 基于广义回归自编码器的填补法

4.4.4 基于对偶传播自编码器的填补法

4.4.5 基于极限学习机自编码器的填补法

4.5 面向不完整数据的属性关联型神经元建模与填补方法

4.5.1 基于去跟踪自编码器的填补法

4.5.2 基于关联增强型自编码器的填补法

4.5.3 基于多任务学习的填补方法

4.6 典型神经网络填补模型实验

4.6.1 实验设计

4.6.2 不同网络模型的填补精度

4.6.3 自编码器的自跟踪性

4.6.4 去跟踪自编码器的去跟踪性

4.7 本章小结

第5章 神经网络填补方法的优化设计

5.1 面向不完整数据的代价函数

5.2 两阶段式填补方案

5.2.1 训练阶段

5.2.2 填补阶段

5.3 融合式填补方案

5.3.1 基于缺失值变量的神经网络动态填补方案

5.3.2 缺失值变量与模型参数的动态更新

5.3.3 时间复杂度

5.4 典型神经网络填补方案实验

5.4.1 实验设计

5.4.2 不同填补方案的填补精度

5.4.3 MVPT填补方案的收敛性

5.5 本章小结

第6章 基于TS建模的非线性回归填补法

6.1 模糊数学基础

6.1.1 模糊数学与模糊集合

6.1.2 模糊数学在缺失值填补中的应用

6.2 TS模型

6.2.1 TS模型基本结构

6.2.2 TS模型研究与应用现状

6.3 基于TS模型的填补方法

6.3.1 基于TS模型的填补方法概述

6.3.2 前提参数获取

6.3.3 结论参数获取

6.3.4 缺失值填补

6.4 基于特征选择的TS模型填补法

6.4.1 特征选择算法概述

6.4.2 基于特征选择的TS模型填补法

6.5 TS模型填补方法实验

6.5.1 实验设计

6.5.2 TS模型与回归模型的填补效果对比

6.5.3 特征选择对TS模型拟合精度的影响

6.5.4 特征选择对TS模型填补精度的影响

6.6 本章小结

第7章 TS模型填补方法的优化设计

7.1 面向类不均衡数据的TS模型优化

7.1.1 TS模型中的FCM算法

7.1.2 FCM算法存在的问题

7.1.3 DPC算法

7.1.4 类不均衡数据的MDF算法

7.1.5 MDF算法实验

7.2 基于交替学习策略的TS模型填补方法

7.2.1 TS结论参数与填补值的交替学习策略

7.2.2 交替学习策略的迭代收敛性

7.2.3 交替学习策略下线性回归填补法实验

7.2.4 交替学习策略下TS模型填补法实验

7.3 本章小结

第8章 基于缺失值填补的中国贫困家庭特征分析

8.1 精准扶贫过程中的数据缺失问题

8.1.1 我国贫困问题研究

8.1.2 中国家庭追踪调查中的数据缺失问题

8.2 CFPS数据集缺失值填补

8.2.1 基于去跟踪自编码器的动态缺失值填补

8.2.2 缺失值填补精度

8.3 贫困家庭识别

8.3.1 多维贫困测度

8.3.2 贫困的维度指标及临界剥夺值

8.3.3 基于层次分析法的多维贫困指标权重计算

8.3.4 CFPS2016数据集的多维贫困家庭识别

8.4 基于聚类算法的贫困家庭类别划分

8.4.1 层次聚类算法

8.4.2 贫困家庭聚类

8.5 贫困家庭典型特征分析

8.5.1 多重聚类特征选择算法

8.5.2 贫困家庭典型特征选择

8.6 本章小结

基于机器学习的数据缺失值填补:理论与方法是2020年由机械工业出版社华章分社出版,作者刘辉。

得书感谢您对《基于机器学习的数据缺失值填补:理论与方法》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。

购买这本书

你可能喜欢
基于网络大数据的网络舆情涨落分析方法与机制研究 电子书
本书内容包括:引论;网络舆情涨落研究之基——网络舆情媒体平台特征研究;网络舆情涨落研究之源——网络舆情大数据信息的获取与抽取研究;网络舆情涨落研究之本——网络舆情热点发现研究;网络舆情涨落研究之术——网络舆情大数据内容分析及网络分析;网络舆情涨落研究之心——网络舆情涨落机制研究;网络舆情涨落研究之因——网络舆情中形形色色的安全问题。
数据科学:理论、方法与Python语言实践 电子书
全书共分为10章,第1-2章介绍了数据科学的基础知识以及数据科学所需的各项技术;第3-5章涵盖了Python的语法基础,函数、模块与组合数据类型,文件读写;第6章介绍了网络爬虫的数据采集及方法;第7-8章重点介绍了数据分析过程中的两个重要模块:numpy和pandas;第9章介绍了数据可视化与应用;第10章结合之前的内容,以一个综合案例进行了实战分析。本书配有电子课件、电子教案、教学大纲、习题答案
机器学习 电子书
机器学习基础与高级内容全面讲解,实例丰富,易于学习巩固。
打造学习型大脑:理论、方法与实践 电子书
A.
本书共8章,对大脑的基本事实、信息加工模型、记忆系统、迁移能力、脑区分工、艺术的作用、思考与问题解决、教学设计与应用进行了讨论。并在小框内标记出一些关键点。每章最后都设有“实践角”,提供补充性信息和教学策略实例。
Python高手修炼之道:数据处理与机器学习实战 电子书
适读人群 :1.没有编程知识的新手 不同于一般的基础语法讲解教程,本书并未将Python 开发限定于某个集成开发工具(IDE)中,而是采用交互式编程的方式来强化读者对语言特性的理解,帮助新手读者真正理解Python 语言和Python 编程。2.从未接触过Python 语言,但了解一点编程知识的初学者 本书通过对基础知识高度的提炼和概括,以避免初学者陷入低级且冗长的细节知识点而心生懈怠;同时,本书为初学者规划了从初级到高级的编程技能提升路线图。3.具有一定基础的Python 程序员 本书可以作为案头工具书来使用。本书从基础语法、基本技能讲起,涵盖了科学计算、数据处理、机器学习等领域,示例代码涉及30 余个模块的使用。 构建从Python入门到数据分析到机器学习的路线图,入门有章可循; 1.讲解独到,常见盲点趣解析 作者基于多年的经验积累,善于总结概括初学Python过程中的误区。 2.内容全面,常用工具全涵盖 书中介绍的Python工具包覆盖Numpy、Matplotlib、Pandas、SciPy、Scikit-Learn,方便读者拓展实用技能、掌握工作利器。 3.拓展训练,重点知识有强化 语感训练100题、Python内置函数(类)手册、从新手到高手的100个模块,强化知识点的掌握。 4.代码完整,随时动手可复现 本书提供了完整、可验证的代码,方便读者动手练习并强化理解。