编辑推荐
本书重点介绍大数据概率数据结构与算法的核心思想和重要应用领域。
内容简介
本书共6章。每章都专门针对大数据应用中的一个特定问题,首先对该问题进行深入的解释,然后介绍可用于有效解决该问题的数据结构和算法。
第1章简要概述了概率数据结构中广泛使用的散列函数和散列表;第2章专门介绍近似成员查询,这是概率数据结构最著名的用例之一;第3章讨论了用来辅助估算元素基数的概率数据结构;第4章和第5章讨论流式场景下与频数和排序相关的重要指标的计算;第6章包含用于解决相似性问题的数据结构和算法,尤其是近邻搜索问题。
作者简介
作者安德烈·加霍夫,数学家和软件工程师,拥有数学建模和数值方法方向的博士学位。他曾在乌克兰的哈尔科夫国立大学计算机科学学院任教多年,目前是Ferret go GmbH的一名软件从业人员。后入职德国领先的社区审核、自动化和分析公司。他的研究兴趣包括机器学习、流数据挖掘和数据分析。
章节目录
版权信息
作者简介
译者简介
译者序
前言
第1章 散列
1.1 加密散列函数
1.2 非加密散列函数
1.3 散列表
1.4 总结
本章参考文献
第2章 成员查询
2.1 布隆过滤器
2.2 计数布隆过滤器
2.3 商数过滤器
2.4 布谷过滤器
2.5 总结
本章参考文献
第3章 基数
3.1 线性计数
3.2 概率计数
3.3 LogLog和HyperLogLog
3.4 总结
本章参考文献
第4章 频数
4.1 多数投票算法
4.2 频繁算法
4.3 Count Sketch
4.4 Count-Min Sketch
4.5 总结
本章参考文献
第5章 排序
5.1 随机采样
5.2 q-摘要
5.3 t-摘要
5.4 总结
本章参考文献
第6章 相似性
6.1 局部敏感散列
6.2 MinHash
6.3 SimHash
6.4 总结
本章参考文献
概率数据结构与算法:面向大数据应用是2022年由机械工业出版社华章分社出版,作者[乌克兰] 安德烈·加霍夫。
得书感谢您对《概率数据结构与算法:面向大数据应用》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。