腾讯大数据构建之道

陈鹏

355千字字数

类似推荐

编辑推荐

本书阐述了腾讯大数据的核心体系，是一本内容翔实、丰富和系统化的大数据著作。

内容简介

本书详细阐述了腾讯大数据平台系统架构，以及多年来平台建设的思考与沉淀，涵盖腾讯大数据的起源、技术理念及发展历程、开源路线选择的思考以及三代大数据平台架构的技术演进，涉及数据实时采集平台、下一代分布式存储平台、分布式计算平台、资源调度平台、机器学习平台、数据内容挖掘、大数据平台的运营、大数据套件TBDS、一站式机器学习平台智能钛TI等核心技术内容。

大数据生态发展与演进需要各界数据人的共同努力，相信本书中详尽的大数据平台案例与建设思路可以给各位同行朋友带来很大的启发并提供借鉴。

本书适合大数据从业人员、大数据技术爱好者、相关专业院校学生阅读。

章节目录

版权信息

作者简介

彩插

本书编委会

前言

第1章打造腾讯大数据平台

1.1 腾讯大数据的缘起

1.2 腾讯大数据的构建理念

1.3 腾讯大数据的总体架构

第2章数据实时采集平台

2.1 接入层挑战

2.2 接入管理层TDManager

2.2.1 TDManager作用

2.2.2 TDManager系统架构

2.2.3 业务核心流程介绍

2.3 数据采集

2.3.1 概述

2.3.2 特点

2.3.3 改进优化

2.3.4 主要应用场景

2.4 数据总线

2.4.1 数据总线是什么

2.4.2 为什么需要数据总线

2.4.3 数据总线架构

2.4.4 技术特点

2.4.5 适用场景和不足

2.5 消息中间件

2.5.1 为什么使用消息中间件

2.5.2 TubeMQ系统概述

2.5.3 Hippo系统概述

2.6 数据分拣

2.6.1 用户接口

2.6.2 系统架构

2.6.3 负载分配

2.7 接入层展望

第3章分布式存储平台

3.1 文件存储HDFS

3.1.1 HDFS基础

3.1.2 HDFS架构

3.1.3 HDFS读写流程

3.1.4 HDFS特性

3.1.5 HDFS概览

3.2 统一存储Ceph

3.2.1 Ceph基础

3.2.2 Ceph核心

3.2.3 块存储（RBD）

3.2.4 对象存储

3.2.5 文件存储

3.3 下一代大数据存储Ozone

3.3.1 Ozone概述

3.3.2 基本概念

3.3.3 Ozone的设计原则

3.3.4 技术构架

3.3.5 应用场景

3.4 KV存储HBase

3.4.1 HBase概述

3.4.2 HBase数据模型

3.4.3 HBase架构与原理

3.4.4 HBase在腾讯的实践

第4章分布式计算平台

4.1 批处理MapReduce

4.1.1 MapReduce介绍

4.1.2 MapReduce举例

4.1.3 MapReduce工作原理

4.2 批处理Spark

4.2.1 背景

4.2.2 基本概念与架构

4.2.3 Spark开发最佳实践

4.3 批处理漂移计算SuperSQL

4.3.1 概述

4.3.2 元数据管理

4.3.3 跨源分布式查询处理

4.3.4 跨DC查询优化

4.4 流处理Flink

4.4.1 概述

4.4.2 腾讯Flink实践

4.4.3 编程模型

4.4.4 系统架构

4.5 SQL数据仓库Hive

4.5.1 Hive介绍

4.5.2 SQL执行架构

4.5.3 腾讯Hive实践

4.6 任务调度

4.6.1 统一调度与周边系统关系

4.6.2 统一调度架构设计

4.6.3 洛子与统一调度

4.6.4 模块划分

第5章数据分析引擎

5.1 关系型OLAP：腾讯实时多维分析平台

5.1.1 背景和业务价值

5.1.2 技术架构与原理

5.1.3 应用案例

5.2 关系型OLAP：ClickHouse

5.2.1 概述

5.2.2 技术架构

5.2.3 系统调优

5.2.4 运维管理

5.3 多维OLAP：Kylin

5.3.1 Kylin概述

5.3.2 Kylin基本概念

5.3.3 Kylin技术架构

5.3.4 Cube优化

5.3.5 Kylin运维管理

5.4 多维OLAP：Druid

5.4.1 Druid概述

5.4.2 Druid原理与架构

5.4.3 Druid应用案例

第6章资源调度平台

6.1 Yarn项目背景

6.1.1 Hadoop 1.0架构的问题

6.1.2 Yarn的基本架构

6.2 调度器性能优化

6.2.1 大集群的优点与挑战

6.2.2 如何找到性能瓶颈

6.2.3 优化思路

6.3 集群的高可用性

6.3.1 ResourceManager高可用性

6.3.2 NodeManager热重启

6.4 多资源维度弹性管理

6.4.1 CPU管理

6.4.2 内存管理

6.4.3 GPU管理

6.4.4 本地磁盘管理

第7章数据治理体系

7.1 元数据

7.1.1 元数据介绍

7.1.2 元数据系统设计

7.1.3 元数据安全

7.1.4 元数据应用

7.2 数据资产管理

7.2.1 数据资产与数据资产管理

7.2.2 数据资产管理实践

7.3 大数据安全

7.3.1 大数据安全介绍

7.3.2 大数据安全体系

7.3.3 统一安全中心

第8章机器学习平台

8.1 图智能平台

8.1.1 图存储

8.1.2 图计算

8.1.3 业务应用

8.2 Angel

8.2.1 Angel项目背景

8.2.2 Angel基础架构

8.2.3 Angel高性能

8.2.4 Angel稳定性建设

8.2.5 Angel编程接口

8.3 联邦学习

8.3.1 联邦学习概念

8.3.2 联邦学习关键技术

8.3.3 Angel PowerFL平台

8.3.4 联邦学习应用

第9章数据内容挖掘

9.1 概览

9.2 广告内容挖掘

9.2.1 文本分类特征

9.2.2 文本主题特征

9.2.3 文本关键词特征

9.3 用户画像数据体系

9.4 用户画像构建方法

9.4.1 基础属性

9.4.2 用户兴趣

9.5 数据内容挖掘与推荐

9.6 数据内容挖掘与AI创作

9.6.1 机器写作业界现状

9.6.2 机器写作方法现状

9.6.3 个性化AI写作

第10章大数据平台运营

10.1 大数据服务规划

10.1.1 IDC建设规划

10.1.2 网络架构设计

10.1.3 服务器选型

10.1.4 安全策略选择

10.2 大数据平台治理

10.2.1 租户划分策略

10.2.2 资源管理策略

10.2.3 分级服务机制

10.3 自动化运维体系构建

10.3.1 系统运维能力演进

10.3.2 系统运维工具平台

10.3.3 故障处理平台

10.3.4 大数据平台无感迁移

10.4 平台运营成本优化

10.4.1 降低资源成本

10.4.2 提高资源有效利用率

10.5 大数据运营分析与应用体系

第11章大数据平台产品设计

11.1 TBDS大数据处理套件

11.1.1 产品背景和目标

11.1.2 TBDS大数据PaaS平台

11.2 Oceanus实时流式数据处理平台

11.2.1 Oceanus介绍

11.2.2 Oceanus架构

11.2.3 库表管理

11.2.4 应用管理

11.3 ideX数据分析与探索挖掘工具

11.3.1 五星级的SQL编辑器

11.3.2 强大的Jupyter Notebook

11.3.3 强大的GraphQL

11.4 智能钛TI机器学习平台

11.4.1 机器学习平台功能模块

11.4.2 智能钛的使用

11.4.3 数据管理

11.4.4 建模

11.4.5 模型服务

第12章企业级容器云平台GaiaStack

12.1 GaiaStack产品背景和目标

12.1.1 企业使用容器云的意义

12.1.2 容器技术趋势

12.1.3 团队的容器技术发展概况

12.1.4 GaiaStack产品目标

12.2 GaiaStack架构和技术特点

12.2.1 GaiaStack架构

12.2.2 GaiaStack技术优势

12.3 GaiaStack核心技术

12.3.1 应用支持能力

12.3.2 资源管理能力

12.3.3 GaiaStack扩展能力

第13章大数据应用服务

13.1 智能客服机器人

13.1.1 定位及价值

13.1.2 产品建设历程

13.1.3 整体架构介绍

13.1.4 技术方案和应用

13.1.5 未来挑战及展望

13.2 移动推送

13.2.1 TPNS产品能力

13.2.2 TPNS主要应用场景

13.2.3 推送技术方案

13.2.4 网络和安全方案

13.3 数据可视化产品小马BI

13.3.1 数据采集

13.3.2 BI可视化

13.3.3 开放生态

参考文献

腾讯大数据构建之道是2022年由机械工业出版社华章分社出版,作者陈鹏。

得书感谢您对《腾讯大数据构建之道》关注和支持，如本书内容有不良信息或侵权等情形的，请联系本网站。