流式数据网格

作者:[美]休伯特·杜莱(Hubert,Dulay),[美]斯蒂芬·穆尼(Stephen,Mooney) 著; 张敬会,秦正一,阳沁珂 译
出版:中国电力出版社 2025.6
定价:78.00 元
ISBN-13:9787519899745
ISBN-10:7519899748 去豆瓣看看
出版:中国电力出版社 2025.6
定价:78.00 元
ISBN-13:9787519899745
ISBN-10:7519899748 去豆瓣看看
前言 1
第1章 数据网格简介 9
1.1 数据划分 11
1.2 数据网格的支柱 12
1.2.1 数据所有权 13
1.2.2 数据即产品 14
1.2.3 联合计算数据治理 15
1.2.4 自助服务数据平台 15
1.2.5 数据网格图解 16
1.3 其他类似的架构模式 17
1.3.1 数据编织 18
1.3.2 数据网关和数据服务 20
1.3.3 数据民主化 21
1.3.4 数据虚拟化 22
1.4 聚焦实现 23
1.4.1 ApacheKafka 23
1.4.2 AsyncAPI 24
第2章 流式数据网络介绍 25
2.1 流处理的优势 26
2.1.1 流式处理支持实时用例 26
2.1.2 流处理带来的数据优化优势 27
2.1.3 反向ETL 28
2.2 Kappa架构 29
2.2.1 Lambda架构简介 30
2.2.2 Kappa架构简介 33
2.3 总结 37
第3章 领域所有权 39
3.1 识别领域 40
3.1.1 可识别领域 40
3.1.2 地理区域 40
3.1.3 混合架构 43
3.1.4 多云环境 44
3.2 避免模糊领域边界 46
3.3 领域驱动设计 48
3.3.1 领域模型 49
3.3.2 领域逻辑 49
3.3.3 限界上下文 49
3.3.4 通用语言 50
3.4 数据网格领域角色 50
3.4.1 数据产品工程师 51
3.4.2 数据产品负责人或数据管理者 51
3.5 值得考虑的流式数据网格工具和平台 52
3.6 领域内成本分摊 53
3.7 总结 54
第4章 流式数据产品 55
4.1 明确数据产品需求 56
4.2 识别数据产品衍生品 58
4.3 用Kafka Connect摄取数据产品衍生品 59
4.3.1 可消费性 61
4.3.2 同步数据源 66
4.3.3 异步数据源与变更数据捕获 67
4.3.4 Debezium连接器 68
4.4 将数据衍生品转化为数据产品 69
4.4.1 数据标准化 70
4.4.2 保护敏感信息 70
4.4.3 SQL 71
4.4.4 提取、转换和加载 78
4.5 使用AsyncAPI发布数据产品 85
4.5.1 注册流式数据产品 85
4.5.2 构建异步APIYAML文档 86
4.5.3 分配数据标签 99
4.5.4 版本控制 102
4.5.5 监控 103
4.6 总结 104
第5章 联邦式计算数据治理 105
5.1 在流式数据网格中的数据治理 106
5.1.1 数据血缘图 106
5.1.2 使用流数据目录来组织数据产品 108
5.2 元数据(Metadata) 108
5.2.1 模式(schemas) 110
5.2.2 数据血缘(Lineage) 111
5.2.3 安全性 113
5.2.4 可扩展性 114
5.3 从AsyncAPI生成数据产品页面 115
5.3.1 Apicurio注册表 117
5.3.2 访问工作流 118
5.4 集中式与去中心化 118
5.4.1 集中式工程师 119
5.4.2 去中心化工程师 119
5.5 总结 120
第6章 自助式数据基础设施 123
6.1 流式数据网格CLI 124
6.2 与资源相关的命令 126
6.2.1 与集群相关的命令 127
6.2.2 与主题相关的命令 127
6.2.3 domain命令 128
6.2.4 connect命令 130
6.2.5 streaming命令 131
6.2.6 发布流数据产品 134
6.3 与数据治理相关的服务 135
6.3.1 安全服务 136
6.3.2 标准服务 142
6.3.3 血缘服务 144
6.4 SaaS服务和API 146
6.5 总结 147
第7章 构建流式数据网格 149
7.1 基础设施 149
7.2 两种架构解决方案 150
7.2.1 专用基础设施 151
7.2.2 多租户基础设施 158
7.3 流式数据网格中心架构 163
7.3.1 领域代理(又称边车) 163
7.3.2 数据平面 164
7.3.3 控制平面 165
7.4 总结 171
第8章 构建一个去中心化的数据团队 173
8.1 传统的数据仓库结构 174
8.2 介绍去中心化团队结构 176
8.2.1 赋权人员 178
8.2.2 工作流程 178
8.2.3 促进协作 178
8.2.4 数据驱动自动化 179
8.3 数据领域的新角色 179
8.3.1 数据平面中的新角色 180
8.3.2 数据科学和商业智能中的新角色 181
第9章 特征存储 187
9.1 将数据工程与数据科学分离 188
9.2 在线和离线数据存储 190
9.3 Apache Feast简介 190
9.4 总结 194
第10章 流式数据网格的实践 195
10.1 流式数据网格示例 196
10.2 部署本地流式数据网格 198
10.2.1 安装连接器. 201
10.2.2 部署clickstream数据连接器并自动创建表 203
10.2.3 部署Debezium Postgres CDC连接器 209
10.2.4 流数据的丰富化 211
10.2.5 发布数据产品 217
10.3 消费流式数据产品 219
10.4 全托管的SaaS服务 223
10.5 总结和注意事项 230
第1章 数据网格简介 9
1.1 数据划分 11
1.2 数据网格的支柱 12
1.2.1 数据所有权 13
1.2.2 数据即产品 14
1.2.3 联合计算数据治理 15
1.2.4 自助服务数据平台 15
1.2.5 数据网格图解 16
1.3 其他类似的架构模式 17
1.3.1 数据编织 18
1.3.2 数据网关和数据服务 20
1.3.3 数据民主化 21
1.3.4 数据虚拟化 22
1.4 聚焦实现 23
1.4.1 ApacheKafka 23
1.4.2 AsyncAPI 24
第2章 流式数据网络介绍 25
2.1 流处理的优势 26
2.1.1 流式处理支持实时用例 26
2.1.2 流处理带来的数据优化优势 27
2.1.3 反向ETL 28
2.2 Kappa架构 29
2.2.1 Lambda架构简介 30
2.2.2 Kappa架构简介 33
2.3 总结 37
第3章 领域所有权 39
3.1 识别领域 40
3.1.1 可识别领域 40
3.1.2 地理区域 40
3.1.3 混合架构 43
3.1.4 多云环境 44
3.2 避免模糊领域边界 46
3.3 领域驱动设计 48
3.3.1 领域模型 49
3.3.2 领域逻辑 49
3.3.3 限界上下文 49
3.3.4 通用语言 50
3.4 数据网格领域角色 50
3.4.1 数据产品工程师 51
3.4.2 数据产品负责人或数据管理者 51
3.5 值得考虑的流式数据网格工具和平台 52
3.6 领域内成本分摊 53
3.7 总结 54
第4章 流式数据产品 55
4.1 明确数据产品需求 56
4.2 识别数据产品衍生品 58
4.3 用Kafka Connect摄取数据产品衍生品 59
4.3.1 可消费性 61
4.3.2 同步数据源 66
4.3.3 异步数据源与变更数据捕获 67
4.3.4 Debezium连接器 68
4.4 将数据衍生品转化为数据产品 69
4.4.1 数据标准化 70
4.4.2 保护敏感信息 70
4.4.3 SQL 71
4.4.4 提取、转换和加载 78
4.5 使用AsyncAPI发布数据产品 85
4.5.1 注册流式数据产品 85
4.5.2 构建异步APIYAML文档 86
4.5.3 分配数据标签 99
4.5.4 版本控制 102
4.5.5 监控 103
4.6 总结 104
第5章 联邦式计算数据治理 105
5.1 在流式数据网格中的数据治理 106
5.1.1 数据血缘图 106
5.1.2 使用流数据目录来组织数据产品 108
5.2 元数据(Metadata) 108
5.2.1 模式(schemas) 110
5.2.2 数据血缘(Lineage) 111
5.2.3 安全性 113
5.2.4 可扩展性 114
5.3 从AsyncAPI生成数据产品页面 115
5.3.1 Apicurio注册表 117
5.3.2 访问工作流 118
5.4 集中式与去中心化 118
5.4.1 集中式工程师 119
5.4.2 去中心化工程师 119
5.5 总结 120
第6章 自助式数据基础设施 123
6.1 流式数据网格CLI 124
6.2 与资源相关的命令 126
6.2.1 与集群相关的命令 127
6.2.2 与主题相关的命令 127
6.2.3 domain命令 128
6.2.4 connect命令 130
6.2.5 streaming命令 131
6.2.6 发布流数据产品 134
6.3 与数据治理相关的服务 135
6.3.1 安全服务 136
6.3.2 标准服务 142
6.3.3 血缘服务 144
6.4 SaaS服务和API 146
6.5 总结 147
第7章 构建流式数据网格 149
7.1 基础设施 149
7.2 两种架构解决方案 150
7.2.1 专用基础设施 151
7.2.2 多租户基础设施 158
7.3 流式数据网格中心架构 163
7.3.1 领域代理(又称边车) 163
7.3.2 数据平面 164
7.3.3 控制平面 165
7.4 总结 171
第8章 构建一个去中心化的数据团队 173
8.1 传统的数据仓库结构 174
8.2 介绍去中心化团队结构 176
8.2.1 赋权人员 178
8.2.2 工作流程 178
8.2.3 促进协作 178
8.2.4 数据驱动自动化 179
8.3 数据领域的新角色 179
8.3.1 数据平面中的新角色 180
8.3.2 数据科学和商业智能中的新角色 181
第9章 特征存储 187
9.1 将数据工程与数据科学分离 188
9.2 在线和离线数据存储 190
9.3 Apache Feast简介 190
9.4 总结 194
第10章 流式数据网格的实践 195
10.1 流式数据网格示例 196
10.2 部署本地流式数据网格 198
10.2.1 安装连接器. 201
10.2.2 部署clickstream数据连接器并自动创建表 203
10.2.3 部署Debezium Postgres CDC连接器 209
10.2.4 流数据的丰富化 211
10.2.5 发布数据产品 217
10.3 消费流式数据产品 219
10.4 全托管的SaaS服务 223
10.5 总结和注意事项 230
Hubert Dulay是StarTree公司的系统和数据工程师。他为许多金融机构、医疗组织和电信公司提供过咨询服务。Stephen Mooney是一名独立的数据科学家和数据工程师。他曾在医疗保健、零售和公共部门的公司工作过。
通过这本书,你将学习以下知识:使用Kafka设计一个流式数据网格。学习如何识别数据领域。使用自助式工具构建你的第D一个数据产品。将数据治理应用于你创建的数据产品中。了解同步和异步数据服务之间的差异。实现支持去中心化数据的自助服务。
比价列表价格走势
公众号、微信群
缺书网微信公众号
扫码进群实时获取购书优惠




