高性能分布式计算系统开发与实现：基于Hadoop、Scalding和Spark

目　录作者简介内容简介

　　目　　录
　　译者序
　　前言
　　作者简介
　　部分　高性能分布式计算编程基础
　　第1章　引言2
　　1.1　分布式系统2
　　1.2　分布式系统类型5
　　1.2.1　分布式嵌入式系统5
　　1.2.2　分布式信息系统7
　查看完整　　

目　录作者简介内容简介

　　K.G.斯里尼瓦沙（K.G.Srinivasa）于2007年获得班加罗尔大学计算机科学与工程博士学位。现就职于班加罗尔的M.S.拉迈阿理工学院计算机科学与工程系，任教授兼主任。他在国际会议和期刊上共发表过一百多篇研究论文，曾作为访问学者出访过许多大学。他是UGC、DRDO和DST资助的多个项目的首席研究员，其研究领域包括数据挖掘、机器学习、高性能计算和云计算。他是IEEE和ACM的高级成员。阿尼尔·库马尔·穆帕拉（Anil Kumar Muppalla）既是一位研究者也是一个作家。具有计算机科学和工程学学位。他是很多行业的软件开发者和顾问。他是活跃的研究者，并在国际会议和期刊上发表诸多文章。他研究的方向包括使用Hadoop、Scalding和Spark进行应用开发。

目　录作者简介内容简介

　　本书分两部分，共8章，介绍了如何使用开源工具和技术开发与实现大规模分布式处理系统，涵盖构建高性能分布式计算系统的方法和佳实践。第一部分（第1~4章）介绍了高性能分布式计算编程的基础知识，包括分布式系统、Hadoop入门、Spark入门、Scalding入门等；第二部分（第5~8章）给出了使用Hadoop、Spark、Scalding的案例研究，涉及数据聚类、数据分类、回归分析、推荐系统等。本书适合作为高等院校计算机相关专业的教材，也适合作为软件工程师、应用开发人员、科研人员的参考书。

目　录作者简介内容简介

　　目　　录
　　译者序
　　前言
　　作者简介
　　部分　高性能分布式计算编程基础
　　第1章　引言2
　　1.1　分布式系统2
　　1.2　分布式系统类型5
　　1.2.1　分布式嵌入式系统5
　　1.2.2　分布式信息系统7
　　1.2.3　分布式计算系统8
　　1.3　分布式计算架构9
　　1.4　分布式文件系统10
　　1.4.1　分布式文件系统需求10
　　1.4.2　分布式文件系统架构11
　　1.5　分布式系统面临的挑战13
　　1.6　分布式系统的发展趋势16
　　1.7　高性能分布式计算系统示例18
　　参考文献20
　　第2章　Hadoop入门22
　　2.1　Hadoop简介22
　　2.2　Hadoop生态系统24
　　2.3　Hadoop分布式文件系统26
　　2.3.1　HDFS的特性26
　　2.3.2　名称节点和数据节点27
　　2.3.3　文件系统28
　　2.3.4　数据复制28
　　2.3.5　通信30
　　2.3.6　数据组织30
　　2.4　MapReduce准备工作31
　　2.5　安装前的准备33
　　2.6　单节点集群的安装35
　　2.7　多节点集群的安装38
　　2.8　Hadoop编程45
　　2.9　Hadoop流48
　　参考文献51
　　第3章　Spark入门53
　　3.1　Spark简介53
　　3.2　Spark内部结构54
　　3.3　Spark安装58
　　3.3.1　安装前的准备58
　　3.3.2　开始使用60
　　3.3.3　示例：Scala应用63
　　3.3.4　Python下Spark的使用65
　　3.3.5　示例：Python应用67
　　3.4　Spark部署68
　　3.4.1　应用提交68
　　3.4.2　单机模式70
　　参考文献72
　　第4章　Scalding和Spark的内部编程74
　　4.1　Scalding简介74
　　4.1.1　安装74
　　4.1.2　编程指南77
　　4.2　Spark编程指南103
　　参考文献120
　　第二部分　使用Hadoop、Scalding和Spark的案例研究
　　第5章　案例研究Ⅰ：使用Scalding和Spark进行数据聚类122
　　5.1　简介122
　　5.2　聚类122
　　5.2.1　聚类方法123
　　5.2.2　聚类处理125
　　5.2.3　K均值算法125
　　5.2.4　简单的K均值示例126
　　5.3　实现128
　　问题142
　　参考文献142
　　第6章　案例研究Ⅱ：使用Scalding和Spark进行数据分类144
　　6.1　分类145
　　6.2　概率论146
　　6.2.1　随机变量146
　　6.2.2　分布146
　　6.2.3　均值和方差147
　　6.3　朴素贝叶斯148
　　6.3.1　概率模型148
　　6.3.2　参数估计和事件模型149
　　6.3.3　示例150
　　6.4　朴素贝叶斯分类器的实现152
　　6.4.1　Scalding实现153
　　6.4.2　结果166
　　问题168
　　参考文献168
　　第7章　案例研究Ⅲ：使用Scalding和Spark进行回归分析169
　　7.1　回归分析的步骤169
　　7.2　实现细节172
　　7.2.1　线性回归：代数方法173
　　7.2.2　代数方法的Scalding实现174
　　7.2.3　代数方法的Spark实现179
　　7.2.4　线性回归：梯度下降法184
　　7.2.5　梯度下降法的Scalding实现187
　　7.2.6　梯度下降法的Spark实现195
　　问题198
　　参考文献199
　　第8章　案例研究Ⅳ：使用Scalding和Spark实现推荐系统200
　　8.1　推荐系统200
　　8.1.1　目标201
　　8.1.2　推荐系统的数据源201
　　8.1.3　推荐系统中使用的技术202
　　8.2　实现细节204
　　8.2.1　Spark实现206
　　8.2.2　Scalding实现221
　　问题230
　　参考文献230
　　索引233
^ 收起　　

目　录作者简介内容简介

　　K.G.斯里尼瓦沙（K.G.Srinivasa）于2007年获得班加罗尔大学计算机科学与工程博士学位。现就职于班加罗尔的M.S.拉迈阿理工学院计算机科学与工程系，任教授兼主任。他在国际会议和期刊上共发表过一百多篇研究论文，曾作为访问学者出访过许多大学。他是UGC、DRDO和DST资助的多个项目的首席研究员，其研究领域包括数据挖掘、机器学习、高性能计算和云计算。他是IEEE和ACM的高级成员。阿尼尔·库马尔·穆帕拉（Anil Kumar Muppalla）既是一位研究者也是一个作家。具有计算机科学和工程学学位。他是很多行业的软件开发者和顾问。他是活跃的研究者，并在国际会议和期刊上发表诸多文章。他研究的方向包括使用Hadoop、Scalding和Spark进行应用开发。

目　录作者简介内容简介

　　本书分两部分，共8章，介绍了如何使用开源工具和技术开发与实现大规模分布式处理系统，涵盖构建高性能分布式计算系统的方法和佳实践。第一部分（第1~4章）介绍了高性能分布式计算编程的基础知识，包括分布式系统、Hadoop入门、Spark入门、Scalding入门等；第二部分（第5~8章）给出了使用Hadoop、Spark、Scalding的案例研究，涉及数据聚类、数据分类、回归分析、推荐系统等。本书适合作为高等院校计算机相关专业的教材，也适合作为软件工程师、应用开发人员、科研人员的参考书。

1人想要

收入我的书库　×

高性能分布式计算系统开发与实现：基于Hadoop、Scalding和Spark

1人想要

收入我的书库 ×

收入我的书库　×