Hadoop权威指南(中文版)
作者:(美)怀特 著,曾大聃,周傲英 译,周敏 审校
出版:清华大学出版社 2010.5
页数:504
定价:79.00 元
ISBN-13:9787302224242
ISBN-10:7302224242
去豆瓣看看 第1章 初识Hadoop
1.1 数据!数据
1.2 数据的存储和分析
1.3 相较于其他系统
1.3.1 关系型数据库管理系统
1.3.2 网格计算
1.3.3 志愿计算
1.4 Hadoop发展简史
1.5 Apache Hadoop项目
第2章 Map Reduce简介
2.1 一个气象数据集
2.2 使用Unix Tools来分析数据
2.3 使用Hadoop进行数据分析
2.3.1 map和reduce
2.3.2 JavaMap Reduce
2.4 分布化
2.4.1 数据流
2.4.2 具体定义一个combiner
2.4.3 运行分布式Map Reduce作业
2.5 Hadoop流
2.5.1 Ruby语言
2.5.2 Python
2.6 Hadoop管道
第3章 Hadoop分布式文件系统
3.1 HDFS的设计
3.2 HDFS的概念
3.2.1 块
3.2.2 名称节点与数据节点
3.3 命令行接口
3.4 Hadoop文件系统
3.5 Java接口
3.5.1 从Hadoop URL中读取数据
3.5.2 使用FileSystem API读取数据
3.5.3 写入数据
3.5.4 目录
3.5.5 查询文件系统
3.5.6 删除数据
3.6 数据流
3.6.1 文件读取剖析
3.6.2 文件写入剖析
3.6.3 一致模型
3.7 通过distcp进行并行复制
3.8 Hadoop归档文件
3.8.1 使用Hadoop Archives
3.8.2 不足
第4章 Hadoop的I/O
4.1 数据完整性
4.1.1 HDFS的数据完整性
4.1.2 本地文件系统
4.1.3 Checksum File System
4.2 压缩
4.2.1 编码/解码器
4.2.2 压缩和输入分割
4.2.3 在Map Reduce中使用压缩
4.3 序列化
4.3.1 Writable接口
4.3.2 Writeable类
4.3.3 实现自定义的Writable
4.3.4 序列化框架
4.4 基于文件的数据结构
4.4.1 Sequence File类
4.4.2 MapFile
第5章 Map Reduce应用开发
5.1 API的配置
5.1.1 合并资源
5.1.2 各种扩展形式
5.2 配置开发环境
5.2.1 配置的管理
5.2.2 Generic Options Parser,Tool和Tool Runner
5.3 编写单元测试
5.3.1 Mapper
5.3.2 reducer
5.4 本地运行测试数据
5.4.1 在本地作业运行器上运行作业
5.4.2 测试驱动程序
5.5 在集群上运行
5.5.1 打包
5.5.2 启动作业
5.5.3 MapReduce网络用户界面
5.5.4 获取结果
5.5.5 调试作业
5.5.6 使用远程调试器
5.6 作业调优
5.7 Map Reduce的工作流
5.7.1 将问题分解成Map Reduce作业
5.7.2 运行独立的作业
第6章 Map Redoce的工作原理
6.1 运行Map Reduce作业
6.1.1 提交作业
6.1.2 作业的初始化
6.1.3 任务的分配
6.1.4 任务的执行
6.1.5 进度和状态的更新
6.1.6 作业的完成
6.2 失败
6.2.1 任务失败
6.2.2 tasktracker失败
6.2.3 jobtraeker失败
6.3 作业的调度
6.4 shufne和排序
6.4 map端
6.4.2 reduce端
6.4.3 配置的调整
6.5 任务的执行
6.5.1 推测式执行
6.5.2 任务JVM重用
6.5 -3跳过坏记录
6.5.4 任务执行环境
第7章 MapReduce的类型与格式
7.1 MapReduce类型
7.2 输入格式
7.2.1 输入分片与记录
7.2.2 文本输入
7.2.3 二进制输入
7.2.4 多种输入
……
第8章 MapReduce特性
第9章 Hadoop集群的安装
第10章 Hadoop的管理
第11章 Pig简介
第12章 Hbase简介
第13章 ZooKeeper简介
第14章 案例研究
附录A
附录B
附录C
怀特,2007年2月以来,一直担任Apache Hadoop项目负责人。他是Apache软件基金会的成员之一,同时也是Cloudera的一名工程师。Tome为IBM的developerWorks撰写过大量文章,并经常在很多行业大会上举行Hadoop主题演讲。Loudera Cloudera为Hadoop提供商业支持并志愿贡献社区,不收取任何费用。不管是打算在云中运行Hadoop,还是在自己的服务器上运行Hadoop Cloudera都能使其轻松实现。
什么是谷歌帝国的基石?MapReduce算法是也!Apache Hadoop架构作为MapReduce算法的一种开源应用,是应对海量数据的理想工具。项目负责人Tom White透过《Hadoop权威指南(中文版)》详细阐述了如何使用Hadoop构建可靠、可伸缩的分布式系统,程序员可从中探索如何分析海量数据集,管理员可以从中了解如何安装和运行Hadoop集群。
比价列表