第1章 并行计算基础
1.1 背景
1.1.1 现实世界中的并行
1.1.2 并行与分布式计算的概念
1.1.3 来自应用领域的需求
1.2 并行编程模型
1.2.1 适用于共享内存的多线程编程模型
1.2.2 适用于分布内存的消息传递编程模型
1.2.3 混合编程模型
1.3 并行程序设计的基本思想
本章 小结
参考文献
第2章 并行计算机体系结构
2.1 并行计算机传统体系结构
2.1.1 共享存储与分布存储
2.1.2 并行计算机传统体系结构的发展
2.1.3 smp对称式共享存储器多处理机
2.1.4 dsm分布共享存储多处理机
2.1.5 mpp大规模并行处理机系统
2.1.6 机群系统
2.1.7 并行计算机传统体系结构的比较与分析
本节小结
2.2 多核cpu
2.2.1 处理器架构
2.2.2 单核处理器发展瓶颈
2.2.3 单芯片多处理器架构
2.2.4 多核处理器关键技术
2.2.5 多核处理器未来发展趋势
本节小结
2.3 gpu
2.3.1 gpu概述
2.3.2 gpu发展简介
2.3.3 gpu硬件架构
2.3.4 gpu-cpu异构体系结构
2.3.5 fermi架构
2.3.6 gpu集群
本节小结
2.4 cellbe
2.4.1 cellbe概述
2.4.2 cellbe关键技术
2.4.3 cellbe设计特点
2.4.4 发展情况与典型实例
本节小结
2.5 超级计算机
2.5.1 超级计算机的发展与规律
2.5.2 超级计算机的现状
2.5.3 超级计算机面临的挑战
本节小结
参考文献
第3章 并行编程模型与语言
3.1 mpi
3.1.1 mpi简介
3.1.2 第一个mpi程序
3.1.3 点对点通信
3.1.4 集合通信
3.1.5 并行i/o
3.1.6 mpi应用实例
本节小结
3.2 openmp
3.2.1 openmp简介
3.2.2 第一个openmp程序
3.2.3 编译指导语句
3.2.4 数据共享属性子句
3.2.5 运行时库函数
3.2.6 环境变量
3.2.?运行及调试
3.2.8 openmp编程实例
本节小结
3.3 mapreduce
3.3.1 mapreduce简介
3.3.2 mapreduce实例
3.3.3 mapreduce基本原理介绍
3.3.4 容错
3.3.5 mapreduce编程实例、运行与分析
本节小结
3.4 cuda
3.4.1 简介
3.4.2 cuda的安装和配置
3.4.3 第一个cuda程序
3.4.4 cuda编译器
3.4.5 cuda常用api
3.4.6 cuda编程模型
3.4.7 cuda存储器模型
3.4.8 编程实例的运行、分析与优化
本节小结
3.5 cellbe上的编程模型与语言
3.5.1 cellbe简介
3.5.2 第——个cellbe程序
3.5.3 cellbe编程模型简介
3.5.4 性能分析与优化
本节小结
参考文献
第4章 并行应用实例——大规模稀疏线性方程组求解的并行化
4.1 稀疏线性方程组及其求解方法
4.1.1 稀疏线性方程组的应用
4.1.2 大规模稀疏线性方程组求解的迭代算法
4.1.3 krylov子空间迭代法
4.1.4 预处理技术简介
4.2 大规模稀疏线性方程组求解案例
4.2.1 helmholtz方程及其计算特征
4.2.2 helmholtz方程的求解
4.3 helmholtz方程计算的并行化
4.3.1 并行性分析
4.3.2 通信模式
4.4 实际测试结果与性能优化
4.4.1 测试环境与测试用例
4.4.2 测试结果及其分析
本章 小结
参考文献