备用【刘巍璘吧】

1．请简单描述OpenCL线程层次结构和AMD GPU存储器层次结构的对应关系。
答: AMD GPU存储器层次结构和OpenCL线程层次结构的对应关系：
LDS对应local memeory，主要用来在一个work group内的work times之间共享数据。steam core访问LDS的速度要比Globalmemory快一个数量级。
private memory对应每个pe的寄存器。
constant memory主要是利用了L1 cache。
OpenCL中的线程结构是可缩放的，Kernel的每个运行实例称作WorkItem(也就是线程），WorkItem组织在一起称作WorkGroup，OpenCL中，每个Workgroup之间都是相互独立的。
通过一个global id(在索引空间，它是唯一的）或者一个workgroup id和一个work group内的local id，我就能标定一个workitem。
2．天河1A参与TOP500排名的HPL Linpack实测速度是多少，效率是多少？
答：实测速度 2.57PetaFlops，效率是55%
3．请简述OpenMP的优、缺点有哪些？
答：OpenMP是针对单主机上多核/多CPU并行计算而设计的工具，换句话说，OpenMP更适合单台计算机共享内存结构上的并行计算。由于使用线程间共享内存的方式协调并行计算，它在多核/多CPU结构上的效率很高、内存开销小、编程语句简洁直观，因此编程容易、编译器实现也容易（现在最新版的C、C++、Fortran编译器基本上都内置OpenMP支持）。不过OpenMP最大的缺点是只能在单台主机上工作，不能用于多台主机间的并行计算。
4. 将下列代码改写为OpenMP程序，注意保持相同的计算结果。
int main()
{
int A[6], i;
for(i = 0; i< 6; i++) A[i] = i;
#pragma ompparallel
#pragma omp for
for(i=0;i<5;i++) A[i] = A[i+1];
printf("A=");
for(i=0; i <6; i++)
printf("%d ",A[i]);
printf("\n");
return 0;
}
答：
#include<omp.h>
int main()
{
int A[6], i;
#pragma ompparallel
{
#pragma omp for
for(i = 0; i< 6; i++) A[i] = i;
#pragma omp for
for(i=0;i<5;i++) A[i] = A[i+1];
printf("A=");
#pragma omp for
for(i=0; i <6; i++)
printf("%d ",A[i]);
printf("\n");
return 0;
}
}
5． MPI是一门语言吗？请给出简单的解释。
答：MPI是一个库，而不是一种语言。MPI（Message Passing Interface,消息传递接口）是并行计算经常用到的，用于进程间通信的一组API。MPI可以通过网络，在不同节点间进行通信。MPI也是MIC编程中较常使用的通信库之一。MPI标准定义了一组核心的库函数的语法及语义，它们对编写消息传递程序非常有用。MPI库中包含超过125个函数，但关键的函数要少得多。
6. MPI编程：Jacobi迭代。在一个二维平面上任意一点，每一次迭代的值是由其相邻数值点的平均得到的，即如下述串行程序所示：
…
REAL A(N+1,N+1), B(N+1,N+1)
…
DO K=1,STEP
DO J=1,N
DO I=1,N
B(I,J)=0.25*(A(I-1,J)+A(I+1,J)+A(I,J+1)+A(I,J-1))
END DO
END DO
DO J=1,N
DO I=1,N
A(I,J)=B(I,J)
END DO
END DO
END DO
试用MPI写出Jacobi迭代的并行程序
答：Integer ierr, myid,numproces
REALA(N+1,N+1),B(N+1,N+1)
...
DO K=1,STEP
Call MPI_INIT(ierr)
CallMPI_COMM_RANK(MPI_COMM_WORLD,myid,ierr)
CallMPI_COMM_SIZE(MPI_COMM_WORLD,numprocs,ierr)
DO J=myid+1,N,numprocs

DO I=1,N
B(I,J)=0.25*(A(I-1,J)+A(I+1,J)+A(I,J+1)+A(I,J-1))
END DO
END DO
Call MPI_FINALIZE(ierr)
Call MPI_INIT(ierr)
CallMPI_COMM_RANK(MPI_COMM_WORLD,myid,ierr)
CallMPI_COMM_SIZE(MPI_COMM_WORLD,numprocs,ierr)
DO J=myid_1, N,numprocs
DO I=1,N
A(I,J)=B(I,J)
END DO
END DO
Call MPI_FINALIZE(ierr)
END DO
7. CUDA程序中线程有几层结构？分别叫什么？为什么这样设计？
答：有3层。网格(Grid)，线程块(block)，线程(thread)。利用这个模式，可以让程序不用担心显示芯片实际上能同时执行的thread 数目限制。
8. 请写出两个矩阵A和B相乘的串行代码段和基于CUDA的并行代码段。
答：//C = A*B串行代码
void MatrixMultiply(float*_C,const float *_A,const float *_B,int _wa,int _ha,int _wb)
{ float sum = 0;
for (int i = 0; i < _ha; ++i)
{ for (int j = 0; j < _wb;++j)
{ sum = 0;
for (int k = 0; k < _wa; ++k)
{ sum +=(float)_A[i*_wa+k]*(float)_B[k*_wb+ j];
}
_C[i*_wb+j] = (float)sum;
}
}
}
//CUDA并行代码
__global__ void matrix_kernel_0(float*_C,const float* _A,const float *_B,int _wa,int _wb)
{ float sum = 0;
//找出该线程所在的行列
int row = blockIdx.y*blockDim.y + threadIdx.y;
int col = blockIdx.x*blockDim.x + threadIdx.x;
//线程Thread(row,col)负责计算C(row,col)
for (int i = 0; i < _wa; ++i)
{ sum += _A[row*_wa + i]*_B[i*_wb+ col];
}
_C[row*_wb + col] = sum;
}
9. 利用Matlab并行编程语句parfor计算向量c，其中a，b，c均为n维实值向量，a，b随机产生，c满足下面的条件。
If a(i)>b(i) c(i)=a(i)+b(i) else c(i) = a(i) – b(i)
答：clear
a= rand(10)
b= rand(10)
parfor i=1:10
for j=1:10
if a(i,j)>b(i,j)
c(i,j) =a(i,j)+b(i,j);
else
c(i,j) = a(i,j)-b(i,j);
end
end
End
10．结合你自己的学习体会，列举1~2个你所接触到的典型并行计算应用，并简要介绍它们的并行计算方式（模式），并尽可能的论述这些应用软件的瓶颈所在，以及它们现有的并行模式是否合适，应当如何改进？（10分）
答：1.CUDA在图像锐化和中值滤波中的应用：（1）采用GPU协处理方式（2）GPU浮点数运算位数、分支预判断能力和内显存数据交换式瓶颈。（3）基本适合现有并行模式（4）控制kernal复杂度，一个block的线程数最好是32的倍数，避免并行度不高，频繁通信以及同步过多的。
2.MPI在灰度相似图像对比方面的应用：（1）采用并行集群计算方式（2）通信时软件的瓶颈（3）基本适合现有的并行模式（4）设计算法时尽量减少通信量，通信次数，并使用性能相同的计算机构建并行计算集群。

答：OpenMP
1. 跨节点大规模并行编程工具是什么？
答：MPI（Message .Passing. Ienterface）
2. 指定线程数量的方法有哪几个？
答：1. omp_set_num_threads库函数
2.num_thread_(integer_expression) 子语
3.OMP_NUM_THREADS 环境变量
3. parallel区域内的循环为啥要用#pragam omp for 导语？
答：将循环的所有迭代步分摊到各个线程上
•必须放在一个omp parallel区域内，
才能正真并行执行
•子语用来控制数据属性、条件操作、
归约操作…
导语格式-- omp for
#pragma omp parallel
{
#pragma omp for
for( i=0; i < 100; i++)
{
...
}
4. 并行区域内的循环变量默认数据属性是什么？private还是shared?
答：private
5. sections导语与parallel有哪些区别？
答：sections导语中的部分可以有写不并行的部分，只有在#program omp section 中的结构块才会并行；Parallel中的部分会全部被执行。
6. 当前HPC发展的下一个阶段计算规模是多少？
答：百亿亿次。
7. 评判一套HPC系统的浮点运算能力的基准测试程序是什么？
答：Linpack。
8. HPC中常用的消息通讯接口是什么？
答：MPI。MPI是一个库，而不是一门语言，MPI是一种消息传递编程模型，并成为这种编程模型的代表和事实上的标准；MPI是一种标准或规范的代表，而不特指某一个对它的具体实现。
9. MPI标准的实现软件包有哪些？
答：OpenMPI, Mpich2, mvapich2，intel MPI
10. MPI的6个基本函数是什么？
答：1. MPI_Init(…);

1. 存储网络有哪种形式？
答：DAS (Direct Attached Storage)
NAS (NetworkAttached Storage)
SAN (StorageArea Network)
2. 常用的RAID有哪几种？
RAID0，RAID1，RAID5，RAID6，RAID10.
3. Lustre有哪些节点组成？
1.MDS （Metadata Server）
提供元数据服务
连接MDT （Metadata Targets )
2.OSS （Object storage servers）
提供数据服务
连接OST（Object Storage Targets )
3.Clients
挂载并使用文件系统
计算节点

4.MGS(Management Server)
提供配置信息服务
连接到MGT(Management Targets)

第一章：
超级计算机的主流应用领域：
物质的物理化学材料属性的科研工作
地震资料处理用于油气勘探
动画电影的高逼真效果制作
气象环境海洋的数据预报
基因科学蛋白质科学研究新药研发
高通量计算：
HTC侧重于提高计算任务的吞吐量单个任务多为串行
世界知名的超级计算机：
Titan KrakenXT5 GAEA 天河一号
知名超算厂家：
曙光浪潮 HP IBM 国防科大
第5章：
轴承磁盘的数据传输延迟
数据传输总时间：
寻道时间+磁盘旋转时间+数据传输时间
新存储消费模式：混合阵列全闪存阵列
FAST Suite ------FAST VP + FAST Cache
FAST VP：跨池中的驱动器分层
1. 优化驱动器利用率
2. 随时间推移划分相对优先级
3. 1GB切片非常适合于确定性数据
FAST Cache：
讲最热数据拷贝到闪存
1. 优化闪存利用率
2. 近实时动态移动
3. 64KB子切片非常适合于激增的数据
分布式数据的统一管理：云存储
一、大规模可扩展

一、多数据中心双活
统一目录空间
适用对象ID访问跨站点数据
数据始终在线可用
二、不用LUN 不用RAID
一个存储系统同时支持多种应用
1. 多个部门的不同应用分别作为不同的租户使用同一个存储
2. 租户之间安全隔离数据互不可见
3. 高效统一管理
根据数据的重要程度来决定副本的数量与保存时间
云存储综合数据服务：
分布式云保护
–不需RAID硬件，使用多副本或分片进行数据保护
•自治愈
–在系统冗余度降低时可以自动重建受到影响的数据
•自定义元数据
–可添加自定义元数据便于数据索引
•策略化存储
–根据自定义元数据采取区分化的存储策略，提供不同的存
储服务等级
•动态扩容
–一次安装，以后自动添加新容量，不中断业务
第三章：高速网络互联驱动未来计算
集群中的主要互连部件
硬件部分：
CPU cores and memory subsystem
I/O bus or links
Network adapters/switche
软件部分：
Communication stack

传统传输协议的瓶颈
主机处理器处理各种连接问题：
1．数据缓冲
2．路由
3．数据完整性校验
不同层之间的通信：
1. 传输的中断
2. 不同的处理协议之间优先级的不同
InfiniBand
为了解决以下三方面的瓶颈：
1. 协议处理
2. I/O总线
3. 网络速度
创立InfiniBand Trade Association协议的七个领导公司
Compaq Dell HP IBM Intel Microsoft Sun
InfiniBand 的特点
智能网络接口卡：
1. 硬件上完全支持整个协议
2. 提供丰富的通信接口给应用程序
a) 用户级通信能力
b) 摆脱中间数据缓冲的要求
3. 在不同的通信层中没有软件信令（software signaling）
所有的层都在专用的硬件单元应用而并不是共享的主机CPU
InfiniBand 技术的优势和特点
InfiniBand Trade Association
协会制定规范
–成立于1999年
–开放标准的高带宽、低延迟网络互连技
术
•串行高带宽连接
– SDR: 10Gb/s HCA连接
– DDR: 20Gb/s HCA连接
– QDR: 40Gb/s HCA连接–现在
– FDR: 56Gb/s HCA连接– 2011年底
– EDR: 100Gb/s HCA连接– 2014年
•极低的延迟

低于1 微妙的应用级延迟
•可靠、无损、自主管理的网络
–基于链路层的流控机制
–先进的拥塞控制机制可以防止阻塞
完全的CPU卸载功能
–基于硬件的传输协议
–可靠的传输
–内核旁路技术
•服务质量控制（ QoS）
–在适配器卡级提供多个独立的I/O通道
–在链路层提供多条虚拟通道
•集群可扩展性和灵活性
–一个子网可支持48,000个节点，一个网络
可支持2128 个节点
–提供多种集群拓扑方式
•简化集群管理
–集中路由管理
–支持带内网络诊断和升级
•远端内存直接访问
– RDMA-读和RDMA-写
网络是应用程序数据交换的关键
RDMA Technology
RDMA(Remote Direct Memory Access)技术全称远程直接数据存取，就是为了解决网络传输中服务器端数据处理的延迟而产生的。RDMA通过网络把资料直接传入计算机的存储区，将数据从一个系统快速移动到远程系统存储器中，而不对操作系统造成任何影响，这样就不需要用到多少计算机的处理功能。它消除了外部存储器复制和文本交换操作，因而能解放内存带宽和CPU周期用于改进应用系统性能。
R-IOV 技术是一种基于硬件的虚拟化解决方案，可提高性能和可伸缩性。SR-IOV 标准允许在虚拟机之间高效共享 PCIe（Peripheral Component Interconnect Express，快速外设组件互连）设备，并且它是在硬件中实现的，可以获得能够与本机性能媲美的 I/O 性能。SR-IOV 规范定义了新的标准，根据该标准，创建的新设备可允许将虚拟机直接连接到 I/O 设备。

具有 SR-IOV 功能的设备可以利用以下优点：
性能－从虚拟机环境直接访问硬件。
成本降低－节省的资本和运营开销包括：
节能减少了适配器数量简化了布线
减少了交换机端口
最牛逼的计算机是：
天河二号
运算速率：54.9PFLOPS 理论
33.86PFLOPS 实际
第四章超级计算机体系架构
1、从榜单看架构
高性能系统性能指标 – 理论峰值
FLOPS：浮点运算每秒
实测峰值
Linapck测试采用主元高斯消去法求解双精度稠密线性代数方程组
提高效率：优化网络优化测试程序的编译与设置
优化内存的配置与容量优化运行参数及系统参数
加速比定律：在并行计算系统，并行算法（并行程序）的执行速度相对于串行算法（串行程序）加快的倍数，就是该并行算法（并行程序）的加速比，加速比是衡量”并行收益“的重要指标
2、主流体系架构Cluster机群
应用软件层系统软件层 IT核心硬件层基础设施层
超级计算机作业的工作流程：
1、本地建模 2、算例上传作业提交 3、作业运行 4、数据访问与存储 5、系统管理与用户管理
超级计算机中的关键技术：
计算系统基础设施功能节点存储系统网络系统操作系统管理调度软件并行环境应用软件
计算系统主流方案：胖节点+刀片集群
刀片服务器优势：密度高功耗低布线

简单可靠性高管理方便机房要求低
胖节点：单机性能高内存容量大更高本地IO 丰富的扩展能力
InfiniBand是业界延迟最低、带宽最高的网络，是高性能计算集群系统的标准
并行存储系统的设计原则：高性能高可靠性易用易管理高可用性高可扩展性
ParaStor重建无人值守更快重建速度
操作系统—Linux企业版：开源高效多用户界面友好兼容性强
3、超级计算加速器
GPU节点
·更高的性能更低的功耗更高的每瓦性能和每瓦峰值更高的性价比
·架构不平衡瓶颈可能较多应用支持少编程复杂
晶体管分配
CPU:计算单元少，频率高；逻辑控制复杂，分支预测；多级、大面积缓存；线程少；
多级缓存减少访存延时
GPU:计算单元多，频率低；逻辑控制简单，共用控制单元；多类型存储、缓存面积小；
线程居多，成千上万；线程快速切换减少访存延时
4、基础设施

17. Top500排名的依据是什么？
答：High Performance Linpack(HPL)测试结果
18.Write codes to create a thread to compute the sum of theelements of an array.
答：Create a thread to complete the sum of the elements of an array.
struct arguments {
double*array;
intsize;
double*sum;
}
int main(int argc, char *argv) {
double array[100];
double sum;
pthread_t worker_thread;
struct arguments *arg;
arg = (struct arguments *)calloc(1,
sizeof(structarguments));
arg->array = array;
arg->size=100;
arg->sum = ∑
if (pthread_create(&worker_thread, NULL,
do_work, (void *)arg)) {
fprintf(stderr,”Error while creating thread\n”);
exit(1);
}
...
}
void *do_work(void *arg) {
struct arguments *argument;
int i, size;
double *array;
double *sum;
argument = (struct arguments*)arg;
size = argument->size;
array = argument->array;
sum = argument->sum;
*sum = 0;
for (i=0;i<size;i++)
*sum += array[i];
return NULL;
}

日	一	二	三	四	五	六

备用

扫二维码下载贴吧客户端