第1回 配信講義 計算科学技術特論A(2025)

1.8K Views

April 15, 25

スライド概要

第2回 4 月 17日 MPI の基礎
プログラム高速化の基礎知識、並列化プログラミング(MPI、OpenMP)の基礎知識、およびプログラム高速化の応用事例の座学を通して、計算科学で必要な高性能計算技術の基礎の習得を目指す。

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

内容に関する質問は [email protected] まで 第2回 MPIの基礎 名古屋大学情報基盤センター 片桐孝洋 1 2025年度 計算科学技術特論A

2.

講義日程と内容について  2025年度 計算科学技術特論A(木曜:13:00-14:30 ) 第1回:プログラム高速化の基 礎、2025年4月10日  イントロダクション、ループアンローリング、キャッシュブロック化、 数値計算ライブラリの利用、その他  第2回:MPIの基礎、2025年4月17日  並列処理の基礎、MPIインターフェース、MPI通信の種類、その他  第3回:OpenMPの基礎、2025年4月24日  OpenMPの基礎、利用方法、その他  第4回:Hybrid 並列化技法(MPI 、OpenMP応用とOpenACC)、2025年5月8日  背景、Hybrid並列化の適用事例、利用上の注意、その他  第5回:GPUコンピューティングと大規模学習への展開、2025年5月15日  プログラムの性能ボトルネック に関する考えかた(I/O、単体性能 (演算機ネック、メモリネック)、並列性能(バランス))、性能プロファイル、 機械学習におけるHPC、「富岳NEXT」とGPUコンピューティング、ほか  2 2025年度 計算科学技術特論A

3.

参考書  「計算科学のためのHPC技術1 」 下司雅章 (編集), 片桐孝洋 , 中田真秀, 渡辺宙志, 山 本有作, 吉井範行, Jaewoon Jung, 杉田 有治, 石村和 也, 大石進一, 関根晃太, 森倉悠介, 黒田久泰,著  出版社: 大阪大学出版会 (2017/4/3)  ISBN-10: 4872595866, ISBN-13: 978-4872595864  発売日: 2017/4/3  【本書の特徴】  計算科学に必要なHPC技術について、基礎的な事 項を解説している  片桐担当(1章~5章)  プログラム高速化の基礎、MPIの基礎、OpenMP の基礎、Hybrid並列化技法(MPIとOpenMPの応 用)、プログラム高速化の応用  3 2025年度 計算科学技術特論A

4.

参考書  The Art of High Performance Computing for Computational Science, Vol. 1 Editor: Masaaki Geshi  出版社: Springer, Singapore  Hardcover ISBN 978-981-13-6193-7  発売日: 2019/5  【本書の特徴】  「計算科学のためのHPC技術1」の英語版  片桐担当(1章~5章)  High-Performance Computing Basics(pp. 1-25), Basics of MPI Programming (pp. 27-44), Basics of OpenMP Programming (pp. 45-59), Hybrid Parallelization Techniques (pp. 61-68), Application of Techniques for High-Performance Computing (pp. 69-81)  4 2025年度 計算科学技術特論A

5.

教科書(演習書)  「スパコンプログラミング入門 -並列処理とMPIの学習-」  片桐 孝洋 著、  東大出版会、ISBN978-4-13-062453-4、 発売日:2013年3月12日、判型:A5, 200頁  【本書の特徴】  C言語で解説  C言語、Fortran90言語のサンプルプログラムが付属  数値アルゴリズムは、図でわかりやすく説明  本講義の内容を全てカバー  内容は初級。初めて並列数値計算を学ぶ人向けの入門書 5 2025年度 計算科学技術特論A

6.

並列プログラミングの基礎 6 2025年度 計算科学技術特論A

7.

並列プログラミングとは何か?  逐次実行のプログラム(実行時間T )を、p台の計算機を 使って、T / p にすること。 T T / p  素人考えでは自明。  実際は、できるかどうかは、対象処理の内容 (アルゴリズム)で 大きく 難しさが違う  アルゴリズム上、絶対に並列化できない部分の存在  通信のためのオーバヘッドの存在  通信立ち上がり時間  データ転送時間 7 2025年度 計算科学技術特論A

8.

並列計算機の分類  Michael J. Flynn教授(スタンフォード大)の分類(1966)  単一命令・単一データ流 (SISD, Single Instruction Single Data Stream)  単一命令・複数データ流 (SIMD, Single Instruction Multiple Data Stream)  複数命令・単一データ流 (MISD, Multiple Instruction Single Data Stream)  複数命令・複数データ流 (MIMD, Multiple Instruction Multiple Data Stream) 最近のCPUや計算機システムはMIMD さらに複雑になりつつある(ヘテロジニアス化) 8 2025年度 計算科学技術特論A

9.

並列計算機のメモリ型による分類 1. 共有メモリ型 (SMP、 Symmetric Multiprocessor) 2. 分散メモリ型 (メッセージパッシング) 3. 分散共有メモリ型 (DSM、 Distributed Shared Memory) 9 2025年度 計算科学技術特論A

10.

並列計算機のメモリ型による分類 4. 共有・非対称メモリ型 (ccNUMA、 Cache Coherent NonUniform Memory Access) スーパーコンピュータ「富岳」 の計算機アーキテクチャ  スーパーコンピュータ「富岳」  名大 スーパーコンピュータ「不老」 TypeⅠサブシステム (Fujitsu PRIMEHPC FX1000) Source:「高性能・高密度実装・低消費電力を実現するスーパーコンピュータ「富岳」のCPU」 A64FX https://www.fujitsu.com/jp/about/resources/publications/technicalreview/202003/article03.html 10 2025年度 計算科学技術特論A

11.

並列計算機の分類とMPIとの関係  MPIは分散メモリ型計算機を想定  MPIは、分散メモリ間の通信を定めているため  MPIは共有メモリ型計算機でも動く  MPIは、共有メモリ内でもプロセス間通信ができるため  MPIを用いたプログラミングモデルは、 (基本的に)SIMD  MPIは、(基本的には)プログラムが1つ(=命令と 等価)しかないが、データ(配列など)は複数あるため 11 2025年度 計算科学技術特論A

12.

並列プログラミングのモデル  実際の並列プログラムの挙動はMIMD  アルゴリズムを考えるときは<SIMDが基本>  複雑な挙動は理解できないので 12 2025年度 計算科学技術特論A

13.

並列プログラミングのモデル  MIMD上での並列プログラミングのモデル 1. SPMD(Single Program Multiple Data)  1つの共通のプログラムが、並列処理開始時に、 全プロセッサ上で起動する  MPI(バージョン1)のモデル 2. 13 Master / Worker(Master / Slave)  1つのプロセス(Master)が、複数のプロセス(Worker)を 管理(生成、消去)する。 2025年度 計算科学技術特論A

14.

並列プログラムの種類  マルチプロセス  MPI (Message Passing Interface)  HPF (High Performance Fortran)  自動並列化Fortranコンパイラ  ユーザがデータ分割方法を明示的に記述 プロセスとスレッドの違い •メモリを意識するかどうかの違い •別メモリは「プロセス」 •同一メモリは「スレッド」  マルチスレッド  Pthread (POSIX スレッド)  Solaris Thread (Sun Solaris OS用)  NT thread (Windows NT系、Windows95以降)  スレッドの Fork(分離) と Join(融合) を明示的に記述  Java  言語仕様としてスレッドを規定  OpenMP  14 ユーザが並列化指示行を記述 マルチプロセスとマルチスレッドは 共存可能 →ハイブリッドMPI/OpenMP実行 2025年度 計算科学技術特論A

15.

並列処理の実行形態(1)  データ並列  データを分割することで並列化する。  データの操作(=演算)は同一となる。 SIMDの 考え方と同じ  データ並列の例:行列-行列積  1 2 3   9 8 7   1 * 9 + 2 * 6 + 3 * 3 1 * 8 + 2 * 5 + 3 * 2 1 * 7 + 2 * 4 + 3 *1      =  4 * 9 + 5 * 6 + 6 * 3 4 * 8 + 5 * 5 + 6 * 2 4 * 7 + 5 * 4 + 6 *1  4 5 6   6 5 4   7 * 9 + 8 * 6 + 9 * 3 7 * 8 + 8 * 5 + 9 * 2 7 * 7 + 8 * 4 + 9 *1   7 8 9 3 2 1      ●並列化 2 3   CPU1  4 5 6  CPU2  7 8 9    CPU0  1 15 全CPUで共有 9 8 7  1 * 9 + 2 * 6 + 3 * 3 1 * 8 + 2 * 5 + 3 * 2 1 * 7 + 2 * 4 + 3 *1   =  4 * 9 + 5 * 6 + 6 * 3 4 * 8 + 5 * 5 + 6 * 2 4 * 7 + 5 * 4 + 6 *1  6 5 4  7 * 9 + 8 * 6 + 9 * 3 7 * 8 + 8 * 5 + 9 * 2 7 * 7 + 8 * 4 + 9 *1    3 2 1  並列に計算:初期データは異なるが演算は同一  2025年度 計算科学技術特論A

16.

並列処理の実行形態(2)  タスク並列  タスク(ジョブ)を分割することで並列化する。  データの操作(=演算)は異なるかもしれない。  タスク並列の例:カレーを作る 仕事1:野菜を切る  仕事2:肉を切る  仕事3:水を沸騰させる  仕事4:野菜・肉を入れて煮込む  仕事5:カレールゥを入れる  ●並列化 仕事1 仕事2 仕事4 仕事3 16 仕事5 時間 2025年度 計算科学技術特論A

17.

MPIの特徴  メッセージパッシング用のライブラリ規格の1つ   メッセージパッシングのモデルである コンパイラの規格、特定のソフトウエアやライブラリを指すものではない!  分散メモリ型並列計算機で並列実行に向く  大規模計算が可能   1プロセッサにおけるメモリサイズやファイルサイズの制約を打破可能 プロセッサ台数の多い並列システム(MPPシステム、Massively Parallel Processingシステム)を用いる実行に向く   1プロセッサ換算で膨大な実行時間の計算を、短時間で処理可能 移植が容易  API(Application Programming Interface)の標準化  スケーラビリティ、性能が高い   17 通信処理をユーザが記述することによるアルゴリズムの最適化が可能 プログラミングが難しい(敷居が高い) 2025年度 計算科学技術特論A

18.

MPIの経緯(1/2)  MPIフォーラム(http://mpi-forum.org/)が仕様策定  1994年5月1.0版(MPI-1)  1995年6月1.1版  1997年7月1.2版、 および 2.0版(MPI-2)  米国アルゴンヌ国立研究所、およびミシシッピ州立大学 で開発  MPI-2 では、以下を強化:  並列I/O  C++、Fortran 90用インターフェース  動的プロセス生成/消滅  主に、並列探索処理などの用途 18 2025年度 計算科学技術特論A

19.

MPIの経緯 MPI3.1  以下のページで経緯・ドキュメントを公開中  https://www.mpi-forum.org/docs/mpi-3.1/mpi31-report.pdf (Implementation Status, as of June 4, 2015)  注目すべき機能  ノン・ブロッキングの集団通信機能 (MPI_IALLREDUCE、など)  など 19 2025年度 計算科学技術特論A

20.

MPIの経緯 MPI4.1  以下のページで経緯を公開中(November 2, 2023)  https://www.mpi-forum.org/docs/mpi-4.1/mpi41-report.pdf  MPI Version 4 ( June 9, 2021)  カウントパラメータにintまたはINTEGERを使用する際の制限に 対処するため、多くのルーチンに大容量カウントバージョンを追 加  Persistent collectives  Partitioned communications  MPIの代替初期化方法  アプリケーション情報アサーション  エラー処理の定義の改善 20 2025年度 計算科学技術特論A

21.

MPIの実装  MPICH(エム・ピッチ) 米国アルゴンヌ国立研究所が開発  LAM(Local Area Multicomputer)  ノートルダム大学が開発  OpenMPI ☞OpenMPではない  FT-MPI、LA-MPI、LAM/MPI、PACX-MPIの 統合プロジェクト  MVAPICH(エムバ・ピッチ)  オハイオ州立大学が開発  21 2025年度 計算科学技術特論A

22.

MPIによる通信  郵便物の郵送に同じ  郵送に必要な情報: 1. 2. 3. 4. 5. 自分の住所、送り先の住所 中に入っているものはどこにあるか 中に入っているものの分類 中に入っているものの量 (荷物を複数同時に送る場合の)認識方法(タグ)  MPIでは: 1. 2. 3. 4. 5. 22 自分の認識ID、および、送り先の認識ID データ格納先のアドレス データ型 データ量 タグ番号 2025年度 計算科学技術特論A

23.

MPI関数  システム関数  MPI_Init; MPI_Comm_rank; MPI_Comm_size; MPI_Finalize;  1対1通信関数  ブロッキング型  MPI_Send; MPI_Recv;  ノンブロッキング型  MPI_Isend; MPI_Irecv;  1対全通信関数  MPI_Bcast  集団通信関数  MPI_Reduce; MPI_Allreduce; MPI_Barrier;  時間計測関数  MPI_Wtime 23 2025年度 計算科学技術特論A

24.

コミュニケータ  MPI_COMM_WORLDは、コミュニケータとよばれる概念 を保存する変数  コミュニケータは、操作を行う対象のプロセッサ群を 定める  初期状態では、0番~numprocs –1番までのプロセッサ が、1つのコミュニケータに割り当てられる  この名前が、“MPI_COMM_WORLD”  プロセッサ群を分割したい場合、MPI_Comm_split 関数 を利用  メッセージを、一部のプロセッサ群に 放送するときに利用  “マルチキャスト”で利用 24 2025年度 計算科学技術特論A

25.

性能評価指標 並列化の尺度 25 2025年度 計算科学技術特論A

26.

性能評価指標-台数効果  台数効果 SP = TS / TP (0 ≤ S p) TP :P台での実行時間  TS :逐次の実行時間、  P台用いて SP = P のとき、理想的な(ideal)速度向上  P台用いて SP > P のとき、スーパリニア・スピードアップ  式:  主な原因は、並列化により、データアクセスが局所化されて、 キャッシュヒット率が向上することによる高速化  並列化効率 EP = SP / P ×100 (0 ≤ Ep) [%]  飽和性能  式:  速度向上の限界  Saturation、「さちる」 26 P 2025年度 計算科学技術特論A

27.

アムダールの法則 K とする。 そのうち、並列化ができる割合を α とする。  このとき、台数効果は以下のようになる。  逐次実行時間を SP = K /(Kα / P + K(1−α)) = 1/(α / P + (1−α)) = 1/(α(1/ P −1) +1)  上記の式から、たとえ無限大の数のプロセッサを使っても (P→∞)、台数効果は、高々 1/(1-α) である。 (アムダールの法則)  全体の90%が並列化できたとしても、無限大の数のプロセッサ をつかっても、 1/(1-0.9) = 10 倍 にしかならない! →高性能を達成するためには、少しでも並列化効率を上げる 実装をすることがとても重要である 27 2025年度 計算科学技術特論A

28.

アムダールの法則の直観例 並列化できない部分(1ブロック) 並列化できる部分(8ブロック) ●逐次実行 =88.8%が並列化可能 ●並列実行(4並列) 9/3=3倍 ●並列実行(8並列) 9/2=4.5倍 ≠ 6倍 28 2025年度 計算科学技術特論A

29.

基本演算  逐次処理では、「データ構造」が重要  並列処理においては、「データ分散方法」が重要 になる! 1. 2. 3. 4. 各PEの「演算負荷」を均等にする  ロード・バランシング: 並列処理の基本操作の一つ  粒度調整 各PEの「利用メモリ量」を均等にする 演算に伴う通信時間を短縮する 各PEの「データ・アクセスパターン」を高速な方式にする (=逐次処理におけるデータ構造と同じ)  行列データの分散方法 <次元レベル>: 1次元分散方式、2次元分散方式  <分割レベル>: ブロック分割方式、サイクリック(循環)分割方式  29 2025年度 計算科学技術特論A

30.

1次元分散 N/4行 PE=0 N/4行 PE=1 N/4行 PE=2 N/4行 PE=3 •(行方向) ブロック分割方式 •(Block, *) 分散方式 N列 1行 •(行方向) サイクリック分割方式 •(Cyclic, *) 分散方式 2行 •(行方向)ブロック・サイクリック分割方式 •(Cyclic(2), *) 分散方式 この例の「2」: <ブロック幅>とよぶ 30 2025年度 計算科学技術特論A

31.

2次元分散 N/2 N/2 N/2 PE=0 PE=1 N/2 PE=2 PE=3 •ブロック・ブロック分割方式 •(Block, Block)分散方式 •サイクリック・サイクリック分割方式 •(Cyclic, Cyclic)分散方式 0 1 0 1 0 1 0 1 2 3 2 3 2 3 2 3 0 1 0 1 0 1 0 1 2 3 2 3 2 3 2 3 0 1 0 1 0 1 0 1 2 3 2 3 2 3 2 3 0 0 1 1 0 0 1 1 0 1 0 1 0 1 0 1 0 0 1 1 0 0 1 1 2 3 2 3 2 3 2 3 2 2 3 3 2 2 3 3 2 2 3 3 2 2 3 3 0 0 1 1 0 0 1 1 0 0 1 1 0 0 1 1 2 2 3 3 2 2 3 3 2 2 3 3 2 2 3 3 •二次元ブロック・サイクリック分割方式 •(Cyclic(2), Cyclic(2))分散方式 2025年度 計算科学技術特論A 31

32.

ベクトルどうしの演算  以下の演算 z = a x+ y  ここで、αはスカラ、z、x、y はベクトル  どのようなデータ分散方式でも並列処理が可能  ただし、スカラ α は全PEで所有する。  ベクトルはO(n)のメモリ領域が 必要なのに対し、スカラは O(1)のメモリ領域で大丈夫。 →スカラメモリ領域は無視可能  計算量:O(N/P)  あまり面白くない = z 32 2025年度 計算科学技術特論A + α x y

33.

行列とベクトルの積  <行方式>と<列方式>がある。 … … …  <データ分散方式>と<方式>組のみ合わせがあり、少し面白い ①② ①② ①② ① ① ① ② ② ② … = = for(i=0;i<n;i++){ y[i]=0.0; for(j=0;j<n;j++){ y[i] += a[i][j]*x[j]; } } for(j=0; j<n; j++) y[j]=0.0; for(j=0; j<n; j++) { for (i=0; i<n; i++) { y[i] += a[i][j]*x[j]; } } <行方式>: 自然な実装 C言語向き 33 <列方式>: Fortran言語向き 2025年度 計算科学技術特論A

34.

行列とベクトルの積 <行方式の場合> <行方向分散方式> :行方式に向く分散方式 PE=0 PE=0 PE=1 PE=1 = PE=2 PE=3 PE=2 PE=3 右辺ベクトルを MPI_Allgather関数 を利用し、全PEで所有する 各PE内で行列ベクトル積を行う <列方向分散方式> :ベクトルの要素すべてがほしいときに向く = 各PE内で行列-ベクトル積 を行う 34 + + + MPI_Reduce関数で総和を求める (※ある1PEにベクトルすべてが集まる) 2025年度 計算科学技術特論A

35.

行列とベクトルの積 <列方式の場合> <行方向分散方式> :無駄が多く使われない PE=0 PE=0 PE=1 PE=1 PE=2 = + + + = PE=2 PE=3 PE=3 右辺ベクトルを MPI_Allgather関数 を利用して、全PEで所有する 結果をMPI_Reduce関数により 総和を求める <列方向分散方式> :列方式に向く分散方式 = 各PE内で行列-ベクトル積 を行う 35 + + + MPI_Reduce関数で総和を求める (※ある1PEにベクトルすべてが集まる) 2025年度 計算科学技術特論A

36.

基本的なMPI関数 送信、受信のためのインタフェース 36 2025年度 計算科学技術特論A

37.

略語とMPI用語  MPIは「プロセス」間の通信を行います。  プロセスは、HT(ハイパースレッド)などを使わなければ、 「プロセッサ」(もしくは、コア)に1対1で割り当てられます。  今後、「MPIプロセス」と書くのは長いので、ここでは PE(Processer Elementsの略)と書きます。  ただし用語として「PE」は、現在あまり使われていません。  ランク(Rank) 各「MPIプロセス」の「識別番号」のこと。  通常MPIでは、MPI_Comm_rank関数で設定される変数 (サンプルプログラムではmyid)に、0~全PE数-1 の数値が入る  世の中の全MPIプロセス数を知るには、MPI_Comm_size関数を使う。 (サンプルプログラムでは、numprocs に、この数値が入る)  37 2025年度 計算科学技術特論A

38.

ランクの説明図 38 MPI プログラム MPI プログラム MPI プログラム MPI プログラム ランク0 ランク1 ランク2 ランク3 2025年度 計算科学技術特論A

39.

C言語インターフェースと Fortranインターフェースの違い  C版は、 整数変数ierr が戻り値 ierr = MPI_Xxxx(….);  Fortran版は、最後に整数変数ierrが引数 call MPI_XXXX(…., ierr)  システム用配列の確保の仕方  C言語 MPI_Status istatus;  Fortran言語 integer istatus(MPI_STATUS_SIZE) 39 2025年度 計算科学技術特論A

40.

C言語インターフェースと Fortranインターフェースの違い  MPIにおける、データ型の指定  C言語 MPI_CHAR (文字型) 、 MPI_INT (整数型)、 MPI_FLOAT (実数型)、MPI_DOUBLE(倍精度実数型)  Fortran言語 MPI_CHARACTER (文字型) 、MPI_INTEGER (整数型)、 MPI_REAL (実数型)、MPI_DOUBLE_PRECISION(倍精 度実数型) 、MPI_COMPLEX(複素数型)  以降は、C言語インタフェースで説明する 40 2025年度 計算科学技術特論A

41.

基礎的なMPI関数―MPI_Recv(1/2)  ierr = MPI_Recv(recvbuf, icount, idatatype, isource, itag, icomm, istatus);  recvbuf : 受信領域の先頭番地を指定する。  icount : 整数型。受信領域のデータ要素数を指定する。  idatatype : 整数型。受信領域のデータの型を指定する。  MPI_CHAR (文字型) 、MPI_INT (整数型)、 MPI_FLOAT (実数型)、 MPI_DOUBLE(倍精度実数型)  isource : 整数型。受信したいメッセージを送信するPEの ランクを指定する。  任意のPEから受信したいときは、MPI_ANY_SOURCE を指定する。 41 2025年度 計算科学技術特論A

42.

基礎的なMPI関数―MPI_Recv(2/2)  itag : 整数型。受信したいメッセージに付いているタグの値を指定。  任意のタグ値のメッセージを受信したいときは、MPI_ANY_TAG を指定。  icomm : 整数型。PE集団を認識する番号であるコミュニケータ を指定。  通常ではMPI_COMM_WORLD を指定すればよい。  istatus : MPI_Status型(整数型の配列)。受信状況に関する 情報が入る。かならず専用の型宣言をした配列を確保すること。  要素数がMPI_STATUS_SIZEの整数配列が宣言される。  受信したメッセージの送信元のランクが istatus[MPI_SOURCE]、 タグが istatus[MPI_TAG] に代入される。  C言語: MPI_Status istatus;  Fortran言語: integer istatus(MPI_STATUS_SIZE) ierr(戻り値) : 整数型。エラーコードが入る。  42 2025年度 計算科学技術特論A

43.

基礎的なMPI関数―MPI_Send  ierr = MPI_Send(sendbuf, icount, idatatype, idest, itag, icomm);  sendbuf : 送信領域の先頭番地を指定  icount : 整数型。送信領域のデータ要素数を指定  idatatype : 整数型。送信領域のデータの型を指定  idest : 整数型。送信したいPEのicomm内でのランクを指定  itag : 整数型。受信したいメッセージに付けられたタグの値を指定  icomm : 整数型。プロセッサー集団を認識する番号である コミュニケータを指定  ierr (戻り値) : 整数型。エラーコードが入る。 43 2025年度 計算科学技術特論A

44.

Send-Recvの概念(1対1通信) PE0 PE1 PE2 PE3 MPI_Send MPI_Recv 44 2025年度 計算科学技術特論A

45.

基礎的なMPI関数―MPI_Bcast  ierr = MPI_Bcast(sendbuf, icount, idatatype, iroot, icomm);  sendbuf : 送信および受信領域の先頭番地を指定する。  icount : 整数型。送信領域のデータ要素数を指定する。  idatatype : 整数型。送信領域のデータの型を指定する。  iroot : 整数型。送信したいメッセージがあるPEの番号を 指定する。全PEで同じ値を指定する必要がある。  icomm : 整数型。PE集団を認識する番号である コミュニケータを指定する。  ierr (戻り値) : 整数型。エラーコードが入る。 45 2025年度 計算科学技術特論A

46.

MPI_Bcastの概念(集団通信) PE0 MPI_Bcast() PE1 MPI_Bcast() PE3 MPI_Bcast() MPI_Bcast() 全PEが 関数を呼ぶこと iroot 46 PE2 2025年度 計算科学技術特論A

47.

リダクション演算  <操作>によって<次元>を減少 (リダクション)させる処理  例: 内積演算 ベクトル(n次元空間) → スカラ(1次元空間)  リダクション演算は、通信と計算を必要とする  集団通信演算(collective communication operation) と呼ばれる  演算結果の持ち方の違いで、2種の インタフェースが存在する 47 2025年度 計算科学技術特論A

48.

リダクション演算  演算結果に対する所有PEの違い  MPI_Reduce関数  リダクション演算の結果を、ある一つのPEに所有させる PE0 PE0 PE1 操作 操作 PE2 PE0  MPI_Allreduce関数  リダクション演算の結果を、全てのPEに所有させる PE0 PE1 48 PE0 操作 PE2 2025年度 PE1 計算科学技術特論A PE2

49.

基礎的なMPI関数―MPI_Reduce  ierr = MPI_Reduce(sendbuf, recvbuf, icount, idatatype, iop, iroot, icomm);  sendbuf : 送信領域の先頭番地を指定する。  recvbuf : 受信領域の先頭番地を指定する。iroot で指定した PEのみで書き込みがなされる。 送信領域と受信領域は、同一であってはならない。 すなわち、異なる配列を確保しなくてはならない。  icount : 整数型。送信領域のデータ要素数を指定する。  idatatype : 整数型。送信領域のデータの型を指定する。  (Fortran)<最小/最大値と位置>を返す演算を指定す る場合は、MPI_2INTEGER(整数型)、 MPI_2REAL (単精度型)、MPI_2DOUBLE_PRECISION(倍精度型) 、 を指定する。 49 2025年度 計算科学技術特論A

50.

基礎的なMPI関数―MPI_Reduce  iop : 整数型。演算の種類を指定する。  MPI_SUM (総和)、 MPI_PROD (積)、 MPI_MAX (最大)、 MPI_MIN (最小)、 MPI_MAXLOC (最大と位置)、 MPI_MINLOC (最小と位置) など。  iroot : 整数型。結果を受け取るPEのicomm 内で のランクを指定する。全てのicomm 内のPEで同じ 値を指定する必要がある。  icomm : 整数型。PE集団を認識する番号であるコ ミュニケータを指定する。  ierr : 整数型。 エラーコードが入る。 50 2025年度 計算科学技術特論A

51.

MPI_Reduceの概念(集団通信) PE0 MPI_Reduce() PE1 PE2 PE3 MPI_Reduce() MPI_Reduce() MPI_Reduce() データ3 データ4 iroot データ1 データ2 iop(指定された演算) 51 2025年度 計算科学技術特論A

52.

基礎的なMPI関数―MPI_Allreduce  ierr = MPI_Allreduce(sendbuf, recvbuf, icount, idatatype, iop, icomm);  sendbuf : 送信領域の先頭番地を指定する。  recvbuf : 受信領域の先頭番地を指定する。iroot で指定した PEのみで書き込みがなされる。 送信領域と受信領域は、同一であってはならない。 すなわち、異なる配列を確保しなくてはならない。  icount : 整数型。送信領域のデータ要素数を指定する。  idatatype : 整数型。送信領域のデータの型を指定する。  最小値や最大値と位置を返す演算を指定する場合は、 MPI_2INT(整数型)、MPI_2FLOAT (単精度型)、 MPI_2DOUBLE(倍精度型) を指定する。 52 2025年度 計算科学技術特論A

53.

基礎的なMPI関数―MPI_Allreduce  iop : 整数型。演算の種類を指定する。  MPI_SUM (総和)、 MPI_PROD (積)、 MPI_MAX (最大)、MPI_MIN (最小)、 MPI_MAXLOC (最 大と位置)、 MPI_MINLOC (最小と位置) など。  icomm : 整数型。PE集団を認識する番号であるコ ミュニケータを指定する。  ierr : 整数型。 エラーコードが入る。 53 2025年度 計算科学技術特論A

54.

MPI_Allreduceの概念(集団通信) PE0 PE1 PE2 PE3 MPI_Allreduce() MPI_Allreduce() MPI_Allreduce() MPI_Allreduce() データ0 データ1 データ2 データ3 iop(指定された演算) 演算済みデータの放送 54 2025年度 計算科学技術特論A

55.

リダクション演算  性能について  リダクション演算は、1対1通信に比べ遅い  プログラム中で多用すべきでない!  MPI_Allreduce は MPI_Reduce に比べ遅い  MPI_Allreduce は、放送処理が入る。  なるべく、MPI_Reduce を使う。 55 2025年度 計算科学技術特論A

56.

行列の転置 A が(Block,*)分散されているとする。 T  行列 A の転置行列 A を作るには、MPIでは  行列 次の2通りの関数を用いる  MPI_Gather関数 a b c a b c  MPI_Scatter関数 a b c 56 a b c 2025年度 計算科学技術特論A 集めるメッセージ サイズが各PEで 均一のとき使う 集めるサイズが各PEで 均一でないときは: MPI_GatherV関数 MPI_ScatterV関数

57.

基礎的なMPI関数―MPI_Gather  ierr = MPI_Gather (sendbuf, isendcount, isendtype, recvbuf, irecvcount, irecvtype, iroot, icomm);  sendbuf : 送信領域の先頭番地を指定する。  isendcount: 整数型。送信領域のデータ要素数を指定する。  isendtype : 整数型。送信領域のデータの型を指定する。  recvbuf : 受信領域の先頭番地を指定する。iroot で指定し たPEのみで書き込みがなされる。  なお原則として、送信領域と受信領域は、同一であってはならない。 すなわち、異なる配列を確保しなくてはならない。  irecvcount: 整数型。受信領域のデータ要素数を指定する。  この要素数は、1PE当たりの送信データ数を指定すること。  MPI_Gather 関数では各PEで異なる数のデータを収集することは できないので、同じ値を指定すること。 57 2025年度 計算科学技術特論A

58.

基礎的なMPI関数―MPI_Gather  irecvtype : 整数型。受信領域のデータ型を指定 する。  iroot : 整数型。収集データを受け取るPEの icomm 内でのランクを指定する。  全てのicomm 内のPEで同じ値を指定する 必要がある。  icomm : 整数型。PE集団を認識する番号である コミュニケータを指定する。  ierr : 整数型。エラーコードが入る。 58 2025年度 計算科学技術特論A

59.

MPI_Gatherの概念(集団通信) PE0 PE1 PE2 PE3 MPI_Gather() MPI_Gather() MPI_Gather() MPI_Gather() データC データD iroot データA データB 収集処理 データA データB データC データD 59 2025年度 計算科学技術特論A

60.

基礎的なMPI関数―MPI_Scatter  ierr = MPI_Scatter ( sendbuf, isendcount, isendtype, recvbuf, irecvcount, irecvtype, iroot, icomm);  sendbuf : 送信領域の先頭番地を指定する。  isendcount: 整数型。送信領域のデータ要素数を指定する。  この要素数は、1PE当たりに送られる送信データ数を指定すること。  MPI_Scatter 関数では各PEで異なる数のデータを分散することはで きないので、同じ値を指定すること 。  isendtype : 整数型。送信領域のデータの型を指定する。 iroot で指定したPEのみ有効となる。  recvbuf : 受信領域の先頭番地を指定する。  なお原則として、送信領域と受信領域は、同一であってはならない。 すなわち、異なる配列を確保しなくてはならない。  irecvcount: 60 整数型。受信領域のデータ要素数を指定する。 2025年度 計算科学技術特論A

61.

基礎的なMPI関数―MPI_Scatter  irecvtype : 整数型。受信領域のデータ型を指定 する。  iroot : 整数型。収集データを受け取るPEの icomm 内でのランクを指定する。  全てのicomm 内のPEで同じ値を指定する必要 がある。  icomm : 整数型。PE集団を認識する番号である コミュニケータを指定する。  ierr : 整数型。エラーコードが入る。 61 2025年度 計算科学技術特論A

62.

MPI_Scatterの概念(集団通信) PE0 PE1 PE2 PE3 MPI_Scatter() MPI_Scatter() MPI_Scatter() MPI_Scatter() iroot データA データB データC データD 分配処理 データA 62 データB 2025年度 データC 計算科学技術特論A データD

63.

MPIプログラム実例 63 2025年度 計算科学技術特論A

64.

MPIの起動  MPIを起動するには 1. MPIをコンパイルできるコンパイラでコンパイル  実行ファイルは a.out 2. とする(任意の名前を付けられます) 以下のコマンドを実行  インタラクティブ実行では、以下のコマンドを直接入力  バッチジョブ実行では、ジョブスクリプトファイル中に記載 $ mpirun –np 8 ./a.out MPI起動 コマンド MPIの 実行ファイル 名 64 MPI プロセス 数 2025年度 ※スパコンのバッチジョブ実行 では、MPIプロセス数は専用の 指示文で指定する場合があります。 その場合は以下になることがあります。 $mpirun ./a.out 計算科学技術特論A

65.

MPIの起動 mpirun -np 4 ./a.out a.out 65 a.out 2025年度 a.out 計算科学技術特論A a.out

66.
[beta]
並列版Helloプログラムの説明(C言語)
#include <stdio.h>
#include <mpi.h>

このプログラムは、全PEで起動される

void main(int argc, char* argv[]) {
int
int

MPIの初期化

myid, numprocs;
ierr, rc;

自分のID番号を取得
:各PEで値は異なる

ierr = MPI_Init(&argc, &argv);
ierr = MPI_Comm_rank(MPI_COMM_WORLD, &myid);
ierr = MPI_Comm_size(MPI_COMM_WORLD, &numprocs);
printf("Hello parallel world! Myid:%d ¥n", myid);
rc = MPI_Finalize();
exit(0);
}
66

全体のプロセッサ台数
を取得
:各PEで値は同じ

MPIの終了
2025年度

計算科学技術特論A

67.

変数myidの説明図 同じ変数名でも 別メモリ上 に別変数で確保 67 MPI プログラム MPI プログラム MPI プログラム MPI プログラム ランク0 myid=0 ランク1 myid=1 ランク2 myid=2 ランク3 myid=3 2025年度 計算科学技術特論A

68.

並列版Helloプログラムの説明(Fortran言語) このプログラムは、全PEで起動される program main include 'mpif.h' common /mpienv/myid,numprocs integer myid, numprocs integer ierr MPIの初期化 自分のID番号を取得 :各PEで値は異なる call MPI_INIT(ierr) call MPI_COMM_RANK(MPI_COMM_WORLD, myid, ierr) call MPI_COMM_SIZE(MPI_COMM_WORLD, numprocs, ierr) print *, "Hello parallel world! Myid:", myid call MPI_FINALIZE(ierr) stop end 68 全体のプロセッサ台数 を取得 :各PEで値は同じ MPIの終了 2025年度 計算科学技術特論A

69.

プログラム出力例  4プロセス実行の出力例 Hello parallel world! Myid:0 Hello parallel world! Myid:3 Hello parallel world! Myid:1 Hello parallel world! Myid:2 4プロセスなので、表示が4個でる (1000プロセスなら1000個出力がでる) myid番号が表示される。全体で重複した番号は無い。 必ずしも、myidが0から3まで、連続して出ない →各行は同期して実行されていない →実行ごとに結果は異なる 69 2025年度 計算科学技術特論A

70.

総和演算プログラム(逐次転送方式)  各プロセスが所有するデータを、全プロセスで加算し、 あるプロセス1つが結果を所有する演算を考える。  素朴な方法(逐次転送方式) (0番でなければ)左隣のプロセスからデータを受信する; 左隣のプロセスからデータが来ていたら; 1. 2. 1. 2. 3. 4. 受信する; <自分のデータ>と<受信データ>を加算する; (最終ランクでなければ)右隣のプロセスに<2の加算した結果を>送信する; 処理を終了する; 実装上の注意   左隣りとは、(myid-1)のIDをもつプロセス  右隣りとは、(myid+1)のIDをもつプロセス 70  myid=0のプロセスは、左隣りはないので、受信しない  myid=p-1のプロセスは、右隣りはないので、送信しない 2025年度 計算科学技術特論A

71.

バケツリレー方式による加算 所有データ 所有データ 0 1 0 所有データ 所有データ 2 3 1 CPU0 3 CPU1 送信 0 + 1 = 1 CPU2 送信 CPU3 送信 1 + 2 = 3 3 + 3 = 6 最終結果 71 2025年度 計算科学技術特論A

72.
[beta]
1対1通信利用例
(逐次転送方式、C言語)
受信用システム配列の確保
void main(int argc, char* argv[]) {
MPI_Status istatus;
自分より一つ少ない
….
ID番号(myid-1)から、
dsendbuf = myid;
double型データ1つを
drecvbuf = 0.0;
受信しdrecvbuf変数に
if (myid != 0) {
ierr = MPI_Recv(&drecvbuf, 1, MPI_DOUBLE, myid-1, 0, 代入
MPI_COMM_WORLD, &istatus);
}
自分より一つ多い
dsendbuf = dsendbuf + drecvbuf;
ID番号(myid+1)に、
if (myid != nprocs-1) {
ierr = MPI_Send(&dsendbuf, 1, MPI_DOUBLE, myid+1, 0, dsendbuf変数に入っ
ているdouble型データ
MPI_COMM_WORLD);
1つを送信
}
if (myid == nprocs-1) printf ("Total = %4.2lf ¥n", dsendbuf);
….
}
72

2025年度

計算科学技術特論A

73.

1対1通信利用例 (逐次転送方式、Fortran言語) program main 受信用システム配列の確保 integer istatus(MPI_STATUS_SIZE) …. dsendbuf = myid 自分より一つ少ない drecvbuf = 0.0 ID番号(myid-1)から、 if (myid .ne. 0) then double型データ1つを call MPI_RECV(drecvbuf, 1, MPI_DOUBLE_PRECISION, 受信しdrecvbuf変数に & myid-1, 0, MPI_COMM_WORLD, istatus, ierr) endif 代入 dsendbuf = dsendbuf + drecvbuf if (myid .ne. numprocs-1) then call MPI_SEND(dsendbuf, 1, MPI_DOUBLE_PRECISION, & myid+1, 0, MPI_COMM_WORLD, ierr) 自分より一つ多い endif ID番号(myid+1)に、 if (myid .eq. numprocs-1) then dsendbuf変数に print *, "Total = ", dsendbuf endif 入っているdouble型 …. データ1つを送信 stop end 73 2025年度 計算科学技術特論A

74.

総和演算プログラム(二分木通信方式)  二分木通信方式 k = 1; for (i=0; i < log2(nprocs); i++) if ( (myid & k) == k) 1. 2. 3.    else 4.   74 (myid – k)番 プロセス からデータを受信; 自分のデータと、受信データを加算する; k = k * 2; (myid + k)番 プロセス に、データを転送する; 処理を終了する; 2025年度 計算科学技術特論A

75.

総和演算プログラム(二分木通信方式) 3段目=log2(8)段目 3 1 3 2段目 0 1段目 1 2 7 5 3 4 7 5 6 7 7 7 3 0 75 5 3 1 1 2 3 2025年度 4 7 5 計算科学技術特論A 6 7

76.

総和演算プログラム(二分木通信方式)  実装上の工夫  要点: プロセス番号の2進数表記の情報を利用する  第i段において、受信するプロセスの条件は、以下で書ける: myid & k が k と一致  ここで、k = 2^(i-1) 。  つまり、プロセス番号の2進数表記で右からi番目のビットが立っている プロセスが、送信することにする  また、送信元のプロセス番号は、以下で書ける: myid + k  つまり 、通信が成立するPE番号の間隔は2^(i-1) ←二分木なので  送信プロセスについては、上記の逆が成り立つ。 76 2025年度 計算科学技術特論A

77.

総和演算プログラム(二分木通信方式)  逐次転送方式の通信回数  明らかに、nprocs-1 回  二分木通信方式の通信回数  見積もりの前提  各段で行われる通信は、完全に並列で行われる (通信の衝突は発生しない)  段数の分の通信回数となる  つまり、log2(nprocs) 回  両者の通信回数の比較  プロセッサ台数が増すと、通信回数の差(=実行時間)が とても大きくなる  1024構成では、1023回 対 10回!  でも、必ずしも二分木通信方式がよいとは限らない(通信衝突の多発) 77 2025年度 計算科学技術特論A

78.

その他の話題(MPIプロセスの割り当て)  MPIプロセスと物理ノードとの割り当て Machine fileでユーザが直接行う  スパコン環境では、バッチジョブシステムが行う   バッチジョブシステムが行う場合、通信網の形状を考慮し、 通信パターンを考慮し、最適にMPIプロセスが物理ノードに 割り当てられるかはわからない 最悪、通信衝突が多発する  ユーザが、MPIプロセスを割り当てるネットワーク形状を指定できる、 バッチジョブシステムもある (例:富士通FX1000(「富岳」))  MPIプロセス割り当てを最適化するツールの研究もある   スパコンセンタの運用の都合で、ユーザが望む ネットワーク形状が常に確保できるとは限らない  例)名大ITC:デフォルトは非連続割り当て →通信を減らす努力、実行時通信最適化の研究進展、が望まれる 78 2025年度 計算科学技術特論A

79.

ランクマップ指定による高速化例  核融合プラズマ乱流コードGKV(Gyro Kinetic Vlasov code)  スーパーコンピュータ「不老」TypeⅠサブシステム(「富岳」型)  全系ジョブ  2,304ノード ジョブ(110,592コア)  理論性能:7.782 PFLOPS  演算効率:6.67% ( 519 TFLOPS )  ランクマップなし:76.7[秒] → あり:66.4[秒] (15.5%高速化)  問題サイズ 1024 * 1024 * 48 * 96 * 48 * 3 = 7.0×1011 格子点  16 * 4 * 8 * 6 * 3 = 9,216 MPI ( = 2,304 node * 4MPI/node)  79 2025年度 計算科学技術特論A

80.

拡張インターフェース  ベンダーごとに、MPIの拡張がされていることがある  FX1000(「富岳」「不老」)では、以下のものがある  ランク問合せインターフェース  MPIプロセスの各ランクが、TOFUトーラス構成の中で、どの位置 に配置されているかを知る ⇒その物理配置情報から通信を最適化  拡張した持続的通信要求インターフェース   持続的集団通信要求インターフェース仕様  80 MPIの持続的通信の要求で、実現できない通信処理を、 非同期に開始し、演算処理とオーバーラップさせる  FJMPI_PREQUEST_SEND_INIT、FJMPI_PREQUEST_START MPI-4の持続的集団通信要求のインターフェース 2025年度 計算科学技術特論A

81.

参考文献 1. 2. 81 MPI並列プログラミング、P.パチェコ 著 / 秋葉 博 訳 Message Passing Interface Forum ( http://mpi-forum.org/ ) 2025年度 計算科学技術特論A

82.

レポート課題(その1)  問題レベルを以下に設定 問題のレベルに関する記述: •L00: きわめて簡単な問題。 •L10: ちょっと考えればわかる問題。 •L20: 標準的な問題。 •L30: 数時間程度必要とする問題。 •L40: 数週間程度必要とする問題。複雑な実装を必要とする。 •L50: 数か月程度必要とする問題。未解決問題を含む。 ※L40以上は、論文を出版するに値する問題。  教科書のサンプルプログラムは以下が利用可能  Sample-fx.tar 82 2025年度 計算科学技術特論A

83.

レポート課題(その2) 1. 2. 3. [L05] MPIとは何か説明せよ。 [L10] 逐次転送方式、2分木通信方式の実行時間を計測し、 どの方式が何台のプロセッサ台数で有効となるかを明らか にせよ。また、その理由について、考察せよ。 [L15] 二分木通信方式について、プロセッサ台数が2の べき乗でないときにも動作するように、プログラムを 改良せよ。 83 2025年度 計算科学技術特論A