第2回配信講義　計算科学技術特論A（2025）

内容に関する質問は [email protected] まで第２回 MPIの基礎名古屋大学情報基盤センター片桐孝洋 1 2025年度計算科学技術特論A

講義日程と内容について  ２０２５年度計算科学技術特論Ａ（木曜：１３：００－１４：３０）第１回：プログラム高速化の基礎、2025年4月10日  イントロダクション、ループアンローリング、キャッシュブロック化、数値計算ライブラリの利用、その他  第２回：MPIの基礎、2025年4月17日  並列処理の基礎、MPIインターフェース、MPI通信の種類、その他  第３回：OpenMPの基礎、2025年4月24日  OpenMPの基礎、利用方法、その他  第４回：Hybrid 並列化技法（MPI 、OpenMP応用とOpenACC）、2025年5月8日  背景、Hybrid並列化の適用事例、利用上の注意、その他  第５回：GPUコンピューティングと大規模学習への展開、2025年5月15日  プログラムの性能ボトルネックに関する考えかた（I/O、単体性能 (演算機ネック、メモリネック)、並列性能(バランス))、性能プロファイル、機械学習におけるHPC、「富岳NEXT」とGPUコンピューティング、ほか  2 2025年度計算科学技術特論A

3.

参考書  「計算科学のためのHPC技術1 」下司雅章 (編集), 片桐孝洋 , 中田真秀, 渡辺宙志, 山本有作, 吉井範行, Jaewoon Jung, 杉田有治, 石村和也, 大石進一, 関根晃太, 森倉悠介, 黒田久泰，著  出版社: 大阪大学出版会 (2017/4/3)  ISBN-10: 4872595866, ISBN-13: 978-4872595864  発売日： 2017/4/3  【本書の特徴】  計算科学に必要なＨＰＣ技術について、基礎的な事項を解説している  片桐担当（１章～５章）  プログラム高速化の基礎、MPIの基礎、OpenMP の基礎、Hybrid並列化技法(MPIとOpenMPの応用)、プログラム高速化の応用  3 2025年度計算科学技術特論A

4.

参考書  The Art of High Performance Computing for Computational Science, Vol. 1 Editor: Masaaki Geshi  出版社: Springer, Singapore  Hardcover ISBN 978-981-13-6193-7  発売日： 2019/5  【本書の特徴】  「計算科学のためのHPC技術1」の英語版  片桐担当（１章～５章）  High-Performance Computing Basics(pp. 1-25), Basics of MPI Programming (pp. 27-44), Basics of OpenMP Programming (pp. 45-59), Hybrid Parallelization Techniques (pp. 61-68), Application of Techniques for High-Performance Computing (pp. 69-81)  4 2025年度計算科学技術特論A

5.

教科書（演習書）  「スパコンプログラミング入門－並列処理とMPIの学習－」  片桐孝洋著、  東大出版会、ISBN978-4-13-062453-4、発売日：2013年3月12日、判型:A5, 200頁  【本書の特徴】  C言語で解説  C言語、Fortran90言語のサンプルプログラムが付属  数値アルゴリズムは、図でわかりやすく説明  本講義の内容を全てカバー  内容は初級。初めて並列数値計算を学ぶ人向けの入門書 5 2025年度計算科学技術特論A

6.

並列プログラミングの基礎 6 2025年度計算科学技術特論A

7.

並列プログラミングとは何か？  逐次実行のプログラム（実行時間T ）を、ｐ台の計算機を使って、T / ｐにすること。 T T / ｐ  素人考えでは自明。  実際は、できるかどうかは、対象処理の内容（アルゴリズム）で大きく難しさが違う  アルゴリズム上、絶対に並列化できない部分の存在  通信のためのオーバヘッドの存在  通信立ち上がり時間  データ転送時間 7 2025年度計算科学技術特論A

8.

並列計算機の分類  Michael J. Flynn教授（スタンフォード大）の分類（１９６６）  単一命令・単一データ流（SISD, Single Instruction Single Data Stream）  単一命令・複数データ流（SIMD, Single Instruction Multiple Data Stream）  複数命令・単一データ流（MISD, Multiple Instruction Single Data Stream）  複数命令・複数データ流（MIMD, Multiple Instruction Multiple Data Stream）最近のCPUや計算機システムはMIMD さらに複雑になりつつある（ヘテロジニアス化） 8 2025年度計算科学技術特論A

9.

並列計算機のメモリ型による分類 1. 共有メモリ型（SMP、 Symmetric Multiprocessor） 2. 分散メモリ型（メッセージパッシング） 3. 分散共有メモリ型（DSM、 Distributed Shared Memory） 9 2025年度計算科学技術特論A

10.

並列計算機のメモリ型による分類 4. 共有・非対称メモリ型（ccNUMA、 Cache Coherent NonUniform Memory Access）スーパーコンピュータ「富岳」の計算機アーキテクチャ  スーパーコンピュータ「富岳」  名大スーパーコンピュータ「不老」 TypeⅠサブシステム（Fujitsu PRIMEHPC FX1000） Source:「高性能・高密度実装・低消費電力を実現するスーパーコンピュータ「富岳」のCPU」 A64FX https://www.fujitsu.com/jp/about/resources/publications/technicalreview/202003/article03.html 10 2025年度計算科学技術特論A

11.

並列計算機の分類とMPIとの関係  MPIは分散メモリ型計算機を想定  MPIは、分散メモリ間の通信を定めているため  MPIは共有メモリ型計算機でも動く  MPIは、共有メモリ内でもプロセス間通信ができるため  MPIを用いたプログラミングモデルは、（基本的に）SIMD  MPIは、（基本的には）プログラムが１つ（＝命令と等価）しかないが、データ（配列など）は複数あるため 11 2025年度計算科学技術特論A

12.

並列プログラミングのモデル  実際の並列プログラムの挙動はMIMD  アルゴリズムを考えるときは＜SIMDが基本＞  複雑な挙動は理解できないので 12 2025年度計算科学技術特論A

13.

並列プログラミングのモデル  MIMD上での並列プログラミングのモデル 1. SPMD（Single Program Multiple Data）  １つの共通のプログラムが、並列処理開始時に、全プロセッサ上で起動する  MPI（バージョン１）のモデル 2. 13 Master / Worker（Master / Slave）  １つのプロセス（Master）が、複数のプロセス（Worker）を管理（生成、消去）する。 2025年度計算科学技術特論A

14.

並列プログラムの種類  マルチプロセス  MPI （Message Passing Interface）  HPF （High Performance Fortran）  自動並列化Fortranコンパイラ  ユーザがデータ分割方法を明示的に記述プロセスとスレッドの違い •メモリを意識するかどうかの違い •別メモリは「プロセス」 •同一メモリは「スレッド」  マルチスレッド  Pｔhread (POSIX スレッド)  Solaris Thread (Sun Solaris OS用)  NT thread (Windows NT系、Windows95以降)  スレッドの Fork（分離）と Join（融合）を明示的に記述  Java  言語仕様としてスレッドを規定  OpenMP  14 ユーザが並列化指示行を記述マルチプロセスとマルチスレッドは共存可能 →ハイブリッドMPI/OpenMP実行 2025年度計算科学技術特論A

15.

並列処理の実行形態（１）  データ並列  データを分割することで並列化する。  データの操作（＝演算）は同一となる。 SIMDの考え方と同じ  データ並列の例：行列－行列積  1 2 3   9 8 7   1 * 9 + 2 * 6 + 3 * 3 1 * 8 + 2 * 5 + 3 * 2 1 * 7 + 2 * 4 + 3 *1      ＝  4 * 9 + 5 * 6 + 6 * 3 4 * 8 + 5 * 5 + 6 * 2 4 * 7 + 5 * 4 + 6 *1  4 5 6   6 5 4   7 * 9 + 8 * 6 + 9 * 3 7 * 8 + 8 * 5 + 9 * 2 7 * 7 + 8 * 4 + 9 *1   7 8 9 3 2 1      ●並列化 2 3   CPU１  4 5 6  CPU２  7 8 9    CPU０  1 15 全CPUで共有 9 8 7  1 * 9 + 2 * 6 + 3 * 3 1 * 8 + 2 * 5 + 3 * 2 1 * 7 + 2 * 4 + 3 *1   ＝  4 * 9 + 5 * 6 + 6 * 3 4 * 8 + 5 * 5 + 6 * 2 4 * 7 + 5 * 4 + 6 *1  6 5 4  7 * 9 + 8 * 6 + 9 * 3 7 * 8 + 8 * 5 + 9 * 2 7 * 7 + 8 * 4 + 9 *1    3 2 1  並列に計算：初期データは異なるが演算は同一  2025年度計算科学技術特論A

16.

並列処理の実行形態（２）  タスク並列  タスク（ジョブ）を分割することで並列化する。  データの操作（＝演算）は異なるかもしれない。  タスク並列の例：カレーを作る仕事１：野菜を切る  仕事２：肉を切る  仕事３：水を沸騰させる  仕事４：野菜・肉を入れて煮込む  仕事５：カレールゥを入れる  ●並列化仕事１仕事２仕事４仕事３ 16 仕事５時間 2025年度計算科学技術特論A

17.

MPIの特徴  メッセージパッシング用のライブラリ規格の１つ   メッセージパッシングのモデルであるコンパイラの規格、特定のソフトウエアやライブラリを指すものではない！  分散メモリ型並列計算機で並列実行に向く  大規模計算が可能   １プロセッサにおけるメモリサイズやファイルサイズの制約を打破可能プロセッサ台数の多い並列システム（MPPシステム、Massively Parallel Processingシステム）を用いる実行に向く   １プロセッサ換算で膨大な実行時間の計算を、短時間で処理可能移植が容易  API（Application Programming Interface）の標準化  スケーラビリティ、性能が高い   17 通信処理をユーザが記述することによるアルゴリズムの最適化が可能プログラミングが難しい（敷居が高い） 2025年度計算科学技術特論A

18.

MPIの経緯（1/2）  MPIフォーラム（http://mpi-forum.org/）が仕様策定  １９９４年５月1.0版（MPI-１）  １９９５年６月1.1版  １９９７年７月1.2版、および 2.0版（MPI-2）  米国アルゴンヌ国立研究所、およびミシシッピ州立大学で開発  MPI-2 では、以下を強化：  並列I/O  C++、Fortran 90用インターフェース  動的プロセス生成/消滅  主に、並列探索処理などの用途 18 2025年度計算科学技術特論A

http://mpi-forum.org/

19.

MPIの経緯 MPI3.1  以下のページで経緯・ドキュメントを公開中  https://www.mpi-forum.org/docs/mpi-3.1/mpi31-report.pdf (Implementation Status, as of June 4, 2015)  注目すべき機能  ノン・ブロッキングの集団通信機能（MPI_IALLREDUCE、など）  など 19 2025年度計算科学技術特論A

https://www.mpi-forum.org/docs/mpi-3.1/mpi31-report.pdf

20.

MPIの経緯 MPI4.1  以下のページで経緯を公開中(November 2, 2023)  https://www.mpi-forum.org/docs/mpi-4.1/mpi41-report.pdf  MPI Version 4 ( June 9, 2021)  カウントパラメータにintまたはINTEGERを使用する際の制限に対処するため、多くのルーチンに大容量カウントバージョンを追加  Persistent collectives  Partitioned communications  MPIの代替初期化方法  アプリケーション情報アサーション  エラー処理の定義の改善 20 2025年度計算科学技術特論A

https://www.mpi-forum.org/docs/mpi-4.1/mpi41-report.pdf

21.

MPIの実装  MPICH（エム・ピッチ）米国アルゴンヌ国立研究所が開発  LAM（Local Area Multicomputer）  ノートルダム大学が開発  OpenMPI ☞OpenMPではない  FT-MPI、LA-MPI、LAM/MPI、PACX-MPIの統合プロジェクト  MVAPICH（エムバ・ピッチ）  オハイオ州立大学が開発  21 2025年度計算科学技術特論A

22.

MPIによる通信  郵便物の郵送に同じ  郵送に必要な情報： 1. 2. 3. 4. 5. 自分の住所、送り先の住所中に入っているものはどこにあるか中に入っているものの分類中に入っているものの量（荷物を複数同時に送る場合の）認識方法（タグ）  MPIでは： 1. 2. 3. 4. 5. 22 自分の認識ID、および、送り先の認識ID データ格納先のアドレスデータ型データ量タグ番号 2025年度計算科学技術特論A

23.

MPI関数  システム関数  MPI_Init； MPI_Comm_rank； MPI_Comm_size； MPI_Finalize；  １対１通信関数  ブロッキング型  MPI_Send； MPI_Recv；  ノンブロッキング型  MPI_Isend； MPI_Irecv；  １対全通信関数  MPI_Bcast  集団通信関数  MPI_Reduce； MPI_Allreduce； MPI_Barrier；  時間計測関数  MPI_Wtime 23 2025年度計算科学技術特論A

24.

コミュニケータ  MPI_COMM_WORLDは、コミュニケータとよばれる概念を保存する変数  コミュニケータは、操作を行う対象のプロセッサ群を定める  初期状態では、０番～numprocs –１番までのプロセッサが、１つのコミュニケータに割り当てられる  この名前が、“MPI_COMM_WORLD”  プロセッサ群を分割したい場合、MPI_Comm_split 関数を利用  メッセージを、一部のプロセッサ群に放送するときに利用  “マルチキャスト”で利用 24 2025年度計算科学技術特論A

25.

性能評価指標並列化の尺度 25 2025年度計算科学技術特論A

26.

性能評価指標－台数効果  台数効果 SP = TS / TP (0 ≤ S p) TP ：P台での実行時間  TS ：逐次の実行時間、  P台用いて SP = P のとき、理想的な（ideal）速度向上  P台用いて SP > P のとき、スーパリニア・スピードアップ  式：  主な原因は、並列化により、データアクセスが局所化されて、キャッシュヒット率が向上することによる高速化  並列化効率 EP = SP / P ×100 (0 ≤ Ep) [%]  飽和性能  式：  速度向上の限界  Saturation、「さちる」 26 Ｐ 2025年度計算科学技術特論A

27.

アムダールの法則 K とする。そのうち、並列化ができる割合を α とする。  このとき、台数効果は以下のようになる。  逐次実行時間を SP = K /(Kα / P + K(1−α)) = 1/(α / P + (1−α)) = 1/(α(1/ P −1) +1)  上記の式から、たとえ無限大の数のプロセッサを使っても（P→∞）、台数効果は、高々１／（１－α）である。（アムダールの法則）  全体の９０％が並列化できたとしても、無限大の数のプロセッサをつかっても、１/(１-0.9) = １0 倍にしかならない！ →高性能を達成するためには、少しでも並列化効率を上げる実装をすることがとても重要である 27 2025年度計算科学技術特論A

28.

アムダールの法則の直観例並列化できない部分（１ブロック）並列化できる部分（８ブロック） ●逐次実行＝88.8%が並列化可能 ●並列実行（４並列） 9/3=3倍 ●並列実行（８並列） 9/2=4.5倍 ≠ 6倍 28 2025年度計算科学技術特論A

29.

基本演算  逐次処理では、「データ構造」が重要  並列処理においては、「データ分散方法」が重要になる！ 1. 2. 3. 4. 各PEの「演算負荷」を均等にする  ロード・バランシング：並列処理の基本操作の一つ  粒度調整各PEの「利用メモリ量」を均等にする演算に伴う通信時間を短縮する各PEの「データ・アクセスパターン」を高速な方式にする（＝逐次処理におけるデータ構造と同じ）  行列データの分散方法＜次元レベル＞：１次元分散方式、２次元分散方式  ＜分割レベル＞：ブロック分割方式、サイクリック（循環）分割方式  29 2025年度計算科学技術特論A

30.

１次元分散 N/4行 PE=0 N/4行 PE=1 N/4行 PE=2 N/4行 PE=3 •（行方向) ブロック分割方式 •(Block, *) 分散方式 N列 1行 •(行方向) サイクリック分割方式 •(Cyclic, *) 分散方式 2行 •(行方向)ブロック・サイクリック分割方式 •(Cyclic(2), *) 分散方式この例の「２」：＜ブロック幅＞とよぶ 30 2025年度計算科学技術特論A

31.

2次元分散 N/2 N/2 N/2 PE=0 PE=1 N/2 PE=2 PE=3 •ブロック・ブロック分割方式 •(Block, Block)分散方式 •サイクリック・サイクリック分割方式 •(Cyclic, Cyclic)分散方式 0 1 0 1 0 1 0 1 2 3 2 3 2 3 2 3 0 1 0 1 0 1 0 1 2 3 2 3 2 3 2 3 0 1 0 1 0 1 0 1 2 3 2 3 2 3 2 3 0 0 1 1 0 0 1 1 0 1 0 1 0 1 0 1 0 0 1 1 0 0 1 1 2 3 2 3 2 3 2 3 2 2 3 3 2 2 3 3 2 2 3 3 2 2 3 3 0 0 1 1 0 0 1 1 0 0 1 1 0 0 1 1 2 2 3 3 2 2 3 3 2 2 3 3 2 2 3 3 •二次元ブロック・サイクリック分割方式 •(Cyclic(2), Cyclic(2))分散方式 2025年度計算科学技術特論A 31

32.

ベクトルどうしの演算  以下の演算 z = a x+ y  ここで、αはスカラ、ｚ、ｘ、ｙはベクトル  どのようなデータ分散方式でも並列処理が可能  ただし、スカラ α は全PEで所有する。  ベクトルはO(ｎ)のメモリ領域が必要なのに対し、スカラは O(１)のメモリ領域で大丈夫。 →スカラメモリ領域は無視可能  計算量：O(N/P)  あまり面白くない＝ｚ 32 2025年度計算科学技術特論A ＋ α ｘｙ

33.

行列とベクトルの積  ＜行方式＞と＜列方式＞がある。 … … …  ＜データ分散方式＞と＜方式＞組のみ合わせがあり、少し面白い ①② ①② ①② ① ① ① ② ② ② … = = for(i=0;i<n;i++){ y[i]=0.0; for(j=0;j<n;j++){ y[i] += a[i][j]*x[j]; } } for(j=0; j<n; j++) y[j]=0.0; for(j=0; j<n; j++) { for (i=0; i<n; i++) { y[i] += a[i][j]*x[j]; } } ＜行方式＞：自然な実装 C言語向き 33 ＜列方式＞： Fortran言語向き 2025年度計算科学技術特論A

34.

行列とベクトルの積＜行方式の場合＞＜行方向分散方式＞：行方式に向く分散方式 PE=0 PE=0 PE=1 PE=1 = PE=2 PE=3 PE=2 PE=3 右辺ベクトルを MPI_Allgather関数を利用し、全PEで所有する各PE内で行列ベクトル積を行う＜列方向分散方式＞：ベクトルの要素すべてがほしいときに向く = 各PE内で行列-ベクトル積を行う 34 + + + MPI_Reduce関数で総和を求める（※ある１PEにベクトルすべてが集まる） 2025年度計算科学技術特論A

35.

行列とベクトルの積＜列方式の場合＞＜行方向分散方式＞：無駄が多く使われない PE=0 PE=0 PE=1 PE=1 PE=2 = + + + = PE=2 PE=3 PE=3 右辺ベクトルを MPI_Allgather関数を利用して、全PEで所有する結果をMPI_Reduce関数により総和を求める＜列方向分散方式＞：列方式に向く分散方式 = 各PE内で行列-ベクトル積を行う 35 + + + MPI_Reduce関数で総和を求める（※ある１PEにベクトルすべてが集まる） 2025年度計算科学技術特論A

36.

基本的なMPI関数送信、受信のためのインタフェース 36 2025年度計算科学技術特論A

37.

略語とMPI用語  MPIは「プロセス」間の通信を行います。  プロセスは、HT（ハイパースレッド）などを使わなければ、「プロセッサ」（もしくは、コア）に１対１で割り当てられます。  今後、「MPIプロセス」と書くのは長いので、ここでは PE（Processer Elementsの略）と書きます。  ただし用語として「PE」は、現在あまり使われていません。  ランク（Rank）各「MPIプロセス」の「識別番号」のこと。  通常MPIでは、MPI_Comm_rank関数で設定される変数（サンプルプログラムではmyid）に、０～全PE数－１の数値が入る  世の中の全MPIプロセス数を知るには、MPI_Comm_size関数を使う。（サンプルプログラムでは、numprocs に、この数値が入る）  37 2025年度計算科学技術特論A

38.

ランクの説明図 38 MPI プログラム MPI プログラム MPI プログラム MPI プログラムランク０ランク１ランク２ランク３ 2025年度計算科学技術特論A

39.

C言語インターフェースと Fortranインターフェースの違い  Ｃ版は、整数変数ierr が戻り値 ierr = MPI_Xxxx(….);  Ｆｏｒｔｒａｎ版は、最後に整数変数ierrが引数 call MPI_XXXX(…., ierr)  システム用配列の確保の仕方  Ｃ言語 MPI_Status istatus;  Ｆｏｒｔｒａｎ言語 integer istatus(MPI_STATUS_SIZE) 39 2025年度計算科学技術特論A

40.

C言語インターフェースと Fortranインターフェースの違い  MPIにおける、データ型の指定  C言語 MPI_CHAR (文字型) 、 MPI_INT (整数型)、 MPI_FLOAT (実数型)、MPI_DOUBLE(倍精度実数型)  Fortran言語 MPI_CHARACTER (文字型) 、MPI_INTEGER (整数型)、 MPI_REAL (実数型)、MPI_DOUBLE_PRECISION(倍精度実数型) 、MPI_COMPLEX(複素数型)  以降は、Ｃ言語インタフェースで説明する 40 2025年度計算科学技術特論A

41.

基礎的なMPI関数―MPI_Recv（１／２）  ierr = MPI_Recv(recvbuf, icount, idatatype, isource, itag, icomm, istatus);  recvbuf : 受信領域の先頭番地を指定する。  icount : 整数型。受信領域のデータ要素数を指定する。  idatatype : 整数型。受信領域のデータの型を指定する。  MPI_CHAR (文字型) 、MPI_INT (整数型)、 MPI_FLOAT (実数型)、 MPI_DOUBLE(倍精度実数型)  isource : 整数型。受信したいメッセージを送信するPEのランクを指定する。  任意のPEから受信したいときは、MPI_ANY_SOURCE を指定する。 41 2025年度計算科学技術特論A

42.

基礎的なMPI関数―MPI_Recv（２／２）  itag : 整数型。受信したいメッセージに付いているタグの値を指定。  任意のタグ値のメッセージを受信したいときは、MPI_ANY_TAG を指定。  icomm : 整数型。PE集団を認識する番号であるコミュニケータを指定。  通常ではMPI_COMM_WORLD を指定すればよい。  istatus : MPI_Status型（整数型の配列）。受信状況に関する情報が入る。かならず専用の型宣言をした配列を確保すること。  要素数がMPI_STATUS_SIZEの整数配列が宣言される。  受信したメッセージの送信元のランクが istatus[MPI_SOURCE]、タグが istatus[MPI_TAG] に代入される。  C言語： MPI_Status istatus;  Fortran言語： integer istatus(MPI_STATUS_SIZE) ierr(戻り値) : 整数型。エラーコードが入る。  42 2025年度計算科学技術特論A

43.

基礎的なMPI関数―MPI_Send  ierr = MPI_Send(sendbuf, icount, idatatype, idest, itag, icomm);  sendbuf : 送信領域の先頭番地を指定  icount : 整数型。送信領域のデータ要素数を指定  idatatype : 整数型。送信領域のデータの型を指定  idest : 整数型。送信したいPEのicomm内でのランクを指定  itag : 整数型。受信したいメッセージに付けられたタグの値を指定  icomm : 整数型。プロセッサー集団を認識する番号であるコミュニケータを指定  ierr (戻り値) : 整数型。エラーコードが入る。 43 2025年度計算科学技術特論A

44.

Send－Recvの概念（１対１通信） PE0 PE１ PE２ PE３ MPI_Send MPI_Recv 44 2025年度計算科学技術特論A

45.

基礎的なMPI関数―MPI_Bcast  ierr = MPI_Bcast(sendbuf, icount, idatatype, iroot, icomm);  sendbuf : 送信および受信領域の先頭番地を指定する。  icount : 整数型。送信領域のデータ要素数を指定する。  idatatype : 整数型。送信領域のデータの型を指定する。  iroot : 整数型。送信したいメッセージがあるPEの番号を指定する。全PEで同じ値を指定する必要がある。  icomm : 整数型。PE集団を認識する番号であるコミュニケータを指定する。  ierr (戻り値) : 整数型。エラーコードが入る。 45 2025年度計算科学技術特論A

46.

MPI_Bcastの概念（集団通信） PE0 MPI_Bcast() PE１ MPI_Bcast() PE３ MPI_Bcast() MPI_Bcast() 全PEが関数を呼ぶこと iroot 46 PE２ 2025年度計算科学技術特論A

47.

リダクション演算  ＜操作＞によって＜次元＞を減少（リダクション）させる処理  例：内積演算ベクトル（ｎ次元空間） → スカラ（１次元空間）  リダクション演算は、通信と計算を必要とする  集団通信演算（collective communication operation）と呼ばれる  演算結果の持ち方の違いで、２種のインタフェースが存在する 47 2025年度計算科学技術特論A

48.

リダクション演算  演算結果に対する所有PEの違い  MPI_Reduce関数  リダクション演算の結果を、ある一つのPEに所有させる PE0 PE0 PE1 操作操作 PE2 PE0  MPI_Allreduce関数  リダクション演算の結果を、全てのPEに所有させる PE0 PE1 48 PE0 操作 PE2 2025年度 PE1 計算科学技術特論A PE2

49.

基礎的なMPI関数―MPI_Reduce  ierr = MPI_Reduce(sendbuf, recvbuf, icount, idatatype, iop, iroot, icomm);  sendbuf : 送信領域の先頭番地を指定する。  recvbuf : 受信領域の先頭番地を指定する。iroot で指定した PEのみで書き込みがなされる。送信領域と受信領域は、同一であってはならない。すなわち、異なる配列を確保しなくてはならない。  icount : 整数型。送信領域のデータ要素数を指定する。  idatatype : 整数型。送信領域のデータの型を指定する。  （Fortran）＜最小／最大値と位置＞を返す演算を指定する場合は、MPI_2INTEGER(整数型)、 MPI_2REAL (単精度型)、MPI_2DOUBLE_PRECISION(倍精度型) 、を指定する。 49 2025年度計算科学技術特論A

50.

基礎的なMPI関数―MPI_Reduce  iop : 整数型。演算の種類を指定する。  MPI_SUM (総和)、 MPI_PROD (積)、 MPI_MAX (最大)、 MPI_MIN (最小)、 MPI_MAXLOC (最大と位置)、 MPI_MINLOC (最小と位置) など。  iroot : 整数型。結果を受け取るPEのicomm 内でのランクを指定する。全てのicomm 内のPEで同じ値を指定する必要がある。  icomm : 整数型。PE集団を認識する番号であるコミュニケータを指定する。  ierr : 整数型。エラーコードが入る。 50 2025年度計算科学技術特論A

51.

MPI_Reduceの概念（集団通信） PE0 MPI_Reduce() PE１ PE２ PE３ MPI_Reduce() MPI_Reduce() MPI_Reduce() データ３データ４ iroot データ１データ２ iop（指定された演算） 51 2025年度計算科学技術特論A

52.

基礎的なMPI関数―MPI_Allreduce  ierr = MPI_Allreduce(sendbuf, recvbuf, icount, idatatype, iop, icomm);  sendbuf : 送信領域の先頭番地を指定する。  recvbuf : 受信領域の先頭番地を指定する。iroot で指定した PEのみで書き込みがなされる。送信領域と受信領域は、同一であってはならない。すなわち、異なる配列を確保しなくてはならない。  icount : 整数型。送信領域のデータ要素数を指定する。  idatatype : 整数型。送信領域のデータの型を指定する。  最小値や最大値と位置を返す演算を指定する場合は、 MPI_2INT(整数型)、MPI_2FLOAT (単精度型)、 MPI_2DOUBLE(倍精度型) を指定する。 52 2025年度計算科学技術特論A

53.

基礎的なMPI関数―MPI_Allreduce  iop : 整数型。演算の種類を指定する。  MPI_SUM (総和)、 MPI_PROD (積)、 MPI_MAX (最大)、MPI_MIN (最小)、 MPI_MAXLOC (最大と位置)、 MPI_MINLOC (最小と位置) など。  icomm : 整数型。PE集団を認識する番号であるコミュニケータを指定する。  ierr : 整数型。エラーコードが入る。 53 2025年度計算科学技術特論A

54.

MPI_Allreduceの概念（集団通信） PE0 PE１ PE２ PE３ MPI_Allreduce() MPI_Allreduce() MPI_Allreduce() MPI_Allreduce() データ０データ１データ２データ３ iop（指定された演算）演算済みデータの放送 54 2025年度計算科学技術特論A

55.

リダクション演算  性能について  リダクション演算は、１対１通信に比べ遅い  プログラム中で多用すべきでない！  MPI_Allreduce は MPI_Reduce に比べ遅い  MPI_Allreduce は、放送処理が入る。  なるべく、MPI_Reduce を使う。 55 2025年度計算科学技術特論A

56.

行列の転置 A が（Block,＊）分散されているとする。 T  行列 A の転置行列 A を作るには、MPIでは  行列次の２通りの関数を用いる  MPI_Gather関数 a b c a b c  MPI_Scatter関数 a b c 56 a b c 2025年度計算科学技術特論A 集めるメッセージサイズが各PEで均一のとき使う集めるサイズが各PEで均一でないときは： MPI_GatherV関数 MPI_ScatterV関数

57.

基礎的なMPI関数―MPI_Gather  ierr = MPI_Gather (sendbuf, isendcount, isendtype, recvbuf, irecvcount, irecvtype, iroot, icomm);  sendbuf : 送信領域の先頭番地を指定する。  isendcount: 整数型。送信領域のデータ要素数を指定する。  isendtype : 整数型。送信領域のデータの型を指定する。  recvbuf : 受信領域の先頭番地を指定する。iroot で指定したPEのみで書き込みがなされる。  なお原則として、送信領域と受信領域は、同一であってはならない。すなわち、異なる配列を確保しなくてはならない。  irecvcount: 整数型。受信領域のデータ要素数を指定する。  この要素数は、１PE当たりの送信データ数を指定すること。  MPI_Gather 関数では各PEで異なる数のデータを収集することはできないので、同じ値を指定すること。 57 2025年度計算科学技術特論A

58.

基礎的なMPI関数―MPI_Gather  irecvtype : 整数型。受信領域のデータ型を指定する。  iroot : 整数型。収集データを受け取るPEの icomm 内でのランクを指定する。  全てのicomm 内のPEで同じ値を指定する必要がある。  icomm : 整数型。PE集団を認識する番号であるコミュニケータを指定する。  ierr : 整数型。エラーコードが入る。 58 2025年度計算科学技術特論A

59.

MPI_Gatherの概念（集団通信） PE0 PE１ PE２ PE３ MPI_Gather() MPI_Gather() MPI_Gather() MPI_Gather() データC データD iroot データA データB 収集処理データA データB データC データD 59 2025年度計算科学技術特論A

60.

基礎的なMPI関数―MPI_Scatter  ierr = MPI_Scatter ( sendbuf, isendcount, isendtype, recvbuf, irecvcount, irecvtype, iroot, icomm);  sendbuf : 送信領域の先頭番地を指定する。  isendcount: 整数型。送信領域のデータ要素数を指定する。  この要素数は、１PE当たりに送られる送信データ数を指定すること。  MPI_Scatter 関数では各PEで異なる数のデータを分散することはできないので、同じ値を指定すること。  isendtype : 整数型。送信領域のデータの型を指定する。 iroot で指定したPEのみ有効となる。  recvbuf : 受信領域の先頭番地を指定する。  なお原則として、送信領域と受信領域は、同一であってはならない。すなわち、異なる配列を確保しなくてはならない。  irecvcount: 60 整数型。受信領域のデータ要素数を指定する。 2025年度計算科学技術特論A

61.

基礎的なMPI関数―MPI_Scatter  irecvtype : 整数型。受信領域のデータ型を指定する。  iroot : 整数型。収集データを受け取るPEの icomm 内でのランクを指定する。  全てのicomm 内のPEで同じ値を指定する必要がある。  icomm : 整数型。PE集団を認識する番号であるコミュニケータを指定する。  ierr : 整数型。エラーコードが入る。 61 2025年度計算科学技術特論A

62.

MPI_Scatterの概念（集団通信） PE0 PE１ PE２ PE３ MPI_Scatter() MPI_Scatter() MPI_Scatter() MPI_Scatter() iroot データA データB データC データD 分配処理データA 62 データB 2025年度データC 計算科学技術特論A データD

63.

MPIプログラム実例 63 2025年度計算科学技術特論A

64.

MPIの起動  MPIを起動するには 1. MPIをコンパイルできるコンパイラでコンパイル  実行ファイルは a.out 2. とする（任意の名前を付けられます）以下のコマンドを実行  インタラクティブ実行では、以下のコマンドを直接入力  バッチジョブ実行では、ジョブスクリプトファイル中に記載 $ mpirun –np 8 ./a.out MPI起動コマンド MPIの実行ファイル名 64 MPI プロセス数 2025年度 ※スパコンのバッチジョブ実行では、MPIプロセス数は専用の指示文で指定する場合があります。その場合は以下になることがあります。 $mpirun ./a.out 計算科学技術特論A

65.

MPIの起動 mpirun -np 4 ./a.out a.out 65 a.out 2025年度 a.out 計算科学技術特論A a.out

66.

[beta]

並列版Helloプログラムの説明（C言語）
#include <stdio.h>
#include <mpi.h>

このプログラムは、全ＰＥで起動される

void main(int argc, char* argv[]) {
int
int

MPIの初期化

myid, numprocs;
ierr, rc;

自分のID番号を取得
：各ＰＥで値は異なる

ierr = MPI_Init(&argc, &argv);
ierr = MPI_Comm_rank(MPI_COMM_WORLD, &myid);
ierr = MPI_Comm_size(MPI_COMM_WORLD, &numprocs);
printf("Hello parallel world! Myid:%d ¥n", myid);
rc = MPI_Finalize();
exit(0);
}
66

全体のプロセッサ台数
を取得
：各ＰＥで値は同じ

MPIの終了
2025年度

計算科学技術特論A

67.

変数myidの説明図同じ変数名でも別メモリ上に別変数で確保 67 MPI プログラム MPI プログラム MPI プログラム MPI プログラムランク０ myid=0 ランク１ myid=1 ランク２ myid=2 ランク３ myid=3 2025年度計算科学技術特論A

68.

並列版Helloプログラムの説明（Fortran言語）このプログラムは、全ＰＥで起動される program main include 'mpif.h' common /mpienv/myid,numprocs integer myid, numprocs integer ierr MPIの初期化自分のID番号を取得：各ＰＥで値は異なる call MPI_INIT(ierr) call MPI_COMM_RANK(MPI_COMM_WORLD, myid, ierr) call MPI_COMM_SIZE(MPI_COMM_WORLD, numprocs, ierr) print *, "Hello parallel world! Myid:", myid call MPI_FINALIZE(ierr) stop end 68 全体のプロセッサ台数を取得：各ＰＥで値は同じ MPIの終了 2025年度計算科学技術特論A

69.

プログラム出力例  ４プロセス実行の出力例 Hello parallel world! Myid:0 Hello parallel world! Myid:3 Hello parallel world! Myid:１ Hello parallel world! Myid:2 4プロセスなので、表示が４個でる（1000プロセスなら1000個出力がでる） myid番号が表示される。全体で重複した番号は無い。 必ずしも、myidが0から3まで、連続して出ない →各行は同期して実行されていない →実行ごとに結果は異なる 69 2025年度計算科学技術特論A

70.

総和演算プログラム（逐次転送方式）  各プロセスが所有するデータを、全プロセスで加算し、あるプロセス１つが結果を所有する演算を考える。  素朴な方法（逐次転送方式）（0番でなければ）左隣のプロセスからデータを受信する；左隣のプロセスからデータが来ていたら； 1. 2. 1. 2. 3. 4. 受信する; ＜自分のデータ＞と＜受信データ＞を加算する; （最終ランクでなければ）右隣のプロセスに＜2の加算した結果を＞送信する; 処理を終了する; 実装上の注意   左隣りとは、（myid-１）のIDをもつプロセス  右隣りとは、（myid+１）のIDをもつプロセス 70  myid=0のプロセスは、左隣りはないので、受信しない  myid=p-１のプロセスは、右隣りはないので、送信しない 2025年度計算科学技術特論A

71.

バケツリレー方式による加算所有データ所有データ０１０所有データ所有データ２３１ CPU0 ３ CPU１送信０＋１＝１ CPU２送信 CPU３送信１＋２＝３３＋３＝６最終結果 71 2025年度計算科学技術特論A

72.

[beta]

１対１通信利用例
（逐次転送方式、C言語）
受信用システム配列の確保
void main(int argc, char* argv[]) {
MPI_Status istatus;
自分より一つ少ない
….
ID番号（myid-1）から、
dsendbuf = myid;
double型データ１つを
drecvbuf = 0.0;
受信しdrecvbuf変数に
if (myid != 0) {
ierr = MPI_Recv(&drecvbuf, 1, MPI_DOUBLE, myid-1, 0, 代入
MPI_COMM_WORLD, &istatus);
}
自分より一つ多い
dsendbuf = dsendbuf + drecvbuf;
ID番号（myid+1）に、
if (myid != nprocs-1) {
ierr = MPI_Send(&dsendbuf, 1, MPI_DOUBLE, myid+1, 0, dsendbuf変数に入っ
ているdouble型データ
MPI_COMM_WORLD);
１つを送信
}
if (myid == nprocs-1) printf ("Total = %4.2lf ¥n", dsendbuf);
….
}
72

2025年度

計算科学技術特論A

73.

１対１通信利用例（逐次転送方式、Fortran言語） program main 受信用システム配列の確保 integer istatus(MPI_STATUS_SIZE) …. dsendbuf = myid 自分より一つ少ない drecvbuf = 0.0 ID番号（myid-1）から、 if (myid .ne. 0) then double型データ１つを call MPI_RECV(drecvbuf, 1, MPI_DOUBLE_PRECISION, 受信しdrecvbuf変数に & myid-1, 0, MPI_COMM_WORLD, istatus, ierr) endif 代入 dsendbuf = dsendbuf + drecvbuf if (myid .ne. numprocs-1) then call MPI_SEND(dsendbuf, 1, MPI_DOUBLE_PRECISION, & myid+1, 0, MPI_COMM_WORLD, ierr) 自分より一つ多い endif ID番号（myid+1）に、 if (myid .eq. numprocs-1) then dsendbuf変数に print *, "Total = ", dsendbuf endif 入っているdouble型 …. データ１つを送信 stop end 73 2025年度計算科学技術特論A

74.

総和演算プログラム（二分木通信方式）  二分木通信方式 k = １; for (i=0; i < log2(nprocs); i++) if ( (myid & k) == k) 1. 2. 3.    else 4.   74 (myid – k)番プロセスからデータを受信；自分のデータと、受信データを加算する； k = k * 2; (myid + k)番プロセスに、データを転送する；処理を終了する； 2025年度計算科学技術特論A

75.

総和演算プログラム（二分木通信方式）３段目＝ｌog2（８）段目 3 1 3 ２段目 0 1段目 1 2 7 5 3 4 7 5 6 7 7 7 3 0 75 5 3 1 1 2 3 2025年度 4 7 5 計算科学技術特論A 6 7

76.

総和演算プログラム（二分木通信方式）  実装上の工夫  要点：プロセス番号の２進数表記の情報を利用する  第i段において、受信するプロセスの条件は、以下で書ける： myid & k が k と一致  ここで、k = 2^(i-１) 。  つまり、プロセス番号の２進数表記で右からi番目のビットが立っているプロセスが、送信することにする  また、送信元のプロセス番号は、以下で書ける： myid + k  つまり、通信が成立するPE番号の間隔は２＾(i-１) ←二分木なので  送信プロセスについては、上記の逆が成り立つ。 76 2025年度計算科学技術特論A

77.

総和演算プログラム（二分木通信方式）  逐次転送方式の通信回数  明らかに、nprocs－１回  二分木通信方式の通信回数  見積もりの前提  各段で行われる通信は、完全に並列で行われる（通信の衝突は発生しない）  段数の分の通信回数となる  つまり、log2(nprocs) 回  両者の通信回数の比較  プロセッサ台数が増すと、通信回数の差（＝実行時間）がとても大きくなる  １０２４構成では、１０２３回対１０回！  でも、必ずしも二分木通信方式がよいとは限らない（通信衝突の多発） 77 2025年度計算科学技術特論A

78.

その他の話題（MPIプロセスの割り当て）  MPIプロセスと物理ノードとの割り当て Machine fileでユーザが直接行う  スパコン環境では、バッチジョブシステムが行う   バッチジョブシステムが行う場合、通信網の形状を考慮し、通信パターンを考慮し、最適にMPIプロセスが物理ノードに割り当てられるかはわからない最悪、通信衝突が多発する  ユーザが、MPIプロセスを割り当てるネットワーク形状を指定できる、バッチジョブシステムもある（例：富士通FX1000（「富岳」））  MPIプロセス割り当てを最適化するツールの研究もある   スパコンセンタの運用の都合で、ユーザが望むネットワーク形状が常に確保できるとは限らない  例）名大ITC：デフォルトは非連続割り当て →通信を減らす努力、実行時通信最適化の研究進展、が望まれる 78 2025年度計算科学技術特論A

79.

ランクマップ指定による高速化例  核融合プラズマ乱流コードGKV(Gyro Kinetic Vlasov code)  スーパーコンピュータ「不老」TypeⅠサブシステム（「富岳」型）  全系ジョブ  2,304ノードジョブ（110,592コア）  理論性能：7.782 PFLOPS  演算効率：6.67% ( 519 TFLOPS )  ランクマップなし：76.7[秒] → あり：66.4[秒] (15.5%高速化)  問題サイズ 1024 * 1024 * 48 * 96 * 48 * 3 = 7.0×1011 格子点  16 * 4 * 8 * 6 * 3 = 9,216 MPI ( = 2,304 node * 4MPI/node)  79 2025年度計算科学技術特論A

80.

拡張インターフェース  ベンダーごとに、MPIの拡張がされていることがある  FX1000（「富岳」「不老」）では、以下のものがある  ランク問合せインターフェース  MPIプロセスの各ランクが、TOFUトーラス構成の中で、どの位置に配置されているかを知る ⇒その物理配置情報から通信を最適化  拡張した持続的通信要求インターフェース   持続的集団通信要求インターフェース仕様  80 MPIの持続的通信の要求で、実現できない通信処理を、非同期に開始し、演算処理とオーバーラップさせる  FJMPI_PREQUEST_SEND_INIT、FJMPI_PREQUEST_START MPI-4の持続的集団通信要求のインターフェース 2025年度計算科学技術特論A

81.

参考文献 1. 2. 81 MPI並列プログラミング、P.パチェコ著／秋葉博訳 Message Passing Interface Forum （ http://mpi-forum.org/ ） 2025年度計算科学技術特論A

82.

レポート課題（その１）  問題レベルを以下に設定問題のレベルに関する記述： •L00: きわめて簡単な問題。 •L10：ちょっと考えればわかる問題。 •L20：標準的な問題。 •L30：数時間程度必要とする問題。 •L40：数週間程度必要とする問題。複雑な実装を必要とする。 •L50：数か月程度必要とする問題。未解決問題を含む。 ※L４０以上は、論文を出版するに値する問題。  教科書のサンプルプログラムは以下が利用可能  Sample-fx.tar 82 2025年度計算科学技術特論A

83.

レポート課題（その２） 1. 2. 3. [L05] MPIとは何か説明せよ。 [L10] 逐次転送方式、２分木通信方式の実行時間を計測し、どの方式が何台のプロセッサ台数で有効となるかを明らかにせよ。また、その理由について、考察せよ。 [L15] 二分木通信方式について、プロセッサ台数が２のべき乗でないときにも動作するように、プログラムを改良せよ。 83 2025年度計算科学技術特論A

第2回配信講義　計算科学技術特論A（2025）

R-CCS　計算科学研究推進室

関連スライド

第1回配信講義　計算科学技術特論A （2023）

第1回配信講義　計算科学技術特論A（2025）

第2回配信講義　計算科学技術特論A （2023）

第6回配信講義　計算科学技術特論A （2023）

第8回配信講義　計算科学技術特論A （2023）

第４回配信講義　計算科学技術特論A （2023）

各ページのテキスト

第2回 配信講義 計算科学技術特論A（2025）

R-CCS 計算科学研究推進室

関連スライド

第1回 配信講義 計算科学技術特論A （2023）

第1回 配信講義 計算科学技術特論A（2025）

第2回 配信講義 計算科学技術特論A （2023）

第6回 配信講義 計算科学技術特論A （2023）

第8回 配信講義 計算科学技術特論A （2023）

第４回 配信講義 計算科学技術特論A （2023）

各ページのテキスト

第2回配信講義　計算科学技術特論A（2025）

R-CCS　計算科学研究推進室

第1回配信講義　計算科学技術特論A （2023）

第1回配信講義　計算科学技術特論A（2025）

第2回配信講義　計算科学技術特論A （2023）

第6回配信講義　計算科学技術特論A （2023）

第8回配信講義　計算科学技術特論A （2023）

第４回配信講義　計算科学技術特論A （2023）