re:Invent 2017 HPCとDeep Learning関連アップデート

-- Views

December 07, 17

スライド概要

Updates in HPC and Deep Learning on re:Invent 2017
re:CAP -Serverworks re:Invent 2017 Report-, 7th December, 2017
https://serverworks.connpass.com/event/71748/

profile-image

Cloud Computing, Fluid Dynamics, Mechanical Engineering | PhD | Consulting Director at SUPWAT

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

各ページのテキスト
1.

re:Invent 2017 HPCとDeep Learning関連アップデート 2017年12月7日 re:CAP -サーバーワークス re:Invent 2017 視察報告会-

2.

白鳥 貴久 @takashiratori 博士(工学) サーバーワークス 営業部 ビジネスデベロップメント担当 略歴 2015年3月 2015年4月 2016年3月 2017年9月 流体力学分野の研究により博士(工学)を取得 サーバーワークスに入社 技術課に配属 顧客向けの環境構築を担当 営業部に配属 主にHPC分野のビジネスデベロップメントを担当

3.

AWSに対してよくある意見(イメージです) • 流体シミュレーションにクラウド利用を検討中 • MPIを使用するため、InfiniBandが使えるMicrosoft Azureが第一候補 • AWSではインスタンス間の通信帯域の細さがシミュレーションのボト ルネックになることを懸念 • Big Data分析や深層学習用途でクラウドを利用中 • Jupyterに慣れているので、GCPのCloud Datalabを使っている • 基幹システムでは圧倒的存在感のAWSだが、科学技術計算や深層学習の分野で は他の IaaS が好まれるケースも多かった • re:Invent 2017では、それらに対するAWSの「答え」が示された印象

4.

AWSに対してよくある意見(イメージです) • 流体シミュレーションにクラウド利用を検討中 • MPIを使用するため、InfiniBandが使えるMicrosoft Azureが第一候補 • AWSではインスタンス間の通信帯域の細さがシミュレーションのボト ルネックになることを懸念

5.

Cluster HPC と Grid HPC • Cluster HPC • 特徴 • 頻繁にインスタンス間の通信が発生する • 使用すべきAWSの機能 • Placement Group • Enhanced Networking • Elastic Network Adapter (ENA) • 25 Gbps を実現可能 • Grid HPC • 特徴 • インスタンス間の通信が少ない • 使用すべきAWSの機能 • Spot Instance • Auto Scaling AWS Batch • Amazon SQS re:Invent 2017 CMP207 など

6.

HPC環境で使える3つのアップデート  Spread Placement Group  AZ間にまたがることができるPlacement Group  ハードウェア障害時に、インスタンスが全滅する可能性を低くできる  これでPlacement Groupは「Cluster(従来のもの)」と「Spread」の2種となった  Spot Instance Hibernation  Spotインスタンスが強制削除となった際、メモリ内の情報をEBSに出力する  これまで強制削除時は計算データが消失していたが、これが救出可能になった  AWS Batch Array Job  複数のジョブをまとめるArrayという管理単位ができた  Array内のジョブを1つずつ順次実行したり、複数Array内のジョブ間に依存関係を持たせる ことが可能

7.

AWSに対してよくある意見(イメージです) • Big Data分析や深層学習用途でクラウドを利用中 • Jupyterに慣れているので、GCPのCloud Datalabを使っている

9.

Amazon SageMaker 深層学習の大まかな流れ ねこ いぬ いぬ ニューラルネットワーク をコーディングする 学習させる 予測させる

10.

Amazon SageMaker 深層学習の大まかな流れ ねこ いぬ いぬ ニューラルネットワーク をコーディングする 予測させる 学習させる AWSマネージドのJupyter Notebook環境 高レベルAPI Amazon SageMaker 予測エンドポイント

11.

AWS DeepLens いぬ

12.

AWS DeepLens いぬ いぬ Amazon SageMaker ねこ

13.

AWS DeepLens いぬ AWS Greengrass いぬ Amazon SageMaker ねこ

14.

AWS DeepLens いぬ AWS Greengrass AWS IoT いぬ Amazon SageMaker ねこ