20221223_技術グループ発表_GPU

2.1K Views

February 03, 23

スライド概要

HEROZ勉強会、技術調査グループGPUチームの発表

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

GPUのサービス利用 HEROZ株式会社

2.

アジェンダ  はじめに  クラウド市場シェア  クラウドデザインパターン  機械学習システムのデザインパターン  MLOps成熟度モデル  GPU対応のクラウドサービス  NVIDIA Multi-Instance GPU (MIG)  GPUのスケジューリング  NVIDIA GPU OPERATOR  Containerized GPU (cGPU)  サーバレス  まとめ 2

3.

はじめに

4.

はじめに 教えて!ChatGPT 4

5.

はじめに 教えて!ChatGPT 5

6.

クラウド市場シェア

7.

クラウド市場シェア グローバルのクラウドインフラ市場シェア  グローバルのクラウドインフラ市場シェア、Google Cloudが拡大傾向、AWSとAzureの1 位2位は盤石。2022年第3四半期、Synergy ResearchとCanalysの調査結果 - Publickey (publickey1.jp)  Q3 Cloud Spending Up Over $11 Billion from 2021 Despite Major Headwinds; Google Increases its Market Share | Synergy Research Group (srgresearch.com) 7

8.

クラウド市場シェア アジア太平洋地域のクラウド市場シェア  ワールドワイドのIaaSクラウド市場シェア、2021年は1位AWS、2位マイクロソフト、3位に はAlibaba、4位がGoogleとの調査結果。ガートナーが発表 - Publickey (publickey1.jp)  AWS, Alibaba and Microsoft Lead the APAC Cloud Market; Tencent, Google and Baidu are in the Chasing Pack | Synergy Research Group (srgresearch.com) 8

9.

クラウド市場シェア 国内クラウドサービスの市場規模  国内クラウドサービスの市場規模は3.5兆円に拡大 ≪ プレスリリース | 株式会社MM総研 (m2ri.jp) 9

10.

クラウドデザインパターン

11.

AWSクラウドデザインパターン AWS-CloudDesignPattern 11

12.

AWSクラウドデザインパターン • CDP:Scale Outパターン - AWS-CloudDesignPattern • CDP:Scale Upパターン - AWS-CloudDesignPattern • 1台のWeb/APサーバは、 NginxのようなWebサーバ を活用することで、workerプロセスが複数のリク エストを処理することができる • スケールアウトすることで、複数台で1台では処理 できない大量のリクエストを処理することができ る • スケールアップし、CPU/メモリ/ディスクを増強す ることで、1台が1度に処理できるリクエスト数を 増やすこともできる • では、GPUはどうすればいいか? • 技術よりもビジネス/コスト的な問題でスケール アウト(GPUサーバ台数追加)/スケールアップ (GPU枚数追加)する構成は採用しにくい 12

13.

AWSクラウドデザインパターン ⚫ サービス別資料 | AWS クラウドサービス活用資料集 (amazon.com) 13

14.

AWSクラウドデザインパターン サーバーレスパターン (amazon.com) 14

15.

AWSクラウドデザインパターン 「AWSではじめるデータレイク」出版記念データレイク解説セミナーの資料公開 | Amazon Web Services ブログ 15

16.

AWSクラウドデザインパターン amazon-s3-datalake-handson/JP at master · aws-samples/amazon-s3-datalake-handson · GitHub 16

17.

AWSクラウドデザインパターン • AWS re:Invent 2022 - How Stable Diffusion was built: Tips & tricks to train large AI models (CMP314) - YouTube • How Stable Diffusion was built: Tips and tricks to train large AI models 17

18.

AWSクラウドデザインパターン • AWS re:Invent 2022 - How Stable Diffusion was built: Tips & tricks to train large AI models (CMP314) - YouTube • How Stable Diffusion was built: Tips and tricks to train large AI models 18

19.

AWSクラウドデザインパターン • https://aws.amazon.com/jp/blogs/machine-learning/stability-ai-builds-foundation-models-on-amazon-sagemaker/ • https://docs.amazonaws.cn/en_us/sagemaker/latest/dg/distributed-training-notebook-examples.html • https://medium.com/@emilywebber/how-i-trained-10tb-for-stable-diffusion-on-sagemaker-39dcea49ce32 19

20.

Azureクラウドデザインパターン クラウド設計パターン - Azure Architecture Center | Microsoft Learn 20

21.

Azureクラウドデザインパターン Azure を使用した業界ソリューション - Azure Architecture Center | Microsoft Learn 21

22.

Azureクラウドデザインパターン Azure でのイメージの分類 - Azure Architecture Center | Microsoft Learn 22

23.

Google Cloudソリューション デザインパターン • Google Cloud ソリューションデザインパターンのサイトがリニューアルしてセッション動画や スライドの一覧ページができてます | DevelopersIO (classmethod.jp) • Solution Design Pattern (gc-solution-design-pattern.jp) 23

24.

Google Cloudソリューション デザインパターン Solution Design Pattern - ゲーム業界向け (gc-solution-design-pattern.jp) 24

25.

Google Cloudソリューション デザインパターン Solution Design Pattern - ゲーム業界向け (gc-solution-design-pattern.jp) 25

26.

機械学習システムのデザインパターン

27.

機械学習システムの設計パターン • 機械学習システムの設計パターンを公開します。 | メルカリエンジニアリング (mercari.com) • ml-system-design-pattern | System design patterns for machine learning (mercari.github.io) 27

28.

機械学習システムの設計パターン • ml-system-in-actions/chapter4_serving_patterns/web_single_pattern at main · shibuiwilliam/ml-systemin-actions · GitHub 28

29.

機械学習システムの設計パターン • Machine Learning 共通基盤構築の振り返り〜チーム立ち上げからクローズまで〜 | メルカリエン ジニアリング (mercari.com) 29

30.

MLOps 成熟度モデル

31.

MLOps 成熟度モデル 3大クラウド各社の MLOps 成熟度モデルの比較 - Qiita 31

32.

MLOps 成熟度モデル MLOps: 機械学習における継続的デリバリーと自動化のパイプライン | Cloud アーキテクチャ セン ター | Google Cloud 32

33.

MLOps 成熟度モデル MLOps: 機械学習における継続的デリバリーと自動化のパイプライン | Cloud アーキテクチャ セン ター | Google Cloud 33

34.

MLOps 成熟度モデル Amazon SageMakerを利用したエンタープライズのためのMLOps基盤ロードマップ | Amazon Web Services ブログ 34

35.

MLOps 成熟度モデル Amazon SageMakerを利用したエンタープライズのためのMLOps基盤ロードマップ | Amazon Web Services ブログ 35

36.

MLOps 成熟度モデル Amazon SageMakerを利用したエンタープライズのためのMLOps基盤ロードマップ | Amazon Web Services ブログ 36

37.

MLOps 成熟度モデル Amazon SageMakerを利用したエンタープライズのためのMLOps基盤ロードマップ | Amazon Web Services ブログ 37

38.

GPU対応のクラウドサービス

39.

GPU対応のクラウドサービス • 主要パブリッククラウドのサービス比較(GPU対応サービスは青字) • 拡張性は、サーバレス>コンテナ>仮想サーバ • アクティブ/アイドル時の待機コスト、初回起動/アイドル/スケールアウト時の復旧時間に 注意 Alibaba Cloud 仮想サーバ AWS Azure Google Alibaba Cloud Elastic Compute Amazon Elastic Compute Cloud Azure Virtual Machines Google Compute Engine (GCE) Service (ECS) (Amazon EC2) Alibaba Cloud Elastic Container AWS Fargate サーバレスコンテナ Instance (ECI) Azure Container Instances (ACI) Cloud Run Cloud Run for Anthos サーバレス関数 Alibaba Cloud Function Compute (FC) AWS Lambda Azure Functions Cloud Functions コンテナレジストリ Alibaba Cloud Container Registry (ACR) Amazon Elastic Container Registry (ECR) Azure Container Registry (ACR) Google Container Registry (GCR) コンテナクラスタ Alibaba Cloud Container (Kubernetes および独自 Service for Kubernetes (ACK) 仕様) 機械学習プラット フォーム Amazon Elastic Kubernetes Service (EKS) Amazon Elastic Container Service (ECS) Azure Kubernetes Service (AKS) Amazon SageMaker Alibaba Cloud Machine Azure Machine Learning Platform for AI (PAI) Amazon SageMaker Serverless Learning Inference Google Kubernetes Engine (GKE) Anthos Vertex AI 39

40.

NVIDIA Multi-Instance GPU (MIG)

41.

NVIDIA Multi-Instance GPU (MIG) GiNZA で体感する MIG のパフォーマンス スケーラビリティ - NVIDIA 技術ブログ 41

42.

NVIDIA Multi-Instance GPU (MIG) NVIDIA Multi-Instance GPU User Guide :: NVIDIA Tesla Documentation 42

43.

NVIDIA Multi-Instance GPU (MIG) NVIDIA Multi-Instance GPU User Guide :: NVIDIA Tesla Documentation 43

44.

NVIDIA Multi-Instance GPU (MIG) クラウドベンダー各社のMIG検証手順  Utilizing NVIDIA Multi-Instance GPU (MIG) in Amazon EC2 P4d Instances on Amazon Elastic Kubernetes Service (EKS) | Containers  マルチインスタンス GPU の実行 | Google Kubernetes Engine(GKE) | Google Cloud  Use a node pool to partition an NVIDIA A100 GPU into multiple GPU instances (alibabacloud.com) 44

45.

GPUのスケジューリング

46.

GPUのスケジューリング • GPUのスケジューリング | Kubernetes • Schedule GPUs | Kubernetes 46

47.

NVIDIA GPU OPERATOR

48.

NVIDIA GPU OPERATOR Overview — NVIDIA Cloud Native Technologies documentation 48

49.

NVIDIA GPU OPERATOR Platform Support — NVIDIA Cloud Native Technologies documentation 49

50.

Containerized GPU (cGPU)

52.

Containerized GPU (cGPU) • 【CEDEC2022】将棋AIの進化とクラウドサービスの活用 – YouTube • cGPUとAIACCご紹介_r8.pdf 52

53.

Containerized GPU (cGPU) • 【CEDEC2022】将棋AIの進化とクラウドサービスの活用 – YouTube • cGPUとAIACCご紹介_r8.pdf 53

54.

Containerized GPU (cGPU) • 【CEDEC2022】将棋AIの進化とクラウドサービスの活用 – YouTube • cGPUとAIACCご紹介_r8.pdf 54

55.

Containerized GPU (cGPU) • 【CEDEC2022】将棋AIの進化とクラウドサービスの活用 – YouTube • cGPUとAIACCご紹介_r8.pdf 55

56.

Containerized GPU (cGPU) cGPUのご紹介_2204r4.pdf 56

57.

サーバレス

58.

サーバレス • Function Compute の概要 (alibabacloud.com) • What is Function Compute? (alibabacloud.com) 58

59.

サーバレス FunctionComputeのご紹介.pdf 59

60.

サーバレス FunctionComputeのご紹介.pdf 60

61.

サーバレス FunctionComputeのご紹介.pdf 61

62.

サーバレス FunctionComputeのご紹介.pdf 62

63.

サーバレス FunctionComputeのご紹介.pdf 63

64.

サーバレス FunctionComputeのご紹介.pdf 64

65.

サーバレス Serverless AI inference based on Function Compute and TensorFlow (alibabacloud.com) 65

66.

サーバレス サンプルソース • Serverless Devs Registry/start-fc - 码云 - 开源中国 (gitee.com) • fc: 阿里云函数计算(FC)组件 - Gitee 66

67.

まとめ

68.

まとめ 教えて!ChatGPT 68

69.

まとめ 教えて!ChatGPT 69