EC 新時代:AI Factory × Vertex AI ハイブリッド連携術 - 配布用(当日実施版)

424 Views

August 14, 25

スライド概要

https://www.googlecloudevents.com/next-tokyo/sessions?session_id=3123576
Cloud Run 上の .NET/C#マイクロサービス EC とプライバシー保護に優れた FPT AI Factory のセキュアな連携基盤を構築、モデルファインチューニングをAI Factory 側で実施しつつ Google Cloud 側の Vertex AI に迅速連携。高精度な商品リコメンデーションや顧客傾向分析等を実現し、ECサイトの競争力を大幅向上。ハイブリッドアーキテクチャの設計・実装例をご紹介します

取り上げる主な Google Cloud 製品 / サービス
・Cloud Run
・Gemini
・Vertex AI

profile-image

FPT ジャパン エグゼクティブエバンジェリスト 独立行政法人 国立印刷局 デジタル統括アドバイザー兼最高情報セキュリティアドバイザー Microsoft で C#、.NET、Visual Studio、Windows、iOS、Android、Microsoft Azure 等の開発者向け技術啓発活動を担当後、Dell、Accenture、Elastic、VMware を経て現職まで一貫して同様の活動を継続。現職では NVIDIA AI GPU クラウドサービス、各パブリッククラウドとの AI 関連での協業、マーケティングを担当。政府の仕事は、内閣官房 政府 CIO 補佐官、 デジタル庁 PM を経て、現職を兼務。 AI 駆動開発勉強会主催。Locofy.ai の Regional Developer Advocate も兼務。

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

各ページのテキスト
1.

EC 新時代: AI Factory × Vertex AI ハイブリッド連携術 ~.NET 分散 EShop × Cloud Run × ハイブリッド GenAI で実現する EC サイト 革新~ Proprietary

2.

Proprietary 鈴木 章太郎 X (Twitter) : @shosuz https://www.docswell.com/user/shosuz FPT ジャパン FPT データ& AI インテグレーション エグゼクティブエバンジェリスト 略歴: Microsoft で C#、.NET、Visual Studio、 Windows、iOS、Android、Microsoft Azure 等の 開発者向け技術 啓発活動を担当。その後、Dell、 Accenture、Elastic、VMware を経て現職 まで 一貫して技術啓発活動を継続。 NVIDIA との戦略的協業 AI GPU クラウドサービス および、各パブリッククラウドベンダーとの AI&データ関連 サービスのマーケティング活動を実施する。AI 駆動開発 勉強会主催。 Google Cloud Next Tokyo 02

3.

Proprietary 01 .NET 分散 EShop × Google Cloud Run アーキテクチャ マイクロサービス構成とクラウドネイティブな基盤設計をひと目で 理解 アジェンダ / 本日のゴール 02 ハイブリッド GenAI の本質価値 オンプレミスの安全性とクラウドの拡張性を両立した AI 活用 の真価 03 リアルな変革を共有できるデモ セマンティック検索 ‧ 会話型バスケット ‧ 多数決などのデモ Google Cloud Next Tokyo 03

4.

Proprietary 01 .NET 分散 EShop × Google Cloud Run アーキテクチャ Google Cloud Next Tokyo 04

5.

なぜ今 「ハイブリッド AI 」なのか? Proprietary EC の競争力 = 1 機密データ保護( オンプレ/プライベート) 2 生成 AI のクラウド活用( 拡張性/速さ) 3 すべてを安全に両立! Google Cloud Next Tokyo 05

6.

Proprietary 02. ハイブリッド GenAI の本質価値 Google Cloud Next Tokyo 06

7.

.NET on Cloud Run × GenAI アーキテクチャ Basket Service Catalog Service Identity Service Proprietary Search Service オンプレミス環境 API Gateway Vertex AI Google Cloud LLM Frontend Service Google Cloud Engine オンプレLLM Gemma, Nemotron FPT AI Factory PostgreSQL Cloud SQL Redis Memorystore Pub/Sub Vector DB イベント連携 AlloyDB/PG Vector リアルタイム・AIドリブンな顧客体験基盤 Google Cloud Next Tokyo FPT AI Studio 数クリック × ハイブリッド GenAI 連携でスケーラブルな EC 体験を実現 07

8.

NVIDIA 認定 FPT AI Factory アーキテクチャ Proprietary • FPT AI Factory サービスはベトナムと日本の複数の地域で展開 • FPT AI Factory アーキテクチャは NVIDIA のグローバル標準に準拠し、NVIDIA により実装および検証 • 大規模要件に対応するスーパーコンピューティングクラスター 数千台の NVIDIA Hopper GPU (H200) • 超高速ネットワークには、非ブロッキング InfiniBand ファブ リックと、組み込みハードウェア アクセラレーション用のデータ 処理ユニット (DPU) が含まれる 2つの新しい地域をリリース (合計7ゾーン、3地域) • 各クラスターの計算能力は最大69 PFLOPS • 100 以上のフレームワーク、事前トレーニング済みモデル、 ライブラリを提供する NVIDIA AI Enterprise ソフト ウェアプラットフォームとの統合 • NVIDIA NGC NVIDIA 推論マイクロサービス • NVIDIA NeMo NVIDIA ベースコマンドマネージャー 日本 ネットワーキング ペタビット、ノンブロッキング NVIDIA Infiniband ファブ リック ノード1 400 Gbps インフィニバンド NVIDIA HGX H200 SXM*8 グローバルネットワーキング パートナー JPN-01 GPUクラウド GP グ ラフ ィッ ク プ ロ セッ サ あな た グ ラフ ィッ ク プ ロセ ッサ グ ラフ ィッ ク プ ロセ ッサ 40 0Gb ps I nfi niba nd ベトナム - ハノイ ベトナム - ホーチミン 波長多重 多重 HNI-02 GPUクラウド 。 。 DPU グ ラフ ィッ ク プ ロ セッ サ グ ラフ ィッ ク プ ロ セッ サ 40 0Gb ps I nfi niba nd 40 0Gb ps I nfi niba nd グ ラフ ィッ ク プ ロ セッ サ グ ラフ ィッ ク プ ロセ ッサ 40 0Gb ps I nfi niba nd 40 0Gb ps I nfi niba nd 40 0Gb ps I nfi niba nd 40 0Gb ps I nfi niba nd 。 。 NVIDIA HGX H200 SXM*8 40 0Gb ps I nfi niba nd 40 0Gb ps インフィ ニバンド 900 GB/秒のNVSwitch GPUからGPUへ ノードN 40 0Gb ps インフィ ニバンド 40 0Gb ps インフィ ニバンド グ ラフ ィッ ク プ ロセ ッサ グ ラフ ィッ ク プ ロ セッ サ グ ラフ ィッ ク プ ロ セッ サ グ ラフ ィッ ク プ ロ セッ サ G PU G PU G PU G PU 900 GB/秒のNVSwitch GPUからG PUへ 。 FPTクラウドサービス GPUサーバー 高性能 ストレージ 雲 サーバ コンテナサー ビス 監視サービス AI開発 カタログ 安全 サービス サイバーセキュリ ティサービス 。 DPU HCM03 冗長性 負荷分散 HCM-01 Google Cloud Next Tokyo HCM-02 災害復旧 ストレージ同期 HNI-01 HNI-03 08

9.

FPT AI FACTORY お客様む向けサービス https://fptcloud.com/ja/product/fpt-ai-factory-ja/ ベトナム2地域と日本1地域 AI/ML 開発エコシステム AI 製品 デジタル顧客 オンボーディング インテリジェント ドキュメント処理 AI コンタクトセンター 強化 市場 会話型 AI と AI エージェント AI Marketplace 物理インフラ クラウド インフラ &プラットフォーム AI プラットフォーム FPT AI Agents エージェント スタジオ 計画 メモリ ツール モデル ハブ モデルファイン チューニング 微調整された LLM モデル ガードレール FPT AI Inference FPT AI Studio AI ノートブック AI のためのデータ 処理 Proprietary NVIDIA 認定システムアーキテクチャ FPT AI Applications AI メンター 管理者 モデルの事前 トレーニング Model as-aService モデル サービング NVIDIA AI Enterprise NVIDIA NGC AI Solution Workflows, Frameworks & Pre tra ined models NVIDIA NeMo AI & Data Science Development Too ls NVIDIA Inference Microservices Cloud Native Manage me nt & Orchestration FPT AI Infrastructure Database Platform ベクターデータベース NVIDIA Google Cloud Next Tokyo H100/H200 GPU コンテナ GPU 仮想マシン ハイエンドネットワーク マネージド GPU クラスター ハイエンドCPU NVIDIA Base Command Manager メタル クラウド ファイル ストレージ 高性能ストレージ Infrastructure Optimization Infrastructure Management 09

10.

TOP500 スーパーコンピュータランキングで日本第1位 Proprietary FPT AI Factory は、2025年6月版 TOP500 において日本で最も優れた商用クラウド プロバイダーの一つして認定されました。※日本第1位、世界36位 146,304コアを搭載し、49.85ペタフロップスを達成。これは AI 及びクラウドコンピューティングに おける FPT の技術力を証明しており、国際的な AI 基盤としての地位を確立しました。 TOP 500ランキングの重要性 圧倒的な性能 TOP500 は世界中のスーパーコンピュータの性能を評価する権 威あるランキングで、LINPACK ベンチマークを基に計算能力を測 定します。 このランキングは、各国の政府や研究機関、企業にとって、ハード ウェア性能やシステム設計の国際的な基準を示す重要な指標と なっています。 AI Factory は146,304コアを搭載し、49.85ペタフロップス の処理能力を誇ります。 この数値は、大規模なデータ処理や複雑な AI アルゴリズムの 実行を可能にし、企業が競争力を 維持するための強力なツール となります。 特に、デジタル変革を進める企業にとって、FPT の技術は欠かせ ないものとなるでしょう。 Google Cloud Next Tokyo 「TOP500」ランキングで第36位および第38位に選出 (出典:TOP500.org) 010

11.

Gemma & Nemotron JP o n FPT AI Factor y Managed C luster (H200 Proprietary x 8) Google Cloud Next Tokyo 011

12.

Proprietary 03. リアルな変革を共有できるデモ Google Cloud Next Tokyo 012

13.

本日デモする ハイブリッド EShop シナリオ Cloud Run 上のマイクロサービス+ハイブリッド GenAI 連携を実演 Catalog Service Basket Service Identity Service Search Service オンプレミス環境 API Gateway Vertex AI Google Cloud LLM Frontend Service Google Cloud Engine オンプレLLM Gemma, Nemotron FPT AI Factory PostgreSQL Cloud SQL Cloud Run + C#/.NET フルマネージドでスケーラブルな C# / .NET マイクロサービス Redis Memorystore Pub/Sub Vector DB イベント連携 AlloyDB/PG Vector マネージドデータストア Cloud SQL + Memorystore + Pub/Sub で高性能バックエンド ハイブリッド AI 連携 オンプレ+クラウド AI を必要に応じて 即時切替

14.

Proprietary Google Cloud Next Tokyo 014

15.

マルチクラウド - SCSK Cloud netXchange サービスの利用 • FPT データセンター内 に ExpressRoute / Direct Connect / FastConnect のクラウド接続点がある為、 • 利点:FPT AI Factory 用に新たな Express Route のような閉域接続回線を用意する必要がない為、 コストと接続開始時期が大幅に短縮可能 Proprietary Google Cloud /Azure / AWS / OCI と構内接続することで FPT AI Factory に閉域接続が可能となる ExpressRoute Microsoft Azure FPT データセンター Cloud Interconnect Cloud Interconnect (既存) お客様拠点 Direct Connect Secure 閉域接続で高い安定性と セキュリティを確保 Google Cloud Next Tokyo FPT AI Factory Direct Connect AWS Fast Connect OCI Direct Link IBM Cloud Flexible Reliable Convenient 接続方法と帯域を柔軟に 選べるサービスメニュー 冗長構成を標準とした 高可用性を実現 接続に必要な BGP ルータを フルマネージドで提供 015

16.

Proprietary Google Cloud Next Tokyo 016

17.

Proprietary Google Cloud Next Tokyo 017

18.

【デモ1】セマンティック検索&商品レコメンデーション Proprietary • 自然文での検索 → ベクトル検索 → LLM 推薦 → クロスセル提案まで • Vertex AI マルチリージョン自動スケーリングでグローバル規模でも瞬時に体験可能 "夏用の軽量ハイキングシューズを探しています" 自然言語検索 ユーザーの意図を理解し、専門的なキーワードがなく ても最適 な商品を特定 ベクトル検索 商品説明‧特徴をベクトル化し、意味ベースの類似性でマッチング トレイルランナー 軽量 ¥12,800 サマーハイカー エアメッシュ ¥14,500 検索履歴 ‧ 好み ‧ 閲覧パターンから最適な商品を LLM が選定 あなたへのレコメンド 速乾ソックス LLM 商品レコメンド 防水スプレー クロスセル提案 選んだ商品との相性‧使用シーンに最適な関連商品を自動提案 Vertex AI グローバル自動スケーリング • • Google Cloud Next Tokyo マルチリージョン展開で世界中どこでも<50ms 15秒間隔需要予測で瞬時に推論能力を調整 018

19.

Proprietary Google Cloud Next Tokyo 019

20.

Proprietary Google Cloud Next Tokyo 020

21.

Proprietary Google Cloud Next Tokyo 021

22.
[beta]
セマンティック検索 & プライバシー
判定 AI ルーティングの発展系

AIController.cs
[HttpPost("semantic-search")]
public async Task<IActionResult> SemanticSearch([FromBody] SearchRequest request)
{
// プライバシー判定:個⼈情報‧機密情報の有無をチェック
var usePrivateAI = _privacyAnalyzer.ContainsSensitiveData(request.Query);
string aiResponse; if
(usePrivateAI)

ユーザー検索クエリ受信

{

プライバシー判定
FPT AI Factory
プライベート環境
個⼈・機微情報あり

// 機密情報(個⼈情報)を含む場合は FPT AI Factory vLLM で処理
// プライバシー保護のためオンプレミスで処理
aiResponse = await _vllmK8sClient.ChatCompletionAsync($""" ECサイトの

Vertex AI
クラウド環境

商品検索: {request.Query}
...商品リスト...
""");

一般クエリ

}
else
{

処理結果をフロントエンドに返却

// 一般的な検索クエリはクラウドVertex AIで高速処理

Point
•
•
•
•

Proprietary

// グローバルスケールの自動スケーリングを活用
aiResponse = await _vertexAIClient.GenerateContentAsync(request.Query);

プライバシー判定による AI プロバイダー自動選択
機密データは Gemma/Nemotron vLLM
内部処理
一般クエリは Vertex AI の高速レスポンスを活
処理場所をレスポンスに含めて透明性を確保

}
return Ok(new {
query = request.Query,
recommendations = aiResponse,
provider = usePrivateAI ? "FPT AI Factory vLLM" : "Vertex AI",
processingLocation = usePrivateAI ? "Private" : "Cloud"
});

Google Cloud Next Tokyo

}

022

23.

【デモ2】会話型バスケット+パーソナライズ ショッピングカート 半袖Tシャツ(ネイビー) ¥12,500 サイズ:L × 1 ¥2,500 サイズ:25-27cm ¥1,800 サイズ:27.0cm ¥8,200 ランニングソックス(3足組) ランニングシューズ このシューズに合うインソールを探しています ランニングシューズに最適なスポーツインソールがござい ます。クッション性に優れたタイプを追加しますか? いいですね。予算は3,000円以内で。あ と今日注文すると、到着はいつですか? ¥2,400のインソールをカートに追加しました!本日 16時までのご注文で明日の午前中にお届け可能 です。送料は無料です。 AI アシスタントに質問... Google Cloud Next Tokyo Proprietary AI チャットによる商品提案 FPT AI Studio vLLM テンプレートで起動した カスタム EC モデルによる会話型提案 パーソナライズド特典自動提案 会員状況‧購入履歴に基づいた最適な割引や特典 を自動表示 配送オプション会話型案内 希望納期や配送方法を会話から 推測し最適な 選択肢を提示 Cloud Run 上のバスケットサービス .NET Pub/Sub経由で FPT AI Studio vLLM OpenAI 互換 API と連携 Cloud Run + Memorystore (Redis) でセッション管理 023

26.
[beta]
【デモ3】ハイブリッド AI
パーソナライズと多数決

BasketController.cs

[HttpPost("basket-chat")]
public async Task<IActionResult> BasketChat([FromBody] BasketChatRequest request)
{
// バスケット取得
var basketItems = await _basketService.GetBasketAsync(request.UserId);

会話型バスケットのデモ

// 個⼈データが含まれる場合はPrivate AI優先
var usePrivateAI = _privacyAnalyzer.RequiresPrivateProcessing(
request.Message, basketItems, request.UserId);

このシューズに合うインソールを探しています
このシューズに最適な「クッションプロ」インソールがおすすめです。
¥2,400をカートに追加しますか?

string chatResponse; if
(usePrivateAI)

AI Provider: FPT AI Factory vLLM

{
// Gemma/Nemotron vLLM on FPT AI Factory Managed Cluster へ
chatResponse = await _vllmK8sClient.ChatCompletionAsync($"""
バスケット: {string.Join(", ", basketItems.Select(i => i.Name))}
質問: {request.Message}

バスケット状態取得
会話コンテキスト ‧ 個⼈情報分
購入履歴参照

一般質問

FPT AI Factory
プライベート処理

Vertex AI
クラウド処理

個⼈情報配慮で親切に回答、提案も追加
""");
}
else
{

ハイブリッド活用ポイント

// 一般会話はVertex AI
chatResponse = await _vertexAIClient.GenerateContentAsync($"""
バスケットQ&A: {request.Message}
バスケット: {string.Join(", ", basketItems.Select(i => i.Name))} """);

}

• 購入履歴 ‧ 個⼈情報は FPT AI Factory vLLM で
内部処理

return Ok(new {
basketItems, userMessage = request.Message, aiResponse = chatResponse, provider
= usePrivateAI ? "FPT AI Factory vLLM" : "Vertex AI",

• 一般的な商品質問は Vertex AI で高速対応

timestamp = DateTime.UtcNow

• Redis(Memorystore)でバスケット状態をキャッシュ
Google
Cloud Next Tokyo
• 動的なプロバイダー選択で最適な
AI 応答を実現

Proprietary

});
}

026

30.

Vertex AI マルチリージョン展開 × Cloud Run 連携の強み • 可用性・自動スケール‧コスト効率 コンテナ単位の自動スケール ‧ 0~N オートスケーリングで迅速コスト最適化 • 堅牢なマネージドデータベース PostgreSQL/Redis による高性能データ層 ‧VPC経由プライベートアクセス • 非同期イベント駆動型の推論連携 リアルタイム連携 ‧ イベント駆動 AI レコメンド‧障害回復性の確保 Proprietary Cloud Run Cloud SQL Memorystore Pub/Sub .NET / C# 分散アーキテクチャと Google Cloud ネイティブサービスの統合でスケーラビリティとコスト効率に優れた EC 基盤を実現 【Vertex AI グローバル展開の追加メリット】 • マルチリージョン配置:us-central1, asia-northeast1, europe-west1 • A3/G2 シリーズ GPU:15秒間隔需要予測ベース自動調整 • コスト効率:大型マシン活用で総コスト最適化 Cloud Run はマイクロサービス基盤として必要。役割分担としては: Cloud Run = アプリケーション層のスケール : Vertex AI = AI 推論層のスケール Google Cloud Next Tokyo 030

31.

セキュリティ / 運用設計の要点 Proprietary 1 VPC / プライベートアクセス設計 Cloud Run は VPC Connector で内部サービスと安全接続 データベース‧キャッシュは完全なプライベートアクセス 2 CMEK + IAM + 監査ログ 顧客管理暗号化キーと自動ローテーション Cloud Audit Logs 連携で全操作の完全な監査証跡 3 API 権限分離とパフォーマンス監視 サービスごとの分離サービスアカウント&最小権限 Cloud Monitoring でリアルタイムパフォーマンス監視 Google Cloud Next Tokyo 031

32.

.NET /C# アプリ × Cloud Run 導入ステップ 1 .NET Blazor テンプレート → Cloud Run / CICD 構成 2 Cloud SQL, Memorystore, Pub/Sub を GCでセットアップ 3 GenAI( VertexAI API + Gemma/Nemotron on FPT AI Factory) 統合 4 すぐ 動く 開発体験&自動運用 Google Cloud Next Tokyo Proprietary 032

33.

ご清聴ありがとうございました。 Proprietary 033

34.

Appendix

35.

FPT AI FACTORY FPT Smart Cloud, 2025

36.

アーキテクチャ概要 – InfiniBand ファブリック

37.

パフォーマンスベンチマーク と検証結果

38.

ベンチマーク基準 ベンチマークの結果は、システムが期待されるパフォーマンスを満たしていることを示しています。 システムが期待通りに動作していることを示すために、次の3つのテストが使用されました。 1. High-Performance Linpack (HPL) は、システム パフォーマンスを測定するために使用される標準 的な計算ベンチマークです。 ノードと通信ファブリックの両方に同時に負荷をかけます。 2. NVIDIA® Collective Communications Library (NCCL) の all-reduceテストは、 最も頻繁に使用されるデータ並列ディープラーニング (DL) 通信パターンをシミュレートします。 3. LLMトレーニング:NVIDIA Nemotronトレーニングは、クラスターのもつAIおよびディープラーニン グタスクの能力の包括的な評価を目的としています。

39.

1. 高性能 Linpack (HPL) ベンチマーク環境 コンポーネント バージョン/説明 システム HGX H200 SXM サーバー数 126 GPU数 1,008 NVIDIA H200 SXM5 H200 - NVIDIA ドライバー 550.90.07 NVIDIA メラノックス OFED 24.04-0.7.0.0 HPL NVIDIA NGC コンテナ hpc-benchmarks:24.09 NCCL NVIDIA NGC コンテナ hpc-benchmarks:24.09 ニモ NVIDIA NGC コンテナ nemo フレームワーク 24.12

40.

1. 高性能 Linpack (HPL) ベンチマーク結果(スケーラブルユニット) ノード 1 2 4 8 16 30 32 最大FLOPS (ギガフロップ ス/秒) 401,400 808,500 1,599,000 3,203,000 6,385,000 11,420,000 12,470,000 10回の反復に 最小FLOPS わたるパフォ (ギガフロッ ーマンス変動 プス/秒) (%) 390,400 788,600 1,570,000 3,162,000 6,290,000 11,330,000 12,450,000 2.78% 2.49% 1.83% 1.29% 1.50% 0.79% 0.16% スケーリン グ効率(%) 該当なし 100.83% 100.01% 100.45% 99.99% 95.92% 97.61% ノード 1 2 4 ノード 1 2 4 8 16 30 32 最大FLOPS (ギガフロップ ス/秒) 401,600 809,700 1,595,000 3,207,000 6,361,000 11,450,000 12,450,000 388,200 783,900 1,566,000 3,145,000 6,279,000 11,400,000 12,440,000 3.39% 3.23% 1.83% 1.96% 1.30% 0.44% 0.08% スケーラブルユニット3(SU3) 最小FLOPS (ギガフロ ップス/秒) スケーリング 効率 (%) 30 400,700 812200 1,596,000 3,224,000 6,340,000 11,390,000 39万 788700 1,567,000 3,159,000 6,264,000 11,370,000 2.71% 2.94% 1.83% 2.04% 1.20% 0.18% 該当なし 101.27% 100.02% 100.58% 99.84% 96.02% 32 12510000 12440000 0.56% 98.67% 8 16 スケーラブルユニット1(SU1) 10回の反復に 最小FLOPS わたるパフォ (ギガフロッ ーマンス変動 プス/秒) (%) 最大FLOPS (ギガフロップ ス/秒) 10回の反復に わたるパフォ ーマンス変動 (%) スケーラブルユニット2(SU2) 10回の反復に わたるパフォ スケーリン ーマンス変動 グ効率(%) (%) 最大FLOPS (ギガフロップ ス/秒) 最小FLOPS (ギガフロ ップス/秒) 1 400,200 391,500 2.20% 該当なし 2 809,300 782,500 3.36% 100.85% 4 1,602,000 1,559,000 2.71% 100.15% 8 320万 3,162,000 1.20% 100.33% 16 6,370,000 630万 1.10% 100.20% 30 11,440,000 11,410,000 0.26% 96.19% スケーリング 効率 (%) ノード 該当なし 101.10% 100.11% 100.37% 99.96% 96.48% 96.48% スケーラブルユニット4(SU4)

41.

1. 高性能 Linpack (HPL) ベンチマーク結果(ランダム、126ノード) ノード 最大FLOPS(GFlop/s) 最小FLOPS(GFlop/s) 10回の反復にわたるパフォ スケーリング効率(%) ーマンス変動(%) su1、su2 64 24,820,000 24,750,000 0.28% 98.18% su2、su3 64 24,700,000 24,660,000 0.16% 97.67% su2、su4 64 24,710,000 24,680,000 0.12% 97.75% su1、su3 64 24,830,000 24,740,000 0.36% 98.22% su1、su4 64 24,780,000 24,740,000 0.16% 98.02% su3、su4 64 24,630,000 24,600,000 0.12% 97.43% ランダム32 12,500,000 12,290,000 1.68% 98.89% ランダム64 24,770,000 24,560,000 0.85% 97.98% ランダム96 36,770,000 36,280,000 1.33% 97.10% ランダム 126 47,620,000 47,400,000 0.46% 95.68% トップ500 126 49,850,000 TOP500 リストのライブラリとバイナリを使用して実行した HPL テストでは、126 ノードを使用して 49.85 PFlop/s のパフォーマンスが得られました。

42.

2. NVIDIA® 集合通信ライブラリ (NCCL) ベンチマーク結果 NCCLテストスイートのall-reduceテストは、InfiniBandコンピュートファブリックを検証します。このNCCLテストは、 データ並列 DL トレーニング アプリケーションの通信パターン。 すべての InfiniBand 接続を最大限のパフォーマンスに引き上げ、ネットワ ークの問題に敏感です。 SU ノード数 最大 GB/秒 最小 GB/秒 パフォーマンス 変動率(%) SU 1 2 3 4 32 32 32 30 370.69 371.42 370.87 356.7 369.31 369.09 369.21 352.52 0.37% 0.63% 0.45% 1.17% su1、su2 64 su2、su3 64 su2、su4 64 su1、su3 64 su1、su4 64 su3、su4 64 ランダム64 ノード数 最大 GB/秒 最小 GB/秒 パフォーマン ス変動(%) 64 370.84 368.95 0.51% 64 371.41 368.59 0.76% 64 371.02 368.05 0.87% 64 370.83 369.16 0.45% 64 371.02 369.57 0.39% 64 370.96 370.01 0.26% 64 371.31 368.1 0.86% 報告されたパフォーマンスは、最大バッファ サイズでの良好な帯域幅です。 期待されるアウトオブプレース パフォーマンスは少なくとも 320 GB/秒です。

43.

3. LLMトレーニング ベンチマーク結果 LLM Nemotronワークロードは、AIおよびディープラーニングタスクに対するクラスターの能力を包括的に評価することを目的としていま す。 トークス/秒 /GPU 1秒あたりのト ークンスルー プット 1Tトークン を数日でトレ ーニングする 時間 精度 ノード GPUの 数 FP16 32 256 340B 4.87 9.86 26372.64 438.87 FP16 64 512 340B 4.89 9.75 52533.87 220.32 FP8 16 128 15B 2.17 2.32 28248.28 409.73 FP8 32 256 15B 2.18 2.33 56254.08 205.75 設定 ステップタイム (秒) • (1秒あたりのトークンのスループット) = (シーケンスの長さ) * (グローバルバッチサイズ) / (training_step_timing) • (トレーニング時間(日数)) = (合計トークン数) / (1秒あたりのトークンスループット) / (1日の秒数) * NVIDIA Nemo を使用

44.

トレーニングパフォーマンスベンチマーク(Qwen 2.5) タスクSFT(教師あり微調整)LLM 学習可能な パラメータの 数 数の例 確認された入 力トークンの 数 時代数 1 37,123 26360608 5 73,127,272,448 1,455 4億2106万8800 5時00分 2 37,123 26360608 5 73,127,272,448 1,455 4億2106万8800 3時間30 分 4 37,123 26360608 5 73,127,272,448 1,455 4億2106万8800 2時間4 分 8 37,123 26360608 5 73,127,272,448 1,455 4億2106万8800 1時間2 分 16 37,123 26360608 5 73,127,272,448 1,455 4億2106万8800 0時35分 クウェン2.5-72B指示する 32 37,123 26360608 5 73,127,272,448 1,455 4億2106万8800 0時22分 クウェン2.5-72B指示する ノード モデルサイズ 全体最適化の手順 到着予定 時刻 モデル名 クウェン2.5-72B指示する クウェン2.5-72B指示する クウェン2.5-72B指示する クウェン2.5-72B指示する 継続的な事前トレーニング 数の例 サイズデー タ(GB ) 時代数 1 11,726,507 11.7 32 11,726,507 32 11,726,507 ノード 11.7 11.7 全体最適化の 手順 学習可能な パラメータの 数 到着予定時刻 モデル名 1 45,807 32,763,876,352 7:59:33 ~ 31.3 ンガイ クウェン2.5-32B指示する 32,763,876,352 1 45,807 32,763,876,352 70時間 ~ 2.9日 クウェン2.5-32B指示する 32,763,876,352 4 45,807 32,763,876,352 31時間 ~ 1.3日 クウェン2.5-32B指示する モデルサイズ デバイスあたりの バッチサイズ 1 32,763,876,352 1 1

45.

FPT AI Factory Japan(2026年6月時点のトップ36/500)

46.

FPT AI Factory Vietnam (2026年6月時点のトップ38/500)

47.

サービス内容について

48.

FPT AIインフラストラクチャ 近日公開 マネージドGPUクラスター GPUコンテナ メタルクラウド GPU仮想マシン • 単一テナント専用の物理サーバー(ベ アメタル) • 物理的な直接アクセス ハードウェア • 専用 GPU カードを備えた仮 想マシン (VM) • 柔軟なリソーススケールと 展開 • Kubernetesで複数のベアメタ ルGPUサーバーを管理 • 専用GPUを搭載したコンテナ • 処理する必要はありません インフラストラクチャー • 利便性と導入の容易さ • スポットインスタンスを迅速に スケールアップ • 推論、軽量AIトレーニング、中 程度のデータ処理 • Metal Cloudの利点を継承 • コンテナ化されたアプリケーションを 最短時間で起動 目的 • 厳格なレイテンシーとセキュリティ • 最大のパフォーマンス • 長時間の作業負荷を伴う長期使 用 • 大規模なモデルトレーニング、複 雑な推論ニーズ、カスタムオーケ ストレーション • 集中的なAIワークロードには マルチGPUノード • 推論と軽量AIトレーニング サービスレベル保証 99% 99% 99.95% (コントロールプレーン) 99.5% グラフィックプロセッ サ運用モデル ベアメタル用の専用GPU8基 サーバ 仮想専用GPU 機械 クラスター専用のGPU • コンテナ専用のGPU • GPU仮想化をサポート (MIG、タイムスライシング) 主な特徴 • ハードウェアを完全に制御 カスタマイズ • GUIセルフサービスリソース管理 • スケーラブルなオンデマンドGPU • 自動スケーリング • FPTとのシームレスな統合 クラウド エコシステム。 • より高速なプロビジョニングなど 生産管理。 • Kubernetesバージョンの自動更新 • Slurm サポート (近日公開) • スケーラブルなオンデマンドGPU • 自動スケーリング、ゼロスケール • 直感的なコンテナ実行 GUI パッケージ 01サーバー(8xGPU)から 1台のGPU/仮想マシンから 1ノード(8x GPU)から 1x GPUから 課金モデル • 予約 • 従量課金制(時間単位) • 予約 • 従量課金制(時間単位) • 予約 • 従量課金制(時間単位) • 予約 • 従量課金制(時間単位) 意味 • 運用オーバーヘッドの削減 Kubernetes向け • 効率的なリソース利用

49.

Metal Cloud の提供内容 推奨事項(追加) 当社のパッケージ (単一ノードまたは複数ノード ) 名前 メタルクラウドGPU H100 • ファイルストレージ - 複数のノード間 でトレーニングデータを共有するため の高性能 メタルクラウドGPU H200 8* NVIDIA H100 SXM5 640GBメモリ(80GB×8) 8* NVIDIA H200 SXM 1.1TB HBM3eメモリ(8* 141GB) • マネージドGPUクラスター Kubernetesオーケストレーション CPU デュアル Intel Xeon Platinum プロセッサー 8462Y+ デュアル Intel Xeon Platinum プロセ ッサー 8558 • 仮想マシン(汎用)GPUクラスタの管 理ノードおよびログインノード用 メモリ 4800MHz DDR5 DIMMで2TB 4800MHz DDR5 DIMMで2TB • オブジェクトストレージ トレーニングデータファイルを配布するには ストレージ 30TB(8 x 3.84TB NVMe SSD 30TB(8 x 3.84TB NVMe SSD) ) • ロードバランサ 可用性の高いインフラストラクチャ • ファイアウォール AIワークロードを保護するには • ネットワーキング 高速インターネットまたは直接接続 グラフィック プロセッサ ネットワーク • 400Gbps* 8ポートInfiniBand • 200Gbps* 2ポート BF3 DPU •400Gbps* 8ポートInfiniBand •200Gbps* 2ポート BF3 DPU • ノードあたりの GPU、CPU、RAM、ストレージは拡張できません。 • H100はベトナムで販売され、H200は日本で販売される。

50.

Metal Cloud オファリングを使用した Kubernetes クラスター マネージドKubernetes K8S クラスターサービス ファイルストレージ - 高性能 コントロールプレーン FPTによる管理、クラスタとリソース管理 容量 ご要望に応じて1GBから ロードバランサ FPTによる管理、Kubernetesサービス管理が組み込まれています パフォーマンス最大スループット: 550 GBps ワーカーノード ベアメタルGPUサーバー ノードの価格 このサービスはMetal Cloudのパッケージごとに課金されます。 ワーカーグループ あたりのノード数 01台のベアメタルGPUサーバーから Metal Cloud(ベアメタルGPUサーバー) ネットワーク 特徴 推奨事項(追加) 名称 Metal Cloud GPU H100 • GPU 8* NVIDIA H200 SXM | 1.1TB メモリ (8* 141GB) • CPU デュアル Intel Xeon Platinum プロセッサー 8462Y+ ネットワーク • 400Gbps* 8ポート InfiniBand • 200Gbps* 2ポート BF3 DPU 高可用性(HA)コントロールプレーン を追加する ロードバランサ アプリケーションまたはワークロード向け • フローティングIPアドレス ロードバランサまたは仮想マシン用 • 仮想マシン(汎用) GPUクラスターのログインノードの場合 • ファイアウォール AIワークロードを保護するには メモリ 2TB(4800MHz DDR5 DIMM経由) ストレージ 30TB (8 x 3.84TB NVMe SSD) 200Gbps * 2ポート( EDR/HDR InfiniBand ) 並列ファイルシステム、NFS、 S3ゲートウェイ

51.

Metalクラウド展開アーキテクチャ インターネット その他のクラウドプラットフォーム VPN ゲートウェイ インターネット サービス ダッシュボード FPTクラウドゾーン ベアメタルGPUクラスター 顧客のVPC ファイアウォ ール イーサネットネットワーク – 400Gbps/ノード 仮想マシン ストレージ クラウドGPUモニタリング VPNゲートウ ェイ バスティオンサ ーバー 物体 ストレージ 高性能 ストレージ クラウド GPU ノード1 クラウド GPU ノード2 クラウド GPU ノード3 インターネットゲー トウェイ クラウド GPU ノードN ファイルシステム クラスターネットワーク 8*400Gbps/秒/ノード ダイレクトコネク ト ゲートウェイ K8s サーバ 容器 スラム サーバ 雲 サーバ ブロック ストレージ 監視 データベー ス オンプレミス MPLS/ダークファイバー お客様 ゲートウェ イ データセンターサーバールーム

52.

Thank you!