1.6K Views
February 05, 25
スライド概要
DeNA では多種多様な事業を展開しており、その多くで機械学習が活用されています。
今後も機械学習プロジェクトの増加が予想される中で、限られた人員でも、機械学習モデルを迅速かつ安定的に提供することが重要になってきます。
DeNA のデータ基盤部では、数多くある機械学習プロジェクトの業務をスケールしていくための仕組みとして、社内プラットフォームである Hekatoncheir の開発を行っています。
このセッションでは、Hekatoncheir が機械学習プロジェクトにおける課題をどのように解決し、社内の機械学習導入を推進しているのか、具体的な活用事例などを交えつつ紹介します。
◆ チャンネル登録はこちら↓
https://www.youtube.com/c/denatech?sub_confirmation=1
◆ X(旧Twitter)
https://x.com/DeNAxAI_NEWS
◆ DeNA AI
https://dena.ai/
◆ DeNA Engineer Blog
https://engineering.dena.com/blog/
◆ DeNA × AI Day ‖ DeNA TechCon 2025 公式サイト
https://techcon2025.dena.dev/
DeNA が社会の技術向上に貢献するため、業務で得た知見を積極的に外部に発信する、DeNA 公式のアカウントです。DeNA エンジニアの登壇資料をお届けします。
機械学習モデルの安定提供を加速させる 社内基盤 Hekatoncheir データ統括部データ基盤部 梶原⼤進 1 © DeNA Co., Ltd.
⾃⼰紹介 梶原 ⼤進 (Kajiwara Daishin) ● データ基盤部 プラットフォームグループ所属 ● 22新卒 ● 現在はHekatonチームのリーダー やってます 2 © DeNA Co., Ltd.
Hekatoncheir (読み:ヘカトンケイル) AIによる価値提供 データサイエンティスト‧MLエンジニア 推論システム提供までのオペレーションの標準化‧⾃動化 ML推論基盤 Hekatoncheir 少ない⼈員での推論システムの提供‧安定運⽤を実現 3 © DeNA Co., Ltd.
Hekatoncheir (読み:ヘカトンケイル) AIによる価値提供 PocochaのAIプロジェクトでは、 データサイエンティスト‧MLエンジニア データサイエンティスト/MLエンジニア 各1名の体制で、 推論システム提供までのオペレーションの標準化‧⾃動化 3ヶ⽉の期間に5つの推論機能をリリース ML推論基盤 Hekatoncheir 少ない⼈員での推論システムの提供‧安定運⽤を実現 4 © DeNA Co., Ltd.
今回の発表について DeNAのML推論基盤 Hekatoncheir についての話 ● ● ● ● ● 5 DeNAにおける機械学習プロジェクトの概要 解決しようとしている課題 Hekatoncheirの全体像 活⽤事例 より良いプラットフォームにするために © DeNA Co., Ltd.
DeNAにおける機械学習プロジェクト 6 © DeNA Co., Ltd.
DeNAのMLプロジェクトの特徴 DeNAでは多種多様な領域で事業を展開 MLプロジェクトも様々な領域にわたり数多く存在 ※ スライドに記載している全てのサービスにおいて機械学習の活⽤が⾏われているわけではありません 7 © DeNA Co., Ltd.
MLプロジェクトの進め⽅と役割 MLモデル開発 MLパイプライン 構築 データサイエンティスト MLエンジニア プラットフォームエンジニア 8 推論API開発 インフラ構築 運⽤ プロジェクトによって 役割は流動的 MLモデルの開発や評価だけではなく、MLプロジェクトの企画設計から⾏う。 プロジェクトの規模や、担当者のスキルセットに応じて、パイプラインや推論APIの実装を⾏うこともある。 機械学習システムの設計‧実装‧運⽤を担当。 プロジェクト横断でインフラ構築や運⽤業務の効率化やサポートを⾏う。 Hekatoncheirの開発‧運⽤を担当。 © DeNA Co., Ltd.
MLプロジェクトの編成 Project A Project B Project C データサイエンティスト データサイエンティスト データサイエンティスト MLエンジニア MLエンジニア MLエンジニア プラットフォームエンジニア ● ● データサイエンティスト‧MLエンジニアはプロジェクトごとにアサイン ○ 複数プロジェクトを担当することがほとんど プラットフォームエンジニアはプロジェクトを横断的にみる プラットフォームチームの取り組みについての紹介 9 © DeNA Co., Ltd.
機械学習モデルの提供における課題 10 © DeNA Co., Ltd.
ML活⽤を推進していくために ● MLシステムの開発から運⽤までを、限られた⼈員でも素早く⾏うた めの体制や仕組みが必要 ● MLプロジェクトの増加に対して、 MLエンジニアの認知負荷や 作業量の多さがボトルネックとなってくる 11 © DeNA Co., Ltd.
認知負荷の⼤きさ ● 以下の事項はプロジェクトごとに異なっており、 把握するのが困難‧ナレッジが分散する 12 ドメイン知識 機械学習モデル API実装 使⽤ツール クラウド環境 インフラ構成 監視構成 CI/CD © DeNA Co., Ltd.
作業量の多さ Project A MLモデル開発 パイプライン 構築 推論API開発 インフラ構築 運⽤ パイプライン 構築 推論API開発 インフラ構築 運⽤ Project B MLモデル開発 担当 MLエンジニア Project C MLモデル開発 パイプライン 構築 推論API開発 インフラ構築 運⽤ ● プロジェクトごとに運⽤保守を⾏う必要があり、 負担が⼤きく、運⽤がスケールしない 13 © DeNA Co., Ltd.
Hekatoncheirで⽬指す姿 ● プロジェクト固有で必要なタスクと、共通のタスクに分けられる プロジェクト固有 ドメイン知識 機械学習モデル API実装 プロジェクト共通 使⽤ツール クラウド環境 インフラ構成 監視構成 CI/CD プロジェクト共通のものはプラットフォームで標準化 14 © DeNA Co., Ltd.
Hekatoncheirで⽬指す姿 ● プラットフォームを通してを通して運⽤保守を統⼀ Project A MLモデル開発 パイプライン 構築 推論API開発 インフラ構築 運⽤ パイプライン 構築 推論API開発 インフラ構築 運⽤ パイプライン 構築 推論API開発 インフラ構築 運⽤ Project B MLモデル開発 Project C MLモデル開発 Hekatoncheir 開発‧運⽤ MLエンジニア 15 プラットフォームチーム © DeNA Co., Ltd.
ML推論基盤Hekatoncheir 16 © DeNA Co., Ltd.
全体像 ● GKEをベースに推論APIの実⾏基盤を構築 ● GKE標準の機能に加え、推論APIのデプロイに必要な要素をサポート 開発者 サービス利⽤者 17 © DeNA Co., Ltd.
利⽤の流れ 18 © DeNA Co., Ltd.
利⽤の流れ 1. 19 推論APIに必要なファイルの準備 ● MLモデル ● コンテナイメージ ● kubernetesマニフェスト © DeNA Co., Ltd.
利⽤の流れ 2. それらを所定の場所に配置 $ docker push $ git push $ gcloud storage cp 20 © DeNA Co., Ltd.
利⽤の流れ 3. hekatonクラスタに諸々の環境が構築される 21 © DeNA Co., Ltd.
Kubernetesマニフェスト Kubernetes利⽤の課題 ● キャッチアップコストが⾼い ● リソース定義‧構成がバラバラになってしまう 推論API⽤のテンプレートを準備 導⼊のハードルを下げつつ、構成に⼀貫性を持たせる 22 © DeNA Co., Ltd.
推論APIの構成 推論APIの基本構成 Model Serving Platform構成 ● 2種類のパターンを⽤意 ● Model Serving Platform構成は、 推論処理を別サービスとして切り出した構成 23 © DeNA Co., Ltd.
Model Serving Platform モノリシックな推論APIにおける課題 ● 処理内容で負荷が異なり、リソースの利⽤効率を上げるのが困難 ● CPUバウンドな処理のために、 GPUインスタンスを確保する必要が発⽣し、コストが嵩む 24 © DeNA Co., Ltd.
Model Serving Platform ● 推論処理部分を別サービスとして切り出すことで以下を改善 ○ リソースの利⽤効率 ○ スケール効率 25 © DeNA Co., Ltd.
外部通信 ● IPアドレス/TLS証明書/LBの提供 ● IP制限や認証などを設けることも可能 26 © DeNA Co., Ltd.
デプロイ ● ArgoCDを利⽤ ● デプロイ⽤の設定はテンプレートとして提供 27 © DeNA Co., Ltd.
Observability 監視ダッシュボード ● 基本的なメトリクスを備えた ダッシュボードを提供 ● サービスによらず統⼀されており、 状況把握が容易に アラート ● 運⽤時に必要となるアラートのテンプレートを提供 28 © DeNA Co., Ltd.
活⽤事例 29 © DeNA Co., Ltd.
Pocochaにおける活⽤ ● ライブコミュニケーションアプリ Pococha では、安⼼‧安全な サービス提供のために、配信内容などの健全性チェックを実施 ○ ex) 配信内容が規約に違反していないか ● 健全性チェック⽤の推論API群をHekatoncheirで提供 30 © DeNA Co., Ltd.
Pocochaにおける活⽤ データ サイエンティスト MLエンジニア Hekatoncheir MLモデル開発 パイプライン 構築 推論API開発 インフラ構築 運⽤ MLモデル開発 パイプライン 構築 推論API開発 インフラ構築 運⽤ … ● データサイエンティスト/MLエンジニア 各1名の体制で、 3ヶ⽉の期間に5つの推論機能をリリース ● 運⽤業務などをプラットフォームチームが横断的にサポート 31 © DeNA Co., Ltd.
より良いプラットフォームにするために 32 © DeNA Co., Ltd.
最低限必要なことから始める 守備範囲を絞る ● 始めやすいところ‧インパクトが⼤きそうな領域から始める いきなり⾼度なツール化を⾏わない ● 初めは参考実装とか軽めの⾃動化などから始め、 段階的にツール化などに取り組んで⾏く プラットフォームが中途半端になったり、 無駄なものになることを防ぐ 33 © DeNA Co., Ltd.
あくまで選択肢の⼀つとして提供する ● Hekatoncheirが適さないケースも存在する ● 再利⽤可能な部分だけ使うようにしたり、 利⽤者⾃⾝でカスタマイズできたりなどの柔軟性を持たせておく 34 © DeNA Co., Ltd.
まとめ 35 © DeNA Co., Ltd.
まとめ AIによる価値提供 データサイエンティスト‧MLエンジニア 推論システム提供までのオペレーションの標準化‧⾃動化 ML推論基盤 Hekatoncheir 統⼀された仕組みの提供によって、 限られた⼈員での推論システムの提供‧安定運⽤を実現 36 © DeNA Co., Ltd.