3.7K Views
February 29, 24
スライド概要
DeNA では、多種多様な事業から日々膨大なデータが生み出されています。こうしたデータを最大限活用・分析するためのデータ基盤を設計・構築・運用する専門家が「データエンジニア」です。
本登壇では、DeNA のデータ基盤部で活躍する若手2名が、データエンジニアの概要と重要性、実際の業務や役割について紹介します。エンジニアとしてのキャリアを広げたい方、その魅力を更に深く知りたい方に向けて、データエンジニアという職種のおもしろさややりがいをお伝えすることができれば幸いです。
DeNA が社会の技術向上に貢献するため、業務で得た知見を積極的に外部に発信する、DeNA 公式のアカウントです。DeNA エンジニアの登壇資料をお届けします。
若⼿データエンジニアが語る! 現場業務の全貌とキャリアの魅⼒ #データ基盤 #データエンジニア #新卒 © DeNA Co., Ltd.
登壇者紹介 岡⽥ 英樹 / Hideki Okada 2019年4⽉に新卒として⼊社。現在はデータ基 盤部に所属し、データエンジニアとして HR な どのバックオフィス向けデータ基盤や、横浜 DeNA ベイスターズの事業系データ基盤の設計 ‧構築‧運⽤を⾏っている。 邉⾒ 貴彦 / Takahiko Hemmi 2022年4⽉に新卒として⼊社。現在まで⼀貫し てデータエンジニアとして職務にあたり、現在 はライブストリーミング事業ドメインでのデー タ基盤の構築‧運⽤に従事。 © DeNA Co., Ltd. 2
⽬次 若⼿データエンジニアが語る!現場業務の全貌とキャリアの魅⼒ ● (前編) データエンジニアとは? ○ どんな役割? ○ データエンジニアが提供する価値とは? ● (後編) データエンジニアの業務とキャリア ○ 登壇者を例に、実際の業務やキャリアを紹介 ○ データエンジニアリングのおもしろさ、職種としての魅⼒ © DeNA Co., Ltd. 3
⽬次 若⼿データエンジニアが語る!現場業務の全貌とキャリアの魅⼒ ● (前編) データエンジニアとは? ○ どんな役割? ○ データエンジニアが提供する価値とは? ● (後編) データエンジニアの業務とキャリア ○ 登壇者を例に、実際の業務やキャリアを紹介 ○ データエンジニアリングのおもしろさ、職種としての魅⼒ © DeNA Co., Ltd. 4
⽬次 若⼿データエンジニアが語る!現場業務の全貌とキャリアの魅⼒ ● (前編) データエンジニアとは? ○ どんな役割? ○ データエンジニアが提供する価値とは? ● (後編) データエンジニアの業務とキャリア ○ 登壇者を例に、実際の業務やキャリアを紹介 ○ データエンジニアリングのおもしろさ、職種としての魅⼒ © DeNA Co., Ltd. 5
(前編) データエンジニアとは? © DeNA Co., Ltd. 6
データエンジニア is 誰? データ利⽤者 データソース 各種サービスの データベース データアナリスト データはどこに? 社内外システム などなど... データサイエンティスト © DeNA Co., Ltd. 7
データエンジニア is 誰? データ利⽤者 データソース 各種サービスの データベース データアナリスト ● システムとかデータベースとかあ まり詳しくない... ● データの活⽤に注⼒したいけど、 データの準備に⼿間取る... データを利⽤しやすいように いいかんじに整備します! 社内外システム などなど... データエンジニア がここを繋ぐ © DeNA Co., Ltd. データサイエンティスト 8
データエンジニアとは 多様なデータと利活⽤のニーズを踏まえて、最適なデータ基盤システムを設計‧構築し、⾼価値‧⾼品質 なデータを安定的に提供する データソース 各種サービスの データベース 各種 SaaS (CRM, MA, ...) 社内外システム オープンデータ (SNS, 統計など) データ基盤 データ その他加⼯済み ウェアハウス データ データ サイエンティスト データの提 供 データマート BI (分析) ツール データの集約,加⼯ (ETL/ELT) データエンジニアが整備 © DeNA Co., Ltd. データ利⽤者 MLOps エンジニア AI システム データ アナリスト データを利⽤した 各種システム 9
データエンジニアとは 多様なデータと利活⽤のニーズを踏まえて、最適なデータ基盤システムを設計‧構築し、⾼価値‧⾼品質 なデータを安定的に提供する データソース 各種サービスの データベース 各種 SaaS (CRM, MA, ...) 社内外システム オープンデータ (SNS, 統計など) データ基盤 データ その他加⼯済み ウェアハウス データ データ サイエンティスト データの提 供 データマート BI (分析) ツール データの集約,加⼯ (ETL/ELT) データエンジニアが整備 © DeNA Co., Ltd. データ利⽤者 MLOps エンジニア AI システム データ アナリスト データを利⽤した 各種システム 10
データエンジニアとは 多様なデータと利活⽤のニーズを踏まえて、最適なデータ基盤システムを設計‧構築し、⾼価値‧⾼品質 なデータを安定的に提供する データソース 各種サービスの データベース 各種 SaaS (CRM, MA, ...) 社内外システム オープンデータ (SNS, 統計など) データ基盤 データ その他加⼯済み ウェアハウス データ データ サイエンティスト データの提 供 データマート BI (分析) ツール データの集約,加⼯ (ETL/ELT) データエンジニアが整備 © DeNA Co., Ltd. データ利⽤者 MLOps エンジニア AI システム データ アナリスト データを利⽤した 各種システム 11
データを転送してるだけでは? → NO (転送するだけでもいろいろ⼤変なのだが、、、) データソース © DeNA Co., Ltd. データ基盤 データ利⽤者 12
データエンジニアの役割 ⾼価値‧⾼品質なデータを安定的に提供する → データを単に配置するだけではなく、さらにいくつかの付加価値を与える データソース データ基盤 データ利⽤者 ✨ © DeNA Co., Ltd. 13
データエンジニアの関⼼ごと:データの品質 ⾼価値‧⾼品質なデータを安定的に提供する → データを単に配置するだけではなく、さらにいくつかの付加価値を与える データソース ● ● © DeNA Co., Ltd. ⼿⼊⼒データを扱うことも システムの不具合によるデータの破損 データ利⽤者 データ基盤 ● ● データが壊れている, ⽋損がある たまに数値が不正確で信頼できない 14
データエンジニアの関⼼ごと:データの品質 ⾼価値‧⾼品質なデータを安定的に提供する → データを単に配置するだけではなく、さらにいくつかの付加価値を与える データ基盤 データソース データクレンジング (不正なデータの修正, 除外など) 品質の担保された データの提供 データ利⽤者 ✨ データ品質の継続的な監視 信頼してデータを 利⽤できる データ品質を管理します! データエンジニア © DeNA Co., Ltd. ※データ品質の基準として、完全性、⼀貫性、正確性、有効性など、様々な種類があり、 担保すべき基準や⽔準をどのレベルに設定するのかは要件次第です 15
データエンジニアの関⼼ごと:セキュリティ ⾼価値‧⾼品質なデータを安定的に提供する セキュリティ対策!! → データを単に配置するだけではなく、さらにいくつかの付加価値を与える 関係者 データソース データ利⽤者 データ基盤 使っているデータが安全に保管されてい るか?適正に使⽤できるものか? 個⼈情報保護法!! © DeNA Co., Ltd. 関係者 16
データエンジニアの関⼼ごと:セキュリティ ⾼価値‧⾼品質なデータを安定的に提供する 機密や顧客データは安全 → データを単に配置するだけではなく、さらにいくつかの付加価値を与える 関係者 データ基盤 データソース データ利⽤者 ✨ センシティブデータの フィルタリングなど データエンジニア © DeNA Co., Ltd. 法規に基づく個⼈情報 の管理、削除対応など (GDPR, CCPA, ...) データのセキュリティに配 慮します! アクセス権限の管理, マス キング, 匿名化処理, データ クリーンルーム,... 適切なデータに安全にアク セスできる 法令遵守 関係者 17
データエンジニアが提供する価値 (ここまでまとめ) データエンジニアは ● データ基盤システムを通じて、⾼価値‧⾼品質なデータを利⽤者に提供す る ○ データ品質の管理、セキュリティ等 (いわゆるデータマネジメント) にも責任を持つ ● → 利⽤者は提供されるデータを安⼼して利⽤でき、本来専⾨性を持つ業務 に集中することができる データ基盤 データエンジニア © DeNA Co., Ltd. ✨ データ利⽤者 18
(後編) データエンジニアの業務とキャリア © DeNA Co., Ltd. 19
これまでのキャリア - Hideki Okada Q. なぜデータエンジニアに?(バックグラウンドも含めて) ● ● ● ● CV研究開発エンジニア(FY19新卒)→MLOpsエンジニア→データエンジニア 組織合併を経て初めてデータエンジニアを知る 機械学習をするにも事業活⽤するにも上流のデータ基盤の設計が⼤事 より広くデータ利活⽤に携わりたい Q. データエンジニアとしての業務は? ● ● ● © DeNA Co., Ltd. 横浜DeNAベイスターズ事業系データ基盤構築 ○ ゼロベースでデータ基盤の設計、構築を担当 社内向けデータ基盤構築案件(複数) ○ PM:業務課題相談、要件定義やスコープ調整、タスク管理など ○ エンジニア:データ基盤設計、実装、運⽤まで データ基盤向け共通インフラの整備、改善 ○ IaC整備、セキュリティ対策、コスト最適化など 20
データエンジニアのおもしろさ? © DeNA Co., Ltd. 21
Q. データエンジニアは何がおもしろい? ❖ 多種多様なデータを効率的に扱うためのエンジニアリング ➢ データ利活⽤が進むにしたがって、 データ基盤で管理されるデータの種類や量は次第に増加していく ➢ 扱うデータの種類:データの性質によっては特別な扱いが必要 ■ ➢ 扱うデータの規模:TB オーダーは普通、PB まである ■ ➢ スケーラブルなシステムが求められる 様々な制約の中でシステムを最適化していくおもしろさ ■ © DeNA Co., Ltd. 特にセンシティブなデータを扱うケース データマネジメント観点:セキュリティ‧データ品質‧コスト 22
実例:データ基盤のアーキテクチャ設計 概要 ❖ 横浜DeNAベイスターズ事業系データ基盤の整備 既存のデータ基盤の課題 ❖ データマネジメント⾯ ➢ ➢ ➢ ➢ ❖ Viewやテーブルが乱⽴している 権限管理が適切でない SQLがバージョン管理されていない データ品質チェックがなされていない データ活⽤⾯ ➢ 各⾃が⼿動で分析しており、統⼀的に指標が⾒れる状態ではない 主要な課題とその解決法に絞ってアーキテクチャのお話をします。 © DeNA Co., Ltd. 23
実例:データ基盤のアーキテクチャ設計 データマネジメント⾯での課題 多数のViewやテーブルが⼀つのプロジェクトに乱⽴している データ品質チェックがなされていない SQLがバージョン管理されていない 役割に関わらず任意のデータに誰でも触れる状態 エンジニア データ利⽤者 © DeNA Co., Ltd. 旧アーキテクチャ構成 24
実例:データ基盤のアーキテクチャ設計 © DeNA Co., Ltd. 改善アーキテクチャ構成 25
実例:データ基盤のアーキテクチャ設計 プロジェクト分割 必要なデータのみ共有 役割に応じた権限管理 エンジニア エンジニア データ利⽤者 課題:多数のViewやテーブルが⼀つのプロジェクトに乱⽴している、権限管理も適切でない →プロジェクトを分割し、ソースデータと加⼯データの分離を実現 エンジニアとデータ利⽤者が触れるプロジェクトを分けることで適切な権限管理を実現 © DeNA Co., Ltd. 26
実例:データ基盤のアーキテクチャ設計 課題:SQLがバージョン管理されていない、データ品質チェックがなされていない → データ変換にDataformを導⼊することで実現 → ⾒過ごされていたバグや品質劣化を発⾒するなど、データ品質の向上に貢献 © DeNA Co., Ltd. 27
実例:データ基盤のアーキテクチャ設計 その他課題と解決策 ● データクレンジングがなされていない → データ変換部分にStaging層の導⼊ ● 各⾃が⼿動で分析しており、統⼀的に指標が⾒れる状態ではない → Looker導⼊とマーケチームへのダッシュボード構築サポート ● © DeNA Co., Ltd. データパイプラインのライブラリが古くなっており保守性が悪い → Cloud Workflowsを⽤いたデータ取得パイプラインの改修 28
これまでのキャリア - Takahiko Hemmi Q. なぜデータエンジニアに?(バックグラウンドも含めて) ● ● ● FY22 新卒⼊社 → データ基盤部に配属されデータエンジニアに ○ データエンジニアリングは未経験(名前すら知らない) 事業横断的にエンジニアリングで貢献するチームに魅⼒を感じた いわゆるアーキテクト的なロールに興味があった Q. データエンジニアとしての業務は? ● ⼦会社向けデータ分析基盤の新規構築 ○ ● HR (⼈事), CS (カスタマーサポート) ⽂脈のデータ基盤整備 ○ ● データにとどまらずダッシュボード (Looker) の整備も ライブストリーミング事業向けデータ分析基盤の運⽤ ← いまここ ○ © DeNA Co., Ltd. BigQuery (というか Google Cloud) を初めて触った アナリストと密に連携して、分析基盤の改善を⽇々取り組む 29
どんな⼈がデータエンジニアに向いてる? © DeNA Co., Ltd. 30
Q. どんな⼈がデータエンジニアに向いてる? データやシステムだけでなく、⼈や組織も繋ぐことができる⼈ ❖ データ基盤は関係するシステムの中間点 ➢ 関係する⼈や組織の橋渡しをし、時には牽引するようなことも ➢ データ利活⽤の障害をハード‧ソフトの両⾯で取り除いていく ❖ データが利⽤され、その結果として価値が⽣まれる ➢ データ基盤を整備するだけではなく、利⽤してもらうことが重要 ➢ 利⽤者のドメインに踏み込んで、より⾼い価値を⽣むデータ利活⽤が できるようにサポート‧提案をしていく © DeNA Co., Ltd. 31
実例:データの活⽤を加速するシステム データ基盤 データ連携 分析⽤データの提供 データ利⽤者 データマート データパイプラインの保守運⽤, データマート改修など データエンジニア チーム 分析チーム (アナリスト) データマートの 追加‧変更依頼 課題 データマートの整備が思ったように進まない ❖ 仕組み上、データマートの改修にはデータエンジニアの作業が必要 ❖ モチベーションはあるが、技術的なハードルもあり、着⼿しづらい © DeNA Co., Ltd. 32
実例:データの活⽤を加速するシステム データ基盤 データ連携 分析⽤データの提供 データ利⽤者 データマート データマートを 整備するツール ツールの選定‧整備 データ基盤運⽤は継続 直接データマートを改修 サポート, トレーニングの提供 分析チーム (アナリスト) データエンジニア チーム アナリストも直接データマートの改修ができるようなツールの導⼊ ❖ 技術的には苦労した点もいろいろ... スキル的には分析業務の延⻑で利⽤できる 技術的なハードルが下がった 興味があれば ask→the speaker でご質問ください! ❖ いつでも作業できる Sandbox 環境 → 着⼿しやすくなった データ整備が加速し、結果としてアナリストの業務効率化に繋がった © DeNA Co., Ltd. 33
まとめ 若⼿データエンジニアが語る!現場業務の全貌とキャリアの魅⼒ データエンジニアとは? ● 多様なデータと利活⽤のニーズを踏まえて、最適なデータ基盤システム を設計‧構築し、⾼価値‧⾼品質なデータを安定的に提供する データエンジニアの魅⼒ ● ● 多種多様なデータを効率的に扱うためのエンジニアリング データもシステムも⼈も組織も繋ぐ みんなもデータエンジニアにならないか? © DeNA Co., Ltd. 34