【DB勉強会】04_データ集めとデータエンジニアリング

647 Views

April 27, 26

スライド概要

(AIによる要約)
データは受動的に集まるデータと能動的に集めるデータの2種があり、前者はクレンジングや価値創出が難しいため、できるだけ能動的データを設計します。データ活用の際は顧客課題の明確化、他データとの組み合わせ、価値再定義を検討し、少量から目的を確認して拡大します。また、データエンジニアリングではデータパイプラインの構築と品質保証が重要で、ETLや監視を通じて安全・迅速にデータを提供します。

profile-image

アジャイル/スクラム/データサイエンス/プロダクトマネジメント/プロジェクトマネジメント/組織論など、日々の学びをスライドにします。

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

各ページのテキスト
1.

【製造業データビジネス勉強会】04 データ集めと データエンジニアリング 2026/04/28 @shimitaka1982 清水 隆史

2.

今日の 勉強どころ

3.

データビジネスの階層構造 プロセス 現時点の 個人的な感触 新規事業創出 プロジェクトマネジメント ビジネスモデル 要求分析・要件定義 プロダクトマネジメント リスクマネジメント プラクティ ス マインドセット 人材育成 ビジネス力 データサイエンス力 データエンジニアリング 力

4.

データビジネスの進め方 ① 事業設計 ⑧ マ ③ データ準備 ー ④ 探索的データ分析 ケ テ ⑤ モデル構築 ィ ン ⑥ 社会実装 グ ⑦ 保守・運用 ② サービス設計 現時点の 個人的な感触 • いずれも単方向ではなく、 行ったり来たりを繰り返す • 全てを行うわけではなく、 途中から始まったり途中で 終わったりすることもある • 初期の段階で後期の要素を 考えておく必要がある

5.

データの種類

6.

データの種類 データには大きく2種類ある 集まってるデータ(受動的データ) ✓特に意図したわけではないが自然と集まっているデータ ✓(例)POSデータ (※補足:POSデータはもともと売上計上や在庫管理などを目的としたものであり、マーケ ティングデータ分析を用途としたものではないため、このような表現をしている) 集めるデータ(能動的データ) ✓分析することを意図して集めたデータ ✓(例)購買行動を数値化する画像データ

7.

集まってるデータは扱いが難しい 現時点の 個人的な感触 よく「集まってるデータ」を指して「データがある」 といい「このデータを分析したい」ということが多い ただ、集まってるデータは分析することを目的として 集められたわけではないので以下のような傾向がある ✓分析に適した形になっていない(クレンジングが必要) ✓得られる示唆が少ない(当たり前のことしか分からない) ✓過去のデータである(結果しか残っておらず理由が不明) 従って、基本的には「集めるデータ」を考える方が 結果的にリーズナブルである場合が多い

8.

データの種類 一覧にまとめるとこんな感じ 特徴 集まってるデータ 集めるデータ コスト 低い (既存の仕組みから出る) 高い (調査や設計が必要) 鮮度・量 リアルタイム・膨大 スポット的・限定的 質(ノイズ) 多い (分析に加工が必要) 低い (目的に最適化されている) 得られる知見 「何が起きたか(What)」 「なぜ起きたか(Why)」

9.

(参考)集まってるデータの活用は 個人的にはおすすめしない 「集まってるデータ」の活用は私個人的にはあまり おすすめしていない これは、先述の理由があるためと「集まってるデータ を使うこと」自体が目的化している場合が多いため 少なくとも「そのデータ」だけで何か新しい価値を見 出すというのは経験的に難しい 活用するという選択肢はもちろんあっても良いのだが、 優先順位はよく考えたほうが良い

10.

それでも集まってるデータを使いたい 「そうはいっても集まってるデータを使いたいんだ!」 という場合が多い 理由として、その事業部門としてはそのデータしか持っ ておらず、新たにデータを取得するような仕組みやソ リューションの検討も難しい場合があるため その際は以下を検討すると良い ✓顧客課題は何か ✓他のデータとの掛け合わせ ✓価値の再定義

11.

顧客課題は何か 「データを活用すること」が目的になってないか、 いま一度自問自答してみるべき 活用することで誰が嬉しいのか?(顧客は誰か?) 顧客の課題は何か? 本当にデータ活用をしないとその顧客課題は解決でき ないのか?(Nice to haveではなくMust haveか) お金を払ってまでやりたいことか?

12.

他のデータとの掛け合わせ (例)POSデータ ✓単にPOSデータだけでは「何がいくつ売れたか」しか分からない ✓しかし、IDデータ(会員情報・アプリ)との組み合わせで可能性が広 がる • LTV(顧客生涯価値)分析: 特定の商品を買った人が、その後どれくらいリピート しているかを追跡 • 離脱予測: いつも週1回購入していた顧客が、2週間来店していないことを検知し、 クーポンをプッシュ通知して呼び戻す • 併売分析(バスケット分析): 「おむつを買う人はビールも買う」といった、特 定の属性(例:30代男性)特有の購買パターンを見つけ出し、棚割りやレジ横の 商品配置を最適化

13.

価値の再定義 (例)POSデータ ✓POSデータを「商品が売れたデータ」としてではなく「店舗運営のロ グ」として活用してみる • レジ通過速度の可視化: 各レジの1客あたりのスキャン時間を算出し、ベテランと 新人の差を数値化。特定の時間帯に「詰まり」が発生する原因を特定し、レジ応 援の最適なタイミングを割り出す • 死に筋の早期発見: 新商品発売後、最初の数日間の売上動向パターンを過去の ヒット作の初動データと比較し、翌日の発注量を即座に修正

14.

データ集めの 注意事項

15.

データ集めの注意事項 いきなり大量に集めようとしない ✓「集まってるデータ」だろうが「集めるデータ」だろうが、まずは少 数のデータで「使い道」をはっきりさせる ✓(例)3年分のPOSデータがある場合、いきなり3年分を受領せずに1 週間分だけ受領して「使い道」をはっきりさせてアルゴリズムを組ん でから3年分を受領する、など データの受け渡し方を考える ✓メールやSharePointなどの業務用アプリで受け渡すことが多い ✓PoCまでなら問題ないが本格的な分析・運用の際にはデータレイクを 準備するなど仕組み化が必須

16.

データ集めの注意事項 サンクコストを気にしない ✓「せっかく集めたんだから有効に活用しなければもったいない」とい う意識にかられる場合があるが、これはサンクコストの誤謬と呼ばれ る認知バイアスに近い(データを集めたり整理したりしたことにかけ た工数を取り戻したい、という意識に駆られている) ✓集めたデータが仮に使い物にならないということが分かったら、潔く 捨てること(どんなに頑張っても使い物にならないものは使い物にな らない)

17.

(参考)Garbage In, Garbage Out GIGO(Garbage In, Garbage Out) 直訳すれば「ゴミを入れたらゴミが出てくる」 (例)どんなに腕の立つシェフがいたとしても、腐っ た食材を調理すれば、不味い料理(ゴミ)しか出来上 がらない ちなみに腐った食材かどうかは誰の目に 見ても明らかだが、データがゴミか どうかは見た目には分からない場合が多い

18.

データ エンジニア リング

19.

データエンジニアリングとは データエンジニアリング ✓データを、誰もが安全・迅速・正確に活用できる『仕組み』を構築し、 運用すること ✓データサイエンティスト:データを料理するシェフ ✓データエンジニア:新鮮な食材(データ)を安定して調達し、下処理 をして、いつでも使える状態で厨房(分析基盤)に届けるサプライ チェーンの設計者 (by Gemini)

20.

データエンジニアリングとは 一般的にはデータエンジニアリングもデータサイエン ティストがやるものだと思われている 実際にやれる人もいる(すごい) 一方で、データサイエンティストとデータエンジニア は必要とされるスキルもマインドセットも若干異なる よって、データサイエンスとデータエンジニアリング は分けて考えたほうが良い

21.

(参考)データサイエンティストの3つのスキル 【出典】Data of Data Scientist シリーズ vol.17『5.9%-3つのスキルを棟梁以上 のレベルで兼ね備えている人の割合』 https://www.datascientist.or.jp/dssjournal/dssjournal-2138/

22.

データエンジニアリングの3つの使命 1.データの「水道」を引く(パイプライン構築) ✓バラバラな場所(基幹システム、ログ、外部APIなど)にあるデータを、 分析用の場所へ自動で運ぶ仕組みをつくる ✓ETL処理: 抽出(Extract)、変換(Transform)、書き込み(Load)と いう一連の流れを設計し構築する 2.データの「品質」を保証する(信頼性の担保) ✓「集まってるデータ」はそのままでは欠損があったり形式がバラバラ だったりする ✓クレンジング: 重複の削除や、表記ゆれの統一 ✓監視: データが途切れたり、異常な値が混入したりしたときにアラート を出す仕組みを作る

23.

データエンジニアリングの3つの使命 3.データの「器」を最適化する(基盤設計) ✓データの量や種類(テキスト、画像、数値など)に合わせて、最適な 保存先や処理方法を選ぶ ✓スケーラビリティ: データが急増してもシステムが止まらない、あるい はコストが跳ね上がらない設計を目指す (以上 by Gemini) これら3つは必要とされるタイミングが微妙に異なる ✓(例)3番目のスケーラビリティは一番最初にはまだ考えなくても良い (時期尚早)。ただデータが増えた時に考えても遅い場合もあるため、 「これからデータが増えるだろう」という絶妙なタイミングで検討が 必要になる。

24.

今日のまとめ データには「集まってるデータ(受動)」と「集めるデータ (能動)」の2種類がある 分析目的で設計された「集めるデータ」の方が、ノイズが少な く高い知見を得やすい 既存の「集まってるデータ」を使う際は、他データとの掛け合 わせや価値の再定義を検討する データ集めは、いきなり大量に集めようとせず、少数のデータ で使い道を明確にすることから始める データエンジニアリングは、誰もが安全・迅速・正確にデータ を活用できる「仕組み」を担う

25.

Thank You !!