【DB勉強会】04_データ集めとデータエンジニアリング

1.3K Views

April 27, 26

#製造業データビジネス勉強会 #データビジネス #データ収集 #データエンジニアリング #受動的データ #能動的データ

スライド概要

（AIによる要約）
データは受動的に集まるデータと能動的に集めるデータの2種があり、前者はクレンジングや価値創出が難しいため、できるだけ能動的データを設計します。データ活用の際は顧客課題の明確化、他データとの組み合わせ、価値再定義を検討し、少量から目的を確認して拡大します。また、データエンジニアリングではデータパイプラインの構築と品質保証が重要で、ETLや監視を通じて安全・迅速にデータを提供します。

shimitaka（清水隆史）

@shimitaka

スライド一覧

アジャイル/スクラム/データサイエンス/プロダクトマネジメント/プロジェクトマネジメント/組織論など、日々の学びをスライドにします。

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

アジャイルの誤解を解きたい！

アジャイル

shimitaka（清水隆史） 33.5K

焼肉役員会議爆誕！老舗製造業で30人の役員相手に「アジャイルとは美味しい焼肉を食べること」とプレゼンした話

アジャイルメタファー製造業 fearless change

shimitaka（清水隆史） 17.7K

宇宙物理学を学んだ人間がマーケティングサイエンスのビジネスを始めた話

宇宙マーケティングデータサイエンスキャリアパス

shimitaka（清水隆史） 8.7K

職場に潜む妖怪の蒐集

メタファー組織課題組織変革対話

shimitaka（清水隆史） 5.3K

15分で分かった気になるプロジェクトマネジメント

プロジェクトマネジメント pmp アジャイル pmbok プロジェクトマネージャ

shimitaka（清水隆史） 5K

プロジェクトとプロダクトの違いについて学ぼう！

プロジェクトマネジメントプロジェクトマネージャプロダクトマネジメントプロダクトマネージャプロダクトオーナー

shimitaka（清水隆史） 4.3K

各ページのテキスト

【製造業データビジネス勉強会】04 データ集めとデータエンジニアリング 2026/04/28 @shimitaka1982 清水隆史

今日の勉強どころ

データビジネスの階層構造プロセス現時点の個人的な感触新規事業創出プロジェクトマネジメントビジネスモデル要求分析・要件定義プロダクトマネジメントリスクマネジメントプラクティスマインドセット人材育成ビジネス力データサイエンス力データエンジニアリング力

データビジネスの進め方 ① 事業設計 ⑧ マ ③ データ準備ー ④ 探索的データ分析ケテ ⑤ モデル構築ィン ⑥ 社会実装グ ⑦ 保守・運用 ② サービス設計現時点の個人的な感触 • いずれも単方向ではなく、行ったり来たりを繰り返す • 全てを行うわけではなく、途中から始まったり途中で終わったりすることもある • 初期の段階で後期の要素を考えておく必要がある

データの種類

データの種類 データには大きく2種類ある 集まってるデータ（受動的データ） ✓特に意図したわけではないが自然と集まっているデータ ✓（例）POSデータ（※補足：POSデータはもともと売上計上や在庫管理などを目的としたものであり、マーケティングデータ分析を用途としたものではないため、このような表現をしている） 集めるデータ（能動的データ） ✓分析することを意図して集めたデータ ✓（例）購買行動を数値化する画像データ

集まってるデータは扱いが難しい現時点の個人的な感触 よく「集まってるデータ」を指して「データがある」といい「このデータを分析したい」ということが多い ただ、集まってるデータは分析することを目的として集められたわけではないので以下のような傾向がある ✓分析に適した形になっていない（クレンジングが必要） ✓得られる示唆が少ない（当たり前のことしか分からない） ✓過去のデータである（結果しか残っておらず理由が不明） 従って、基本的には「集めるデータ」を考える方が結果的にリーズナブルである場合が多い

データの種類 一覧にまとめるとこんな感じ特徴集まってるデータ集めるデータコスト低い（既存の仕組みから出る）高い（調査や設計が必要）鮮度・量リアルタイム・膨大スポット的・限定的質（ノイズ）多い（分析に加工が必要）低い（目的に最適化されている）得られる知見「何が起きたか（What）」「なぜ起きたか（Why）」

（参考）集まってるデータの活用は個人的にはおすすめしない 「集まってるデータ」の活用は私個人的にはあまりおすすめしていない これは、先述の理由があるためと「集まってるデータを使うこと」自体が目的化している場合が多いため 少なくとも「そのデータ」だけで何か新しい価値を見出すというのは経験的に難しい 活用するという選択肢はもちろんあっても良いのだが、優先順位はよく考えたほうが良い

10.

それでも集まってるデータを使いたい 「そうはいっても集まってるデータを使いたいんだ！」という場合が多い 理由として、その事業部門としてはそのデータしか持っておらず、新たにデータを取得するような仕組みやソリューションの検討も難しい場合があるため その際は以下を検討すると良い ✓顧客課題は何か ✓他のデータとの掛け合わせ ✓価値の再定義

11.

顧客課題は何か 「データを活用すること」が目的になってないか、いま一度自問自答してみるべき 活用することで誰が嬉しいのか？（顧客は誰か？） 顧客の課題は何か？ 本当にデータ活用をしないとその顧客課題は解決できないのか？（Nice to haveではなくMust haveか） お金を払ってまでやりたいことか？

12.

他のデータとの掛け合わせ （例）POSデータ ✓単にPOSデータだけでは「何がいくつ売れたか」しか分からない ✓しかし、IDデータ（会員情報・アプリ）との組み合わせで可能性が広がる • LTV（顧客生涯価値）分析: 特定の商品を買った人が、その後どれくらいリピートしているかを追跡 • 離脱予測: いつも週1回購入していた顧客が、2週間来店していないことを検知し、クーポンをプッシュ通知して呼び戻す • 併売分析（バスケット分析）: 「おむつを買う人はビールも買う」といった、特定の属性（例：30代男性）特有の購買パターンを見つけ出し、棚割りやレジ横の商品配置を最適化

13.

価値の再定義 （例）POSデータ ✓POSデータを「商品が売れたデータ」としてではなく「店舗運営のログ」として活用してみる • レジ通過速度の可視化: 各レジの1客あたりのスキャン時間を算出し、ベテランと新人の差を数値化。特定の時間帯に「詰まり」が発生する原因を特定し、レジ応援の最適なタイミングを割り出す • 死に筋の早期発見: 新商品発売後、最初の数日間の売上動向パターンを過去のヒット作の初動データと比較し、翌日の発注量を即座に修正

14.

データ集めの注意事項

15.

データ集めの注意事項 いきなり大量に集めようとしない ✓「集まってるデータ」だろうが「集めるデータ」だろうが、まずは少数のデータで「使い道」をはっきりさせる ✓（例）3年分のPOSデータがある場合、いきなり3年分を受領せずに1 週間分だけ受領して「使い道」をはっきりさせてアルゴリズムを組んでから3年分を受領する、など データの受け渡し方を考える ✓メールやSharePointなどの業務用アプリで受け渡すことが多い ✓PoCまでなら問題ないが本格的な分析・運用の際にはデータレイクを準備するなど仕組み化が必須

16.

データ集めの注意事項 サンクコストを気にしない ✓「せっかく集めたんだから有効に活用しなければもったいない」という意識にかられる場合があるが、これはサンクコストの誤謬と呼ばれる認知バイアスに近い（データを集めたり整理したりしたことにかけた工数を取り戻したい、という意識に駆られている） ✓集めたデータが仮に使い物にならないということが分かったら、潔く捨てること（どんなに頑張っても使い物にならないものは使い物にならない）

17.

（参考）Garbage In, Garbage Out GIGO（Garbage In, Garbage Out） 直訳すれば「ゴミを入れたらゴミが出てくる」 （例）どんなに腕の立つシェフがいたとしても、腐った食材を調理すれば、不味い料理（ゴミ）しか出来上がらない ちなみに腐った食材かどうかは誰の目に見ても明らかだが、データがゴミかどうかは見た目には分からない場合が多い

18.

データエンジニアリング

19.

データエンジニアリングとは データエンジニアリング ✓データを、誰もが安全・迅速・正確に活用できる『仕組み』を構築し、運用すること ✓データサイエンティスト：データを料理するシェフ ✓データエンジニア：新鮮な食材（データ）を安定して調達し、下処理をして、いつでも使える状態で厨房（分析基盤）に届けるサプライチェーンの設計者（by Gemini）

20.

データエンジニアリングとは 一般的にはデータエンジニアリングもデータサイエンティストがやるものだと思われている 実際にやれる人もいる（すごい） 一方で、データサイエンティストとデータエンジニアは必要とされるスキルもマインドセットも若干異なる よって、データサイエンスとデータエンジニアリングは分けて考えたほうが良い

21.

（参考）データサイエンティストの3つのスキル【出典】Data of Data Scientist シリーズ vol.17『5.9%－3つのスキルを棟梁以上のレベルで兼ね備えている人の割合』 https://www.datascientist.or.jp/dssjournal/dssjournal-2138/

https://www.datascientist.or.jp/dssjournal/dssjournal-2138/

22.

データエンジニアリングの3つの使命 １．データの「水道」を引く（パイプライン構築） ✓バラバラな場所（基幹システム、ログ、外部APIなど）にあるデータを、分析用の場所へ自動で運ぶ仕組みをつくる ✓ETL処理: 抽出（Extract）、変換（Transform）、書き込み（Load）という一連の流れを設計し構築する ２．データの「品質」を保証する（信頼性の担保） ✓「集まってるデータ」はそのままでは欠損があったり形式がバラバラだったりする ✓クレンジング: 重複の削除や、表記ゆれの統一 ✓監視: データが途切れたり、異常な値が混入したりしたときにアラートを出す仕組みを作る

23.

データエンジニアリングの3つの使命 ３．データの「器」を最適化する（基盤設計） ✓データの量や種類（テキスト、画像、数値など）に合わせて、最適な保存先や処理方法を選ぶ ✓スケーラビリティ: データが急増してもシステムが止まらない、あるいはコストが跳ね上がらない設計を目指す（以上 by Gemini） これら3つは必要とされるタイミングが微妙に異なる ✓（例）3番目のスケーラビリティは一番最初にはまだ考えなくても良い（時期尚早）。ただデータが増えた時に考えても遅い場合もあるため、「これからデータが増えるだろう」という絶妙なタイミングで検討が必要になる。

24.

今日のまとめ データには「集まってるデータ（受動）」と「集めるデータ（能動）」の2種類がある 分析目的で設計された「集めるデータ」の方が、ノイズが少なく高い知見を得やすい 既存の「集まってるデータ」を使う際は、他データとの掛け合わせや価値の再定義を検討する データ集めは、いきなり大量に集めようとせず、少数のデータで使い道を明確にすることから始める データエンジニアリングは、誰もが安全・迅速・正確にデータを活用できる「仕組み」を担う

25.

Thank You !!