---
title: 【DB勉強会】04_データ集めとデータエンジニアリング
tags:  #製造業データビジネス勉強会  
author: [shimitaka（清水隆史）](https://image.docswell.com/user/shimitaka)
site: [Docswell](https://www.docswell.com/)
thumbnail: https://bcdn.docswell.com/page/2JVVVDMYJQ.jpg?width=480
description: （AIによる要約） データは受動的に集まるデータと能動的に集めるデータの2種があり、前者はクレンジングや価値創出が難しいため、できるだけ能動的データを設計します。データ活用の際は顧客課題の明確化、他データとの組み合わせ、価値再定義を検討し、少量から目的を確認して拡大します。また、データエンジニアリングではデータパイプラインの構築と品質保証が重要で、ETLや監視を通じて安全・迅速にデータを提供します。
published: April 27, 26
canonical: https://image.docswell.com/s/shimitaka/58NV8W-data-business-benkyo-04
---
# Page. 1

![Page Image](https://bcdn.docswell.com/page/2JVVVDMYJQ.jpg)

【製造業データビジネス勉強会】04
データ集めと
データエンジニアリング
2026/04/28
@shimitaka1982
清水 隆史


# Page. 2

![Page Image](https://bcdn.docswell.com/page/5EGLLYGWJL.jpg)

今日の
勉強どころ


# Page. 3

![Page Image](https://bcdn.docswell.com/page/4JQYYMXQ7P.jpg)

データビジネスの階層構造
プロセス
現時点の
個人的な感触
新規事業創出
プロジェクトマネジメント
ビジネスモデル
要求分析・要件定義
プロダクトマネジメント
リスクマネジメント
プラクティ
ス
マインドセット
人材育成
ビジネス力
データサイエンス力
データエンジニアリング
力


# Page. 4

![Page Image](https://bcdn.docswell.com/page/K74WWV6YE1.jpg)

データビジネスの進め方
① 事業設計
⑧
マ
③ データ準備
ー
④ 探索的データ分析 ケ
テ
⑤ モデル構築
ィ
ン
⑥ 社会実装
グ
⑦ 保守・運用
② サービス設計
現時点の
個人的な感触
• いずれも単方向ではなく、
行ったり来たりを繰り返す
• 全てを行うわけではなく、
途中から始まったり途中で
終わったりすることもある
• 初期の段階で後期の要素を
考えておく必要がある


# Page. 5

![Page Image](https://bcdn.docswell.com/page/LJ1YY3VNEG.jpg)

データの種類


# Page. 6

![Page Image](https://bcdn.docswell.com/page/GJWGGP3M72.jpg)

データの種類
データには大きく2種類ある
集まってるデータ（受動的データ）
✓特に意図したわけではないが自然と集まっているデータ
✓（例）POSデータ
（※補足：POSデータはもともと売上計上や在庫管理などを目的としたものであり、マーケ
ティングデータ分析を用途としたものではないため、このような表現をしている）
集めるデータ（能動的データ）
✓分析することを意図して集めたデータ
✓（例）購買行動を数値化する画像データ


# Page. 7

![Page Image](https://bcdn.docswell.com/page/4EZLLKVM73.jpg)

集まってるデータは扱いが難しい
現時点の
個人的な感触
よく「集まってるデータ」を指して「データがある」
といい「このデータを分析したい」ということが多い
ただ、集まってるデータは分析することを目的として
集められたわけではないので以下のような傾向がある
✓分析に適した形になっていない（クレンジングが必要）
✓得られる示唆が少ない（当たり前のことしか分からない）
✓過去のデータである（結果しか残っておらず理由が不明）
従って、基本的には「集めるデータ」を考える方が
結果的にリーズナブルである場合が多い


# Page. 8

![Page Image](https://bcdn.docswell.com/page/Y76WWQ557V.jpg)

データの種類
一覧にまとめるとこんな感じ
特徴
集まってるデータ
集めるデータ
コスト
低い
（既存の仕組みから出る）
高い
（調査や設計が必要）
鮮度・量
リアルタイム・膨大
スポット的・限定的
質（ノイズ）
多い
（分析に加工が必要）
低い
（目的に最適化されている）
得られる知見
「何が起きたか（What）」 「なぜ起きたか（Why）」


# Page. 9

![Page Image](https://bcdn.docswell.com/page/G75MMRYG74.jpg)

（参考）集まってるデータの活用は
個人的にはおすすめしない
「集まってるデータ」の活用は私個人的にはあまり
おすすめしていない
これは、先述の理由があるためと「集まってるデータ
を使うこと」自体が目的化している場合が多いため
少なくとも「そのデータ」だけで何か新しい価値を見
出すというのは経験的に難しい
活用するという選択肢はもちろんあっても良いのだが、
優先順位はよく考えたほうが良い


# Page. 10

![Page Image](https://bcdn.docswell.com/page/9J299DGDER.jpg)

それでも集まってるデータを使いたい
「そうはいっても集まってるデータを使いたいんだ！」
という場合が多い
理由として、その事業部門としてはそのデータしか持っ
ておらず、新たにデータを取得するような仕組みやソ
リューションの検討も難しい場合があるため
その際は以下を検討すると良い
✓顧客課題は何か
✓他のデータとの掛け合わせ
✓価値の再定義


# Page. 11

![Page Image](https://bcdn.docswell.com/page/DEY442VMJM.jpg)

顧客課題は何か
「データを活用すること」が目的になってないか、
いま一度自問自答してみるべき
活用することで誰が嬉しいのか？（顧客は誰か？）
顧客の課題は何か？
本当にデータ活用をしないとその顧客課題は解決でき
ないのか？（Nice to haveではなくMust haveか）
お金を払ってまでやりたいことか？


# Page. 12

![Page Image](https://bcdn.docswell.com/page/VJNYY8M378.jpg)

他のデータとの掛け合わせ
（例）POSデータ
✓単にPOSデータだけでは「何がいくつ売れたか」しか分からない
✓しかし、IDデータ（会員情報・アプリ）との組み合わせで可能性が広
がる
• LTV（顧客生涯価値）分析: 特定の商品を買った人が、その後どれくらいリピート
しているかを追跡
• 離脱予測: いつも週1回購入していた顧客が、2週間来店していないことを検知し、
クーポンをプッシュ通知して呼び戻す
• 併売分析（バスケット分析）: 「おむつを買う人はビールも買う」といった、特
定の属性（例：30代男性）特有の購買パターンを見つけ出し、棚割りやレジ横の
商品配置を最適化


# Page. 13

![Page Image](https://bcdn.docswell.com/page/YE9PPKNPJ3.jpg)

価値の再定義
（例）POSデータ
✓POSデータを「商品が売れたデータ」としてではなく「店舗運営のロ
グ」として活用してみる
• レジ通過速度の可視化: 各レジの1客あたりのスキャン時間を算出し、ベテランと
新人の差を数値化。特定の時間帯に「詰まり」が発生する原因を特定し、レジ応
援の最適なタイミングを割り出す
• 死に筋の早期発見: 新商品発売後、最初の数日間の売上動向パターンを過去の
ヒット作の初動データと比較し、翌日の発注量を即座に修正


# Page. 14

![Page Image](https://bcdn.docswell.com/page/GE8DDRKXED.jpg)

データ集めの
注意事項


# Page. 15

![Page Image](https://bcdn.docswell.com/page/LELMMKZN7R.jpg)

データ集めの注意事項
いきなり大量に集めようとしない
✓「集まってるデータ」だろうが「集めるデータ」だろうが、まずは少
数のデータで「使い道」をはっきりさせる
✓（例）3年分のPOSデータがある場合、いきなり3年分を受領せずに1
週間分だけ受領して「使い道」をはっきりさせてアルゴリズムを組ん
でから3年分を受領する、など
データの受け渡し方を考える
✓メールやSharePointなどの業務用アプリで受け渡すことが多い
✓PoCまでなら問題ないが本格的な分析・運用の際にはデータレイクを
準備するなど仕組み化が必須


# Page. 16

![Page Image](https://bcdn.docswell.com/page/4JMYY2VQJW.jpg)

データ集めの注意事項
サンクコストを気にしない
✓「せっかく集めたんだから有効に活用しなければもったいない」とい
う意識にかられる場合があるが、これはサンクコストの誤謬と呼ばれ
る認知バイアスに近い（データを集めたり整理したりしたことにかけ
た工数を取り戻したい、という意識に駆られている）
✓集めたデータが仮に使い物にならないということが分かったら、潔く
捨てること（どんなに頑張っても使い物にならないものは使い物にな
らない）


# Page. 17

![Page Image](https://bcdn.docswell.com/page/PJR99M2K79.jpg)

（参考）Garbage In, Garbage Out
GIGO（Garbage In, Garbage Out）
直訳すれば「ゴミを入れたらゴミが出てくる」
（例）どんなに腕の立つシェフがいたとしても、腐っ
た食材を調理すれば、不味い料理（ゴミ）しか出来上
がらない
ちなみに腐った食材かどうかは誰の目に
見ても明らかだが、データがゴミか
どうかは見た目には分からない場合が多い


# Page. 18

![Page Image](https://bcdn.docswell.com/page/PEXQQVD5JX.jpg)

データ
エンジニア
リング


# Page. 19

![Page Image](https://bcdn.docswell.com/page/3EK99QXRED.jpg)

データエンジニアリングとは
データエンジニアリング
✓データを、誰もが安全・迅速・正確に活用できる『仕組み』を構築し、
運用すること
✓データサイエンティスト：データを料理するシェフ
✓データエンジニア：新鮮な食材（データ）を安定して調達し、下処理
をして、いつでも使える状態で厨房（分析基盤）に届けるサプライ
チェーンの設計者
（by Gemini）


# Page. 20

![Page Image](https://bcdn.docswell.com/page/L73WWP5G75.jpg)

データエンジニアリングとは
一般的にはデータエンジニアリングもデータサイエン
ティストがやるものだと思われている
実際にやれる人もいる（すごい）
一方で、データサイエンティストとデータエンジニア
は必要とされるスキルもマインドセットも若干異なる
よって、データサイエンスとデータエンジニアリング
は分けて考えたほうが良い


# Page. 21

![Page Image](https://bcdn.docswell.com/page/87DKKLDNJG.jpg)

（参考）データサイエンティストの3つのスキル
【出典】Data of Data Scientist シリーズ vol.17『5.9%－3つのスキルを棟梁以上
のレベルで兼ね備えている人の割合』
https://www.datascientist.or.jp/dssjournal/dssjournal-2138/


# Page. 22

![Page Image](https://bcdn.docswell.com/page/VJPKK2XNE8.jpg)

データエンジニアリングの3つの使命
１．データの「水道」を引く（パイプライン構築）
✓バラバラな場所（基幹システム、ログ、外部APIなど）にあるデータを、
分析用の場所へ自動で運ぶ仕組みをつくる
✓ETL処理: 抽出（Extract）、変換（Transform）、書き込み（Load）と
いう一連の流れを設計し構築する
２．データの「品質」を保証する（信頼性の担保）
✓「集まってるデータ」はそのままでは欠損があったり形式がバラバラ
だったりする
✓クレンジング: 重複の削除や、表記ゆれの統一
✓監視: データが途切れたり、異常な値が混入したりしたときにアラート
を出す仕組みを作る


# Page. 23

![Page Image](https://bcdn.docswell.com/page/2EVVVDLYEQ.jpg)

データエンジニアリングの3つの使命
３．データの「器」を最適化する（基盤設計）
✓データの量や種類（テキスト、画像、数値など）に合わせて、最適な
保存先や処理方法を選ぶ
✓スケーラビリティ: データが急増してもシステムが止まらない、あるい
はコストが跳ね上がらない設計を目指す
（以上 by Gemini）
これら3つは必要とされるタイミングが微妙に異なる
✓（例）3番目のスケーラビリティは一番最初にはまだ考えなくても良い
（時期尚早）。ただデータが増えた時に考えても遅い場合もあるため、
「これからデータが増えるだろう」という絶妙なタイミングで検討が
必要になる。


# Page. 24

![Page Image](https://bcdn.docswell.com/page/57GLLYXWEL.jpg)

今日のまとめ
データには「集まってるデータ（受動）」と「集めるデータ
（能動）」の2種類がある
分析目的で設計された「集めるデータ」の方が、ノイズが少な
く高い知見を得やすい
既存の「集まってるデータ」を使う際は、他データとの掛け合
わせや価値の再定義を検討する
データ集めは、いきなり大量に集めようとせず、少数のデータ
で使い道を明確にすることから始める
データエンジニアリングは、誰もが安全・迅速・正確にデータ
を活用できる「仕組み」を担う


# Page. 25

![Page Image](https://bcdn.docswell.com/page/4EQYYM8QJP.jpg)

Thank You !!


