647 Views
April 27, 26
スライド概要
(AIによる要約)
データは受動的に集まるデータと能動的に集めるデータの2種があり、前者はクレンジングや価値創出が難しいため、できるだけ能動的データを設計します。データ活用の際は顧客課題の明確化、他データとの組み合わせ、価値再定義を検討し、少量から目的を確認して拡大します。また、データエンジニアリングではデータパイプラインの構築と品質保証が重要で、ETLや監視を通じて安全・迅速にデータを提供します。
アジャイル/スクラム/データサイエンス/プロダクトマネジメント/プロジェクトマネジメント/組織論など、日々の学びをスライドにします。
【製造業データビジネス勉強会】04 データ集めと データエンジニアリング 2026/04/28 @shimitaka1982 清水 隆史
今日の 勉強どころ
データビジネスの階層構造 プロセス 現時点の 個人的な感触 新規事業創出 プロジェクトマネジメント ビジネスモデル 要求分析・要件定義 プロダクトマネジメント リスクマネジメント プラクティ ス マインドセット 人材育成 ビジネス力 データサイエンス力 データエンジニアリング 力
データビジネスの進め方 ① 事業設計 ⑧ マ ③ データ準備 ー ④ 探索的データ分析 ケ テ ⑤ モデル構築 ィ ン ⑥ 社会実装 グ ⑦ 保守・運用 ② サービス設計 現時点の 個人的な感触 • いずれも単方向ではなく、 行ったり来たりを繰り返す • 全てを行うわけではなく、 途中から始まったり途中で 終わったりすることもある • 初期の段階で後期の要素を 考えておく必要がある
データの種類
データの種類 データには大きく2種類ある 集まってるデータ(受動的データ) ✓特に意図したわけではないが自然と集まっているデータ ✓(例)POSデータ (※補足:POSデータはもともと売上計上や在庫管理などを目的としたものであり、マーケ ティングデータ分析を用途としたものではないため、このような表現をしている) 集めるデータ(能動的データ) ✓分析することを意図して集めたデータ ✓(例)購買行動を数値化する画像データ
集まってるデータは扱いが難しい 現時点の 個人的な感触 よく「集まってるデータ」を指して「データがある」 といい「このデータを分析したい」ということが多い ただ、集まってるデータは分析することを目的として 集められたわけではないので以下のような傾向がある ✓分析に適した形になっていない(クレンジングが必要) ✓得られる示唆が少ない(当たり前のことしか分からない) ✓過去のデータである(結果しか残っておらず理由が不明) 従って、基本的には「集めるデータ」を考える方が 結果的にリーズナブルである場合が多い
データの種類 一覧にまとめるとこんな感じ 特徴 集まってるデータ 集めるデータ コスト 低い (既存の仕組みから出る) 高い (調査や設計が必要) 鮮度・量 リアルタイム・膨大 スポット的・限定的 質(ノイズ) 多い (分析に加工が必要) 低い (目的に最適化されている) 得られる知見 「何が起きたか(What)」 「なぜ起きたか(Why)」
(参考)集まってるデータの活用は 個人的にはおすすめしない 「集まってるデータ」の活用は私個人的にはあまり おすすめしていない これは、先述の理由があるためと「集まってるデータ を使うこと」自体が目的化している場合が多いため 少なくとも「そのデータ」だけで何か新しい価値を見 出すというのは経験的に難しい 活用するという選択肢はもちろんあっても良いのだが、 優先順位はよく考えたほうが良い
それでも集まってるデータを使いたい 「そうはいっても集まってるデータを使いたいんだ!」 という場合が多い 理由として、その事業部門としてはそのデータしか持っ ておらず、新たにデータを取得するような仕組みやソ リューションの検討も難しい場合があるため その際は以下を検討すると良い ✓顧客課題は何か ✓他のデータとの掛け合わせ ✓価値の再定義
顧客課題は何か 「データを活用すること」が目的になってないか、 いま一度自問自答してみるべき 活用することで誰が嬉しいのか?(顧客は誰か?) 顧客の課題は何か? 本当にデータ活用をしないとその顧客課題は解決でき ないのか?(Nice to haveではなくMust haveか) お金を払ってまでやりたいことか?
他のデータとの掛け合わせ (例)POSデータ ✓単にPOSデータだけでは「何がいくつ売れたか」しか分からない ✓しかし、IDデータ(会員情報・アプリ)との組み合わせで可能性が広 がる • LTV(顧客生涯価値)分析: 特定の商品を買った人が、その後どれくらいリピート しているかを追跡 • 離脱予測: いつも週1回購入していた顧客が、2週間来店していないことを検知し、 クーポンをプッシュ通知して呼び戻す • 併売分析(バスケット分析): 「おむつを買う人はビールも買う」といった、特 定の属性(例:30代男性)特有の購買パターンを見つけ出し、棚割りやレジ横の 商品配置を最適化
価値の再定義 (例)POSデータ ✓POSデータを「商品が売れたデータ」としてではなく「店舗運営のロ グ」として活用してみる • レジ通過速度の可視化: 各レジの1客あたりのスキャン時間を算出し、ベテランと 新人の差を数値化。特定の時間帯に「詰まり」が発生する原因を特定し、レジ応 援の最適なタイミングを割り出す • 死に筋の早期発見: 新商品発売後、最初の数日間の売上動向パターンを過去の ヒット作の初動データと比較し、翌日の発注量を即座に修正
データ集めの 注意事項
データ集めの注意事項 いきなり大量に集めようとしない ✓「集まってるデータ」だろうが「集めるデータ」だろうが、まずは少 数のデータで「使い道」をはっきりさせる ✓(例)3年分のPOSデータがある場合、いきなり3年分を受領せずに1 週間分だけ受領して「使い道」をはっきりさせてアルゴリズムを組ん でから3年分を受領する、など データの受け渡し方を考える ✓メールやSharePointなどの業務用アプリで受け渡すことが多い ✓PoCまでなら問題ないが本格的な分析・運用の際にはデータレイクを 準備するなど仕組み化が必須
データ集めの注意事項 サンクコストを気にしない ✓「せっかく集めたんだから有効に活用しなければもったいない」とい う意識にかられる場合があるが、これはサンクコストの誤謬と呼ばれ る認知バイアスに近い(データを集めたり整理したりしたことにかけ た工数を取り戻したい、という意識に駆られている) ✓集めたデータが仮に使い物にならないということが分かったら、潔く 捨てること(どんなに頑張っても使い物にならないものは使い物にな らない)
(参考)Garbage In, Garbage Out GIGO(Garbage In, Garbage Out) 直訳すれば「ゴミを入れたらゴミが出てくる」 (例)どんなに腕の立つシェフがいたとしても、腐っ た食材を調理すれば、不味い料理(ゴミ)しか出来上 がらない ちなみに腐った食材かどうかは誰の目に 見ても明らかだが、データがゴミか どうかは見た目には分からない場合が多い
データ エンジニア リング
データエンジニアリングとは データエンジニアリング ✓データを、誰もが安全・迅速・正確に活用できる『仕組み』を構築し、 運用すること ✓データサイエンティスト:データを料理するシェフ ✓データエンジニア:新鮮な食材(データ)を安定して調達し、下処理 をして、いつでも使える状態で厨房(分析基盤)に届けるサプライ チェーンの設計者 (by Gemini)
データエンジニアリングとは 一般的にはデータエンジニアリングもデータサイエン ティストがやるものだと思われている 実際にやれる人もいる(すごい) 一方で、データサイエンティストとデータエンジニア は必要とされるスキルもマインドセットも若干異なる よって、データサイエンスとデータエンジニアリング は分けて考えたほうが良い
(参考)データサイエンティストの3つのスキル 【出典】Data of Data Scientist シリーズ vol.17『5.9%-3つのスキルを棟梁以上 のレベルで兼ね備えている人の割合』 https://www.datascientist.or.jp/dssjournal/dssjournal-2138/
データエンジニアリングの3つの使命 1.データの「水道」を引く(パイプライン構築) ✓バラバラな場所(基幹システム、ログ、外部APIなど)にあるデータを、 分析用の場所へ自動で運ぶ仕組みをつくる ✓ETL処理: 抽出(Extract)、変換(Transform)、書き込み(Load)と いう一連の流れを設計し構築する 2.データの「品質」を保証する(信頼性の担保) ✓「集まってるデータ」はそのままでは欠損があったり形式がバラバラ だったりする ✓クレンジング: 重複の削除や、表記ゆれの統一 ✓監視: データが途切れたり、異常な値が混入したりしたときにアラート を出す仕組みを作る
データエンジニアリングの3つの使命 3.データの「器」を最適化する(基盤設計) ✓データの量や種類(テキスト、画像、数値など)に合わせて、最適な 保存先や処理方法を選ぶ ✓スケーラビリティ: データが急増してもシステムが止まらない、あるい はコストが跳ね上がらない設計を目指す (以上 by Gemini) これら3つは必要とされるタイミングが微妙に異なる ✓(例)3番目のスケーラビリティは一番最初にはまだ考えなくても良い (時期尚早)。ただデータが増えた時に考えても遅い場合もあるため、 「これからデータが増えるだろう」という絶妙なタイミングで検討が 必要になる。
今日のまとめ データには「集まってるデータ(受動)」と「集めるデータ (能動)」の2種類がある 分析目的で設計された「集めるデータ」の方が、ノイズが少な く高い知見を得やすい 既存の「集まってるデータ」を使う際は、他データとの掛け合 わせや価値の再定義を検討する データ集めは、いきなり大量に集めようとせず、少数のデータ で使い道を明確にすることから始める データエンジニアリングは、誰もが安全・迅速・正確にデータ を活用できる「仕組み」を担う
Thank You !!