GA4とBigQueryにおけるユーザー数差異の解剖学

111 Views

March 28, 26

#GA4 #BigQuery #ユーザー数差異 #重複除去 #User-ID

スライド概要

渋谷TAIZI

@4514287294

スライド一覧

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

GA4とBigQueryの「数値のズレ」を解き明かす

渋谷TAIZI 305

GA4_日次セッション集計_SQLロジックの構造的解剖

渋谷TAIZI 219

GA4 日次新規ユーザー数集計クエリの解剖

渋谷TAIZI 147

GA4とBigQueryの「新規ユーザー数」乖離の真実

渋谷TAIZI 110

エンゲージメント時間の抽出_段階的SQL構造解析

渋谷TAIZI >100

GA4 ランディングページ抽出クエリの解剖学

渋谷TAIZI >100

各ページのテキスト

GA4とBigQueryにおけるユーザー数差異の解剖学データパイプラインの断層と、User-IDによる統合アーキテクチャの構築

乖離する2つの「真実」 GA4 標準レポート BigQuery エクスポート一般的な現象: GA4のユーザー数 < BigQueryのユーザー数同じデータソースでありながら、Google シグナルのデータを利用したGA4レポートでは、 BigQueryエクスポートデータよりもユーザー数が少なく算出されるのが一般的です。

GA4内部の重複除去メカニズム: 「3つのブラウザ、1人のユーザー」 Input Process Output ブラウザ A Google シグナル同一Googleアカウントへのログインを検知 GA4: 1人のユーザーとして認識ブラウザ B ブラウザ C それぞれ異なるセッションプラットフォームやデバイスをまたいだユーザーの重複除去。これがGA4の標準レポートにおける強力な統合力となります。

BigQueryの死角: 輸出されないシグナルデータ Input Process Output ブラウザ A Google シグナル user_pseudo_id (A) user_pseudo_id (B) user_pseudo_id (C) ブラウザ B ブラウザ C それぞれ異なるセッション BigQueryエクスポートでは Google シグナルの情報は利用不可 3つの異なるIDがそのまま記録されるシグナルデータがエクスポートされないため、BigQuery側では重複除去が行われず、結果としてユーザー数が多くカウントされます。

システム・リアリティ: GA4 vs BigQuery GA4 標準レポート BigQuery エクスポート重複除去の基準 Google シグナル(有効時) user_pseudo_id Google シグナルデータの利用可能(統合される) 不可(利用できない) 算出されるユーザー数相対的に少なくなる相対的に多くなるシステム間の仕様の断絶が、根本的な数値差異を生み出しています。

統合アーキテクチャの構築: 2段階の重複除去アプローチ Web/App Raw Traffic User-ID (実装推奨) BigQuery ログインしていないセッション Google シグナル GA4 BigQuery user_idに基づく重複除去が最初に行われます。ログイン中のユーザーはBigQueryでも自動的に計算に使用され、両システムで一致します。 user_idを持たないセッションが対象。重複除去の基準はGoogleシグナルのままとなり、GA4標準レポートでのみ適用されます。差異を極限まで軽減するためには、GA4プロパティでの「User-ID実装」と「Google シグナルの有効化」の併用が不可欠です。

注意すべき死角: 標準レポートにおける「しきい値」の適用 BigQueryの生データエクスポートデータにはしきい値は適用されないが、対象情報の多くはそもそも利用不可。 GA4 標準レポートしきい値 (Thresholding) 標準レポートサーフェスでは、プライバシー保護のための「しきい値」が適用され、一部のデータが除外される場合があります。しかし、このしきい値の適用対象となり得る情報の多くは、そもそもBigQueryエクスポートデータでは利用できないことが一般的です。一部のデータが返されない (しきい値による制限)。

最適化されたデータ基盤の完成 1. User-ID 両システムを貫く絶対的な「真の識別子」 2. Google シグナル GA4 UIにおける高度な「クロスデバイス補完」 3. BigQuery 制限(しきい値)のない完全な「生のデータレイク」これらを組み合わせることで、分析の目的に応じた「単一の真実(Single Source of Truth)」と、プラットフォームの特性を最大限に活かしたハイブリッドなデータ分析が可能になります。