GA4とBigQueryの「新規ユーザー数」乖離の真実 Cookie依存の仕組みと、Googleシグナルが生む「2つの現実」
なぜ、データは決して一致しないのか? 現場のデータアナリストを悩ませる「数値のズレ」。その答えは、各プラットフォームが「現実」をどう解釈し、どう加工しているのかの違いに隠されています。 GA4 管理画面 30 新規ユーザー数 BigQuery 31 新規ユーザー数
2つの異なるレンズ:GA4 UIとBigQuery GA4管理画面(標準) BigQuery(RAWデータ) 主な識別子 Googleシグナル + Cookie Cookie (user_pseudo_id) データの性質 モデリング等を含む「統計値」 発生した「生イベントのログ」 しきい値 あり(データが隠れる場合がある) なし(全件集計) 用途 トレンドの把握、迅速な分析 詳細な分析、他データとの結合 「GA4管理画面は加工された統計値、BigQueryは無加工の生ログ」
新規ユーザーの正体は「新しいIDの発行」 ブラウザに _ga クッキーがない状態でサイトを訪れると、 GA4は「新しいID」を発行し、first_visit イベントを発生させます。 Server _ga / Client ID first_visit イベント発生 GA4は「人」を追跡しているのではなく、「新しいブラウザ環境」を追跡しているに過ぎません。
ITPが引き起こす「Cookieの消失」 「Cookieに依存している」ということは、Cookieが消えればデータもリセットされることを意味します。 AppleのSafariなどに搭載されたITPは、Cookieの寿命を強制的に短縮し、 データ分析に最大のノイズを生み出します。 2年間有効 通常のCookie 0 1 2 3 ITP環境下 24時間~7日間
リピーターが「幻の新規ユーザー」に化ける瞬間 8日前に訪れた熱心なファンが今日再訪しても、ITPによってCookieが消滅していれば、 GA4は「初めまして」と誤認します。Cookieへの依存は、データの脆弱性に直結します。 Day 1 Day 2-7 Day 8 初回訪問 (タグ付与) ITPによるCookie消滅 再訪時に新しいID発行 (first_visit) _ga _ga _ga
Cookie依存を薄める「レポート識別子」の3層構造 GA4はCookieの限界を補うため、3つの情報を組み合わせて「同一人物」を特定します。 ログイン機能(User-ID)がないサイトの場合、データは不安定な下位2層に依存します。 User-ID Cookie依存度: 低 (最強の武器) Google シグナル Cookie依存度: 低 (推定技術) デバイス ID / user_pseudo_id Cookie依存度: 高 (不安定) ログイン機能がない 場合の依存領域
Googleシグナルによる「クロスデバイスの名寄せ」 会社のPCと通勤中のスマホ。Cookieは別々でも、Googleシグナルが有効であれば 「同一人物のリピーター」として判定されます。これにより管理画面上のダブルカウントを防ぎます。 会社のPC (Cookie A) Google アカウント スマホ (Cookie B) 1人のユーザーとして判定
最大の罠:GoogleシグナルはBigQueryに出力されない ここが最も重要な事実です。BigQueryのエクスポートデータは、名寄せが行われる前の生データです。 BigQueryはGoogleシグナルの恩恵を一切受けず、純粋な生クッキー単位のデータしか保持していません。 GA4管理画面 反映される Google シグナル (名寄せデータ) 出力されない(生クッキーのみ) BigQuery
ズレの正体:「シグナルの有無」が生む2つの現実 管理画面ではリピーターとして処理されるユーザーが、BigQueryでは「2人の新規ユーザー」としてカウントされる。 このシグナルの有無が、BigQueryの新規ユーザー数が多くなる理由です。 GA4 管理画面 Googleシグナル:あり 会社のPC (Cookie A) スマホ (Cookie B) 結果:「リピーター1人」 BigQuery Googleシグナル:なし 会社のPC (Cookie A) スマホ (Cookie B) 結果:「新規ユーザー」 結果:「新規ユーザー」 結果:新規ユーザー2人
シグナルの代償:「データしきい値」による非表示 Googleシグナルを有効にすると、プライバシー保護のために「しきい値 (Thresholding)」が適用されます。 少数のユーザーデータは、個人特定を防ぐためにレポートから意図的に隠されます。 しきい値未満 (除外されるデータ) 精度を上げるための機能が、皮肉にもレポートの 数値を実数より少なくさせるのです。
2つの現実との賢い付き合い方 どちらの数値も「間違っている」わけではありません。システムの仕様と限界を理解し、目的に応じて 使い分けることが求められます。 Googleシグナルあり (GA4 UI) Googleシグナルなし (BigQuery) 新規ユーザーの精度 高い(デバイスを跨いで判定) 低い(Cookie依存) データの透明性 低い(しきい値で隠される) 高い(全行が参照可能) 主な用途 広告配信・デモグラ分析 ログレベルの深い挙動分析
「新規ユーザー」の定義をアップデートする [ 幻想 ] 今日、初めて自社ブランドを知ってくれた人 [ 現実 ] 新しいブラウザ環境で生成された 「新しいCookie」の数
唯一にして最強の解決策:「User-ID」の実装 Googleシグナルのブラックボックス化や、ITPによるCookie消滅から完全に脱却する方法。 それは、自社のログイン機能を利用した「User-ID」を取得し、直接BigQueryへ送ることです。 User-ID(自社ログイン基盤) Cookie / ITP(脆弱) BigQuery
まとめと次のアクション 1 異なるデータソースの性質:GA4管理画面は加工されたモデリング データ、BigQueryは純粋なCookieベースの生データである。 2 乖離を生む最大の要因:「Googleシグナル」による名寄せデータが BigQueryにはエクスポートされないことが、数値ズレの正体である。 3 究極の精度へ向けて:Cookie依存とデータしきい値の限界を超える ため、自社ログイン基盤を活用した「User-ID」実装へと舵を切る。