Google Analytics (UI / Looker Studio) BigQuery (Raw SQL) GA4とBigQueryの「数値のズレ」を解き明かす セッション数が一致しない理由と、正しいツールの使い分け方
「今週のセッション数は?」 同じ問いに対する、2つの「正解」 GA4 レポート / Looker Studio 1,828 BigQuery 1,876 データが壊れているわけではありません。この差異はシステムの「バグ」ではなく、意図された「仕様」です。
根本的な原因:2つの異なる計算エンジン GA4/HLL++ 圧倒的なスピードと近似値 GA4はHyperLogLog++ (HLL++) アルゴリズム を採用。巨大なデータを瞬時に処理するため、 一定の精度を持つ「推定値」を算出します。 HLL++ Estimator BigQuery/SQL リソースを投じた厳密なカウント BigQueryは詳細な元データを参照し、十分な時 間とリソースを使って各指標の「厳密な基数」 を計算します。 BigQuery Counter
Precision Engine HyperLogLog++ (HLL++) の仕組み Speed Blue 2021年10月のアップデートにより導入。エラー率の低下と、効率・精度の向上を実現。 95% 信頼区間で ±1.63% の精度 アルゴリズム: アクティブユーザー数やセッション 数|セッション数の「正確なカウン トを推定」する手法。 高い精度: 95% 信頼区間において、 セッション数の精度は ±1.63% (※精度は指標やHLL++スケッチ によって変動)。 ※2021年10月より前のデータには適用されません(過去データは event=session_start でのフィルタリングが必要)。
BigQueryのアプローチ:100%の計算 元データへの直接照会: SQLライ クな構文で、エクスポートされ た未加工のデータを直接処理。 リソースの集中: 時間とコンピ ューティングリソースを惜しみ なく投入し、厳密なカウントを 実行。 近似値なし: HLL++のような効 率的な近似値アルゴリズムは一 切適用されない。 徹底的な正確さを追求する代わりに、処理時間とクエリコスト(リソース)とトレードオフになります。
スピードと精度の 「黄金のトレードオフ」 膨大なデータセットに対して、「瞬時の読み込 み」と「100%の厳密な精度」を両立することは 不可能です。用途に応じて、最適なプラット フォームを選択する必要があります。 厳密な精度 (Exact Precision) BigQuery GA4 UI / Looker Studio 効率性・スピード (Efficiency & Speed)
目的別ツール選択マトリックス 目的 (Goal) 推奨ツール (Recommended Tool) 計算方法 (Method) 特徴 (Characteristics) より効率的に結果を取 得したい(日々のレポ ーティング、傾向把握) 標準レポート, データ探索ツール, Looker Studio HLL++ (推定値) 高速・軽量。経時的な 比較に最適。 元データからより正確 な結果を取得したい (財務監査、詳細な データ結合) BigQuery SQLによる厳密計算 100%の精度。ただし リソースと時間を消 費。
「絶対数」は異なっても、「ビジネスの真実」は一致する どちらのツールを使用しても、セッション数の変化の傾向は正確に把握できます。 先週 今週 BigQuery: 1,876 レポート: 1,828 BigQuery: 1,501 レポート: 1,463 +25% 数値のギャップ(Y軸の位置)は異なりますが、 成長の角度(+25%)は完全に一致しています。
覚えておくべき4つの原則 差異は「仕様」である GA4の近似値とBQの厳密計算によるわずかな差異 は、エラーではなくシステムの設計通りです。 スピード重視なら「GA4 UI」 日々のレポートや、素早い意思決定にはHLL++によ る高速なGA4レポートが最適です。 完全な精度が必要なら「BigQuery」 元データレベルでの厳密なカウントが必要な場合 は、リソースを使ってBigQueryで照会します。 トレンド(傾向)を信頼する 絶対数が異なっても、増加率や経時的なトレンドは 一致します。ビジネスのインサイトは揺るぎません。