---
title: 時系列予測について モデル・評価尺度・静的特徴量の活用
tags: 
author: [MIKIO KUBO](https://image.docswell.com/user/mikiokubo)
site: [Docswell](https://www.docswell.com/)
thumbnail: https://bcdn.docswell.com/page/GE8DQZXGED.jpg?width=480
description: 時系列予測について モデル・評価尺度・静的特徴量の活用
published: June 28, 26
canonical: https://image.docswell.com/s/mikiokubo/KR88W3-forecasting
---
# Page. 1

![Page Image](https://bcdn.docswell.com/page/GE8DQZXGED.jpg)

時系列予測について
モデル・評価尺度・静的特徴量の活用
MOAI Lab
1 / 22


# Page. 2

![Page Image](https://bcdn.docswell.com/page/LELMXD8X7R.jpg)

本資料の構成
1
最近の動向
2
需要予測モデル
3
評価尺度
4
静的特徴量の活用
5
まとめ
2 / 22


# Page. 3

![Page Image](https://bcdn.docswell.com/page/4JMYLP63JW.jpg)

時系列予測の最近の動向
個別系列を別々に扱うローカルモデルから、多数系列を同時に学習するグローバルモデ
ルへ移行している。
手作業のハイパーパラメータチューニングだけでなく、AutoML、アンサンブル、多層
スタッキングが重要になっている。
深層学習と基盤モデルの発展により、短系列やコールドスタートに対する予測可能性が
広がっている。
一方で、単純なベースラインを上回るか、運用コストに見合うかを常に確認する必要が
ある。
3 / 22


# Page. 4

![Page Image](https://bcdn.docswell.com/page/PJR9K1PR79.jpg)

時系列予測モデルの分類
1
ベースラインモデル：ナイーブ、平均、季節ナイーブ、ゼロモデルなど。
2
統計的モデル：指数平滑、ARIMA、SARIMAX、Prophet、Theta など。
3
機械学習モデル：ラグ特徴量を用いた表形式回帰モデル。
4
深層学習モデル：DeepAR、PatchTST、TFT、DLinear など。
5
時系列大規模基盤モデル：Chronos、Chronos-Bolt、Chronos-2、Toto など。
4 / 22


# Page. 5

![Page Image](https://bcdn.docswell.com/page/PEXQLY3YJX.jpg)

ベースラインモデルの役割
ベースラインモデルは、予測モデル評価の基準点である。
直近値を使うナイーブモデル、全体平均を使う平均モデル、同周期の過去値を使う季節
ナイーブモデルが代表例である。
強い季節性がある場合、季節ナイーブが高度なモデルより高精度になることもある。
データが少ない、欠損が多い、間欠需要である場合には、単純なモデルの方が安定する
ことがある。
5 / 22


# Page. 6

![Page Image](https://bcdn.docswell.com/page/3EK9L3Y4ED.jpg)

統計的モデル
個々の時系列を独立に扱うローカルモデルとして利用されることが多い。
移動平均や指数平滑は、直近と過去の情報をどの程度重視するかを明示的に制御する。
ホルト法やホルト・ウィンターズ法は、トレンドや季節性を指数平滑の枠組みで扱う。
ARIMA は自己回帰、和分、移動平均を組み合わせる古典的モデルであり、SARIMAX や
VARIMA へ拡張される。
Prophet は、傾向変動、季節変動、イベント項の和として予測を行う。
6 / 22


# Page. 7

![Page Image](https://bcdn.docswell.com/page/L73W3G9D75.jpg)

Prophet の加法モデル
Prophet では、予測値を複数要因の和として表現する。
yt = gt + st + ht + t
yt 予測値
gt 傾向変動。線形またはロジスティック曲線で表現する。
st 季節変動。フーリエ級数で表現する。
ht 休日などのイベント項。
t 誤差項。
7 / 22


# Page. 8

![Page Image](https://bcdn.docswell.com/page/87DK41G2JG.jpg)

機械学習モデル
時系列予測を教師あり学習の回帰問題として定式化する。
入力には、ラグ特徴量、移動平均、曜日・月、価格、プロモーションなどを用いる。
ランダムフォレスト、勾配ブースティング、LightGBM、XGBoost、CatBoost などを
そのまま活用できる。
多数の商品・店舗をまとめて扱うグローバル予測モデルに適用しやすい。
再帰的モデルはホライズンが長くなるほど誤差が蓄積しやすい。
8 / 22


# Page. 9

![Page Image](https://bcdn.docswell.com/page/VJPKMQ3LE8.jpg)

深層学習モデル
大規模データから非線形パターンを学習し、グローバルモデルとして高い性能を発揮
する。
DeepAR は、自己回帰型 RNN を用いた確率的時系列予測モデルである。
静的特徴量や共変量を取り込み、点予測だけでなく予測分布も出力する。
PatchTST は系列をパッチに分割し、長いコンテキストを効率的に処理する。
TFT は、LSTM、アテンション、変数選択ネットワークを組み合わせ、解釈性も重視
する。
DLinear は、トレンド成分と残差成分に分解して線形層で予測する単純な強力モデル
である。
9 / 22


# Page. 10

![Page Image](https://bcdn.docswell.com/page/2EVV9546EQ.jpg)

時系列大規模基盤モデル
大規模時系列データで事前学習し、ゼロショットまたは少量の追加学習で予測する。
Chronos は、時系列をスケーリング・離散化して言語トークンのように扱う。
Chronos-Bolt は、複数観測値をパッチ化し、直接マルチステップ分位点予測を行う。
Chronos-2 は連続的なパッチ埋め込みと文脈内学習能力を特徴とする。
Toto はオブザーバビリティメトリクスに特化したオープンウェイト基盤モデルである。
課題は、ドメイン分布差、計算負荷、説明可能性、データ秘匿性である。
10 / 22


# Page. 11

![Page Image](https://bcdn.docswell.com/page/57GLZ612EL.jpg)

評価尺度の全体像
評価尺度は、モデル選択、チューニング、アンサンブル構築の基準である。
AutoGluon では「値が大きいほど良い」という規約があり、誤差指標は内部で符号反
転される。
確率的予測では分位点予測の精度を評価する。
点予測では平均・中央値など単一値の予測精度を評価する。
データのスケール、スパース性、外れ値、ゼロ値の有無に応じて指標を選ぶ必要がある。
11 / 22


# Page. 12

![Page Image](https://bcdn.docswell.com/page/4EQYL4D9JP.jpg)

確率的予測の評価尺度
SQL 分位点予測を、過去の絶対季節誤差で正規化して評価するスケール非依存指標
である。
WQL 分位点予測の絶対誤差を、予測期間のターゲット絶対値合計で割るスケール依
存指標である。
SQL は、規模の異なる系列を平等に評価したい場合に適する。
WQL は、値の大きな系列を重視したい場合やスパースデータに適する。
中央値のみで評価すると、SQL は MASE、WQL は WAPE に対応する。
12 / 22


# Page. 13

![Page Image](https://bcdn.docswell.com/page/KJ4WDQGR71.jpg)

点予測の評価尺度：中央値向け
MAE 絶対誤差の平均。スケール依存で、外れ値に比較的頑健である。
MASE MAE を過去の絶対季節誤差で正規化したスケール非依存指標である。
WAPE 絶対誤差合計を実績値の絶対値合計で割る指標であり、ゼロ値を含んでも計算
しやすい。
N T+H
1 X X
MAE =
yi,t − fi,t
NH
i=1 t=T+1
13 / 22


# Page. 14

![Page Image](https://bcdn.docswell.com/page/LE1YZPDV7G.jpg)

点予測の評価尺度：平均向け・特殊用途
MSE 二乗誤差の平均。大きな誤差を強く罰する。
RMSE MSE の平方根。ターゲットと同じ単位で解釈できる。
RMSSE RMSE をスケール調整した指標である。
RMSLE 対数変換後に RMSE を計算する。指数的変動に適するが負値では未定義である。
MAPE/SMAPE ゼロ値に弱く、実務上は注意または非推奨である。
14 / 22


# Page. 15

![Page Image](https://bcdn.docswell.com/page/GEWG92Y3J2.jpg)

静的特徴量とは何か
静的特徴量は、時間の経過とともに変化しない各時系列固有のメタデータである。
例：顧客種類、所在地、製品カテゴリ、ブランド、色、重量など。
グローバルモデルでは、系列間に共通するパターンを共有するクロスラーニングの鍵に
なる。
コールドスタートや短系列では、履歴データ不足を補う重要な情報源となる。
15 / 22


# Page. 16

![Page Image](https://bcdn.docswell.com/page/47ZL9DXGJ3.jpg)

モデル別の静的特徴量の処理
モデル
静的特徴量の使われ方
DeepAR
TFT
GBDT
カテゴリ埋め込みとして低次元ベクトル化し、RNN 入力に結合する。
コンテキストベクトルとして、変数選択・ゲート・LSTM 初期化を制御する。
ラグ特徴量とともに表形式データへ結合し、決定木の分割条件として使う。
深層モデルでは表現学習によって系列間の類似性を学習する。
ツリーモデルではカテゴリ分割は得意だが、トレンド外挿は苦手である。
16 / 22


# Page. 17

![Page Image](https://bcdn.docswell.com/page/YJ6WK14QJV.jpg)

AutoGluon-TimeSeries での実装
パネル時系列は TimeSeriesDataFrame で扱う。
item_id と timestamp のマルチインデックスを基盤とする。
静的特徴量は static_features 属性として付与する。
カテゴリ型特徴量は category 型へ明示的にキャストすることが重要である。
item_id と静的特徴量のインデックスが一致していない場合、整合性エラーになる。
17 / 22


# Page. 18

![Page Image](https://bcdn.docswell.com/page/GJ5MP4Q2J4.jpg)

Darts での実装
Darts では TimeSeries オブジェクトに static_covariates を付与する。
StaticCovariatesTransformer により、静的共変量の前処理をパイプライン化できる。
数値特徴量とカテゴリ特徴量で、スケーリングやエンコーディングを分ける必要がある。
LightGBMModel などでは、One-Hot エンコーディングや列数管理に注意が必要で
ある。
18 / 22


# Page. 19

![Page Image](https://bcdn.docswell.com/page/LE3W3GV1E5.jpg)

高度な特徴量エンジニアリング
1
2
動的エンコーディング：カテゴリごとのトレンドを抽出し、将来共変量として入力する。
時系列クラスタリング：実際の需要パターンに基づいてクラスタ ID を静的特徴量とし
て追加する。
3
周期的エンコーディング：曜日や月を sin、cos で表現し、循環性を保つ。
4
階層的調整：顧客種類別・個別顧客別などの階層で予測値の整合性を保つ。
19 / 22


# Page. 20

![Page Image](https://bcdn.docswell.com/page/8EDK418K7G.jpg)

動的エンコーディングの発想
決定木系モデルは、学習データ範囲外へのトレンド外挿が苦手である。
顧客種類などの静的カテゴリだけでは、将来の成長トレンドを表現しにくい。
カテゴリ単位で需要を集約し、Prophet や ETS でトレンドを外挿する。
外挿したカテゴリ別トレンドを、時間変化する動的共変量として元データへ結合する。
ツリーモデルの局所的非線形学習と、統計モデルの大局的外挿を組み合わせる方法で
ある。
20 / 22


# Page. 21

![Page Image](https://bcdn.docswell.com/page/V7PKMQ83J8.jpg)

まとめ
時系列予測は、ローカルモデルからグローバルモデル、さらに基盤モデルへ進化して
いる。
モデルは、ベースライン、統計的モデル、機械学習、深層学習、基盤モデルを比較して
選ぶべきである。
評価尺度は、平均・中央値・分位点のどれを重視するか、ゼロ値や外れ値の有無で選択
する。
静的特徴量は、クロスラーニング、コールドスタート、階層的予測において重要である。
実務では、精度だけでなく、解釈性、運用コスト、データ整合性も含めて判断する必要
がある。
21 / 22


# Page. 22

![Page Image](https://bcdn.docswell.com/page/2JVV95NNJQ.jpg)

実務での推奨手順
1
季節ナイーブや平均モデルでベースラインを作る。
2
統計的モデルと表形式機械学習モデルを比較する。
3
データ量が十分なら、DeepAR、TFT、PatchTST などを試す。
4
静的特徴量、動的共変量、クラスタリング特徴量を追加する。
5
適切な評価尺度でバックテストし、アンサンブルや基盤モデルを候補に加える。
22 / 22