8.1K Views
February 15, 25
スライド概要
第3会 関東Kaggler会のLTで話す 「マーケット予測コンペの問題設計と取り組み方」についてです
マーケット予測コンペの 問題設計と取り組み方 第三回関東Kaggler会 2025/02/15
自己紹介 - 名前: 西本 悠一郎 - twitter: @nishimt_general, Kaggle: nishimoto - 普段はインターネット系企業で生成AIはいいぞしてます - Dify使って社内の業務効率化とかしてます - Kaggleをはじめたきっかけ: Youtubeでみた 2
目次 ● はじめに ● Kaggleで開かれたマーケット予測コンペ ● 問題設計 ● 取り組み方 3
はじめに - 背景 ・最近参加したマーケット予測コンペが評価期間に入ったので、情報収 集したことをまとめました ・マーケット予測コンペってなに? → 株/仮想通貨の動向を予測するコンペのことをそう呼んでいます ・マーケット予測コンペ参加者を増やしたい 4
マーケット はじめに - Kaggler的な市場予測コンペのよいところ・つらいところ ・よいところ👍 - シンプルなテーブルデータが多く、取り組みやすい - データの質で悩まされることはない(データのラベリングの品質やPrivateデータ でのリークはない) ・つらいところ👎 - Shake起きがち - 特徴量が匿名化されていることが多い - 評価期間が長すぎて、Privateの結果共有が盛り上がらない - コンペ終わるとデータ削除されがち 5
目次 ● はじめに ● Kaggleで開かれたマーケット予測コンペ ● 問題設計 ● 取り組み方 6
7 Kaggleで開かれたマーケット予測コンペ コンペ名 年度 概要 Jane Street Real-Time Market Data Forecasting 2024 ETFのリターン予測 Optiver - Trading at the Close 2023 市場終了直前時のリターン予測 JPX Tokyo Stock Exchange Prediction 2022 株のリターン予測(シャープ値を評価) Ubiquant Market Prediction 2022 株のリターン予測 G-Research Crypto Forecasting 2021 仮想通貨の15分後の残差リターン予測 Optiver Realized Volatility Prediction 2020 株のボラティリティ予測 Jane Street Market Prediction 2020 株のリターン予測(リスク補正あり) Two-Sigma: Using News to Predict Stock Movements 2018 10日先の株の残差リターン予測 Two Sigma Financial Modeling Challenge 2016 10日先の株の残差リターン予測 The Winton Stock Market Challenge 2015 株のリターン予測 KaggleのFinanceタグは基本マーケット予測コンペ https://www.kaggle.com/competitions?tagIds=11108-Finance
目次 ● はじめに ● Kaggleで開かれたマーケット予測コンペ ● 問題設計 ○ 基本 ○ Optiver社コンペのユニークな問題設計 ○ リスクを考慮したリターン ● 取り組み方 8
9 問題設計 - 基本 ・基本は、株のリターンを予測するコンペが多い (例:株価が100円 → 105円となったら5%) ・リターン最大化したい目的は同じだが、リターンの算出方法/評価指標/リターンの算 出期間...はコンペによって異なる* - リターンの算出方法: 生リターン, 平均との残差リターン予測 - 評価指標: R2スコア, ピアソン相関係数...など - リターン算出期間: 数分程度〜1ヶ月程度が多い *特徴量名/ターゲット名は匿名化されていることが多いため、推測含む箇所あり
問題設計 - Optiver社コンペのユニークな問題設計 株の10分間のボラティリティ(変化の大きさ)を当てに行くコンペ 問題設計と関係ないが、リバースエンジニアリングした人への対応で荒れていた... 市場終了直前時の1分後リターン値を当てに行くコンペ PublicとPrivateでほぼShakeがなかった(すごい) → Shakeしづらい良問題設定。実力に自信がある人は狙ってよさそう 10
問題設計 - リスクを考慮したリターン ・JPXコンペや初回のJane Streetコンペでは株のリターンを直接評価せず、リスクとの比(シャープレ シオ)を評価指標に[1,2] → 安定してリターンが取れるか?を評価 図は[3]より ・上記によりリスクコントロールも重要なコンペに 図は[1]より Feature neutralization(特徴量中和)というリスクコントロールをすることで、シャープレシオが上昇(オレンジ分布) [1]: 機械学習による株価予測 KaggleのJPXコンペを終えて [2]: 機械学習モデリング前編 Jane Street Market Predictionで市場予測をしよう! [3]: 運用商品はどうやって評価されている??シャープレシオについて 11
目次 ● はじめに ● Kaggleで開かれたマーケット予測コンペ ● 問題設計 ● 取り組み方 ○ コンペの見極め ○ 解くときにやること ○ 解くとき考え方 12
13 取り組み方 - コンペの見極め 評価指標側でリスクが考慮されていても、予測が難しい限り結局運ゲーコンペと言われがち 予測の難しさは予測対象と特徴量のスピアマン相関係数でざっくり見ている → 相関係数が最大0.05くらいだと予測が難しそうという印象 スピアマン相関係数 JaneStreet(2024)コンペでの feature vs target相関値 図は自分のPublic Notebookより
解くときによくやること - まとめ 14 【前処理】 ・異常データの除外(Ubi Public) 【特徴量エンジニアリング(匿名データ)】 ・市場の平均値(Ubi1st; TwoSigma 5th) → 匿名データの場合は特徴量エンジニアリングに力を使ってないことが多め 【特徴量エンジニアリング(非匿名データ)】 ・移動平均線との乖離/ボラティリティなど、株のテクニカル指標(JPX 2nd) ・各種指標の市場平均/時間平均との比(Optiver 1st) 【モデリング】 ・GBDTが基本だが、NN(GRUやTransformer)も検討(JaneStreet24 Pub6th; Optiver23 1st; Ubi 3rd) ・オンライン学習も検討(Optiver 金圏) 【後処理】 ・Feature Neutralization(JS20 Public) 追記: CVはHold outで切ってることが多い
解くときの考え方 - 守りの考え① 15 異常データの除外(大きめの外れ値が出がち) Ubiquant公開Notebookより
16 解くときの考え方 - 守りの考え② 効く特徴量は効果よわくなりがち → いろんな特徴量の特徴をちょっとずつ持ってくるのが安定する 相関 だんだん効果が弱くなる特徴量の例 日付 JaneStreet publicノートブックより
まとめと感想 ・マーケット予測コンペは運ゲーと言われるコンペも多いが、問題設計が 少しずれていると運要素が減るコンペもある ・解くときは①異常データへの注意、②特定特徴量への非依存が守りの 考え方 17
Thanks!
19 参考: 日本語の情報一覧 Kaggle上位解法 コンペ名 概要 Optiver - Trading at the Close 【マケデコ】OptiverコンペKaggle上位解法勉強 会 JPX Tokyo Stock Exchange Prediction Award Ceremony 解法総評; 上位10人コード; 5位の解説紹介 Ubiquant Market Prediction Ubiquant Market Prediction コンペ振り返りと上位解法まとめ Ubiquant Market Predictionの1位から3位までのSolution G-Research Crypto Forecasting G-Research Crypto Forecastingの上位のSolution Two Sigma Financial Modeling Challenge Two Sigma Financial Modeling Challengeから学ぶ 国内コンペ上位解法 コンペ名 概要 日本取引所グループ ニュース分析チャレンジ 日本取引所グループ ファンダメンタルズ分析チャレンジ JPXによるコードと発表資料まとめ
20 参考: 日本語外の情報一覧 リンク名 概要 Two Sigma Financial Modeling Challenge Bestfittingさんらの5位ソリューション yuanzhe zhouさんのブログ 金融コンペでよく見る人のブログ(中国語) Numerai example scripts Numerai(株予測コンペサイト)のExample script