調査の概要
本調査では、ゴールド価格、ドル円(USD/JPY)、S&P500、ビットコイン(BTC)などの金融時系列データを対象に、CNNやLSTMなどの時系列 AI モデルにおける「特徴量数(=シーケンス長×特徴量の種類)」とモデルパラメーター数の関係を分析した研究を精査した。特に、モデルが複雑になると汎化性能がどのように変化するか、過学習後にパラメータ数をさらに増やした際に二重降下現象(double descent)が現れるかどうかに注目した。引用文献で得られた情報を表にまとめ、主な論文の要点を解説する。
論文および研究の比較表
市場・データ | モデル構成 | シーケンス長 × 特徴量の種類 → 特徴量数 | おおよそのパラメーター数* | 汎化性能の指標 | 二重降下の有無 | コメント |
---|---|---|---|---|---|---|
ビットコイン価格 & ブロックチェーン統計(2018–2024)pmc.ncbi.nlm.nih.gov | LSTM‐Conformal Prediction (2 層 LSTM、隠れユニット 64、学習率 0.001、バッチサイズ 16) | ブロックチェーン関連の 18 特徴量を使用し、履歴長 m を 5〜100 まで変更 → 特徴量数= 18×m | LSTMパラメーターは 2 層で約 54,272 個(第一層:21,248、第二層:33,024)と推定 | 各 m で平均絶対パーセント誤差 (MAPE) を評価。m=5 で MAPE 3.68%、m=10 で 4.01%、m=50 で 6.94%、m=100 で 28.09% | 特徴量数が増えると汎化性能が悪化し、二重降下は観測されなかった。過学習が進み、長いシーケンスでは誤差が急増した。 | ブロックチェーン統計を多数含んでも、短い履歴(5〜10 日)で十分。特徴量数が増え過ぎるとデータがスパースになり、汎化性能が急激に低下した。 |
ゴールド価格 (日次データ, 1971–2022)pmc.ncbi.nlm.nih.gov | CNN-Bi-LSTM(フィルタ32・カーネル1のCNN+Bi‑LSTM 3 層、各隠れ単位20、ドロップアウト0.1) | ラグ長(lookback)24 が最適。価格系列やテクニカル指標など約6特征と仮定 → 特徴量数 ≈ 24×6=144 | CNN層とBi‑LSTM 3 層の合計パラメーターは約 2.4 万個(CNN層 224、Bi‑LSTM 各層 4,320/9,760 パラメーターを推定) | RMSE 34.87、平均絶対誤差率 (RMAE) 5.15、決定係数 R² 0.95 | 論文では lookback を増減する感度分析を行い、ラグ長 24 で最高の R² を得た。ラグを短くすると極値に反応しづらくなり、長くするとノイズが増えて精度が低下することが報告されており、二重降下は確認されなかった。 | CNN と Bi‑LSTM を組み合わせることで特徴抽出と時系列学習を統合。ラグ長 24 (特徴量数 144) 程度が適切で、長すぎるシーケンスはノイズ増加によって汎化性能が悪化した。 |
S&P500 株価 (日次終値, テクニカル指標含む)arxiv.org | 単層 LSTM(ユニット200)+全結合層medium.com | シーケンス長 216、特徴量種類:①終値のみ、②終値+テクニカル指標(MA, RSI, MACDなど)→ 特徴量数は 216×1 = 216 または 216×4 = 864 | 約 17 万パラメーター(LSTM部 ≈ 161,600+全結合層)、テクニカル指標を追加すると若干増える | 終値のみ使用した LSTM の MAPE 約 2.44%で安定。テクニカル指標を含む場合 MAPE 2.37%と若干改善したものの不安定。 | パラメータ数を 17k→171k 程度まで減らしても汎化性能はほぼ変わらなかったと報告。二重降下現象は観測されない。 | データ量が少ないため、モデルを巨大化しても性能は向上せず、むしろ不安定になる。特徴量数が多くても過学習しやすく、シンプルな LSTM で十分。 |
ドル円(EUR/USD など為替)方向予測jfin-swufe.springeropen.com | マクロ経済指標 LSTM+テクニカル指標 LSTM (ハイブリッド) | 金利、FRB資金レート、インフレ率、S&P500 と DAX の指数などマクロ指標と、移動平均 (MA)、MACD、ROC、RSI、ボリンジャーバンド、CCI などテクニカル指標。シーケンス長と特徴量数は非公開だが、マクロ・テクニカルそれぞれ10 程度の特徴量を使用。 | LSTM ユニット数やパラメーター数は記載されていないが、各サブモデルは 1 層 LSTM と仮定するとパラメータ数は数万程度 | 正解率や利益率を指標に使用。テクニカル LSTM 単独よりハイブリッドモデルの方が精度が高いと報告。 | 著者らはモデルサイズを変化させた実験を報告しておらず、二重降下は議論されていない。 | マクロ経済指標とテクニカル指標を別々の LSTM で処理し、規則ベースの判断層で統合する。特徴量数は多いが、データサンプルが少ないため複雑なモデルは利用できない。 |
複数銘柄(上海総合指数など)の株価予測mdpi.com | CNN‐LSTM‐RNN ハイブリッドモデル(入力形状 (None, 10, 6) 、CNN フィルタ 32、LSTM ユニット 64、RNN ユニット 64) | シーケンス長 10 × 特徴量 6(開・高・安・終値、調整終値、出来高)→ 特徴量数 60 | CNN/LSTM/RNN 部分のパラメーター総数は約 2.3 万個(CNN 224、LSTM 18,176、RNN 4,544) | MAE や RMSE で評価。単層 RNN が最も良い結果 (小さい MAE/RMSE) を示し、CNN-LSTM や LSTM 単独よりも優れていた。 | モデルサイズを増やしてもテスト誤差はあまり変わらず、二重降下現象は観測されない。 | 短期の株価予測では、特徴量数が比較的少ない(60)モデルでも十分な性能が得られ、大きなパラメータ数は必要ないという結論。 |
その他(論文“Deep Double Descent for Time Series Forecasting”)arxiv.org | Transformer 系モデル (FEDformer, Informer, Autoformer) を複数サイズで比較 | 歴史長 96、予測長 96〜720。多変量時系列データセットを使用し、特徴量数=入力変数数×96。 | Transformer モデルのパラメーター数は 1 万〜数十万規模で変化。 | 著者はエポック数を増やすとテスト損失が一度増加後に再度減少する「エポック単位の二重降下」を確認したが、モデルサイズに対しては明確な二重降下を確認できなかった。 | データセットのノイズレベルや訓練エポックが二重降下に影響することを示し、より長い訓練で一般化性能が改善する場合がある。 | 金融時系列ではなく一般的な時系列データを用いた検証だが、モデルサイズに対する二重降下が必ずしも出現しないことを示している。 |
パフォーマンス曲線の形状に関する研究(SSRN “The Shape of Performance Curve in Financial Time Series”)papers.ssrn.commrzepczynski.blogspot.com | 深層ニューラルネット、ランダムフォレスト、XGBoost など複数のモデル | 入力特徴量は株価やテクニカル指標。モデルサイズを幅広く(数十万~数百万パラメータ)に変化。 | 具体的なパラメータ数は非記載。 | 実験では テスト誤差がモデルサイズに対してほぼ一定であり、U 字型曲線や二重降下が見られなかったことを報告。 | 二重降下は観測されず、過学習してもテスト誤差はあまり増えなかった。 | 金融時系列の予測精度は不可避なノイズに制限されており、複雑なモデルは汎化性能を向上させない可能性が高いと結論付けている。 |
* パラメータ数は論文に記載されていない場合に推定した値。LSTM のパラメータ数は 4×((入力次元+隠れユニット)×隠れユニット+隠れユニット)で計算し、Bi‑LSTM では 2 倍している。
重要論文の要点と考察
ビットコイン価格とブロックチェーン特徴量
- PLOS One の研究では、29 個のブロックチェーン統計から 18 個の特徴量を選択し、2 層 LSTM を用いてビットコイン価格を予測したpmc.ncbi.nlm.nih.gov。シーケンス長 m を 5〜100 日まで変化させた実験の結果、m=5 (特徴量数=90) で MAPE 3.68%、m=10 (180) で 4.01%と低い誤差であったのに対し、m=50 (900) では 6.94%、m=100 (1,800) では 28.09%と急激に性能が悪化した。これはデータ数に対して特徴量数が多すぎると過学習が顕著になり、汎化性能が著しく低下することを示す。二重降下は観測されず、特徴量数が増えるほど誤差が単調に増大した。
ゴールド価格の CNN-Bi-LSTM モデル
- CNN で短期パターンを抽出し Bi‑LSTM で長期依存関係を学習するモデルを構築し、ラグ長(lookback)の感度分析を行った。ラグ長 24 が最も高い決定係数 R² を示し、これ以上長いラグではノイズが多く精度が低下したpmc.ncbi.nlm.nih.gov。ここでも特徴量数の増加は性能改善に繋がらず、二重降下は観測されない。
S&P500 に対する LSTM のパラメーター数比較
- Medium 記事では、閉値のみを入力した LSTM(パラメータ約17万)と、同じユニット数でテクニカル指標を含めた LSTM(パラメータ数はほぼ同じ)を比較したところ、2 つのモデルの MAPE はほぼ同等であり、パラメータ数を 10 分の 1 程度に削減した Transformer も大差ない性能であったmedium.commedium.com。この研究は、データ数が限られている株価予測ではパラメータの増加が汎化性能をほとんど改善しないことを示唆している。
為替データのハイブリッド LSTM
- 為替市場では金利や株価指数など複数のマクロ経済指標とテクニカル指標を特徴量として使用したハイブリッド LSTM モデルが提案されたjfin-swufe.springeropen.com。特徴量数は多いが、データ量が限られているためパラメータ数を増やせず、モデルサイズと性能の関係に関する詳細な分析は報告されていない。そのため二重降下について結論は得られていない。
CNN-LSTM-RNN ハイブリッドによる株価予測
- MDPI 論文では、6 個の特徴量と 10 日間の履歴からなる入力 (特徴量数 60) を CNN‑LSTM‑RNN に入力したモデルが、CNN-LSTM や LSTM よりもわずかながら優れた MAE/RMSE を達成したmdpi.com。LSTM ユニット数 64 に対しデータ量がそれほど多くないため、大きなパラメータ数にしても性能が変わらなかった。二重降下は観測されない。
二重降下現象に関する研究
- arXiv の「Deep Double Descent for Time Series Forecasting」は、Transformer 系モデルでエポック数を増やした際に検証誤差が一度増加後再び減少する「エポック単位の二重降下」を確認したものの、モデルのパラメータ数を増やした場合には明確な二重降下が観測されなかったと報告しているarxiv.org。金融時系列のようなノイズの多いデータでは、パラメータ数の増大による二重降下が発生しにくいことが示唆される。
- SSRN の研究「The Shape of Performance Curve in Financial Time Series」は、ランダムフォレストやディープニューラルネットなど多様なモデルのパラメータ数を増やす実験を行い、トレーニング誤差は減少するがテスト誤差はほぼ一定であり、U 字型曲線や二重降下は見られなかったと結論付けているpapers.ssrn.commrzepczynski.blogspot.com。金融市場の価格変動が強いノイズを含むため、モデルが表現できない不可避誤差が支配的であると考えられる。
結論
- 特徴量数と汎化性能のバランス:ビットコインやゴールドなどの事例では、シーケンス長や特徴量数を増やし過ぎるとノイズが蓄積し、汎化性能が低下することが示されたpmc.ncbi.nlm.nih.govpmc.ncbi.nlm.nih.gov。一般に、金融時系列はデータサンプルが少なくノイズが多いため、短めの履歴と限られた特徴量の組み合わせが最も効果的である。パラメーター数は数万規模でも十分で、数十万〜数百万規模に増やしても性能向上は見込めない。
- モデルサイズの拡大と二重降下:Transformer 系モデルや深層ニューラルネットを用いた一部の研究では訓練エポックに対して二重降下が観測されたが、モデルパラメータ数を増やすことで二重降下が現れるという証拠はほとんどないarxiv.org。SSRN の研究でもモデルサイズの増加によるテスト誤差の低下は確認されずpapers.ssrn.com、金融時系列において二重降下は一般的ではないと考えられる。
- 今後の課題:データの不足を補うために、広範な時系列データで事前学習した小型の基盤モデルをファインチューニングするアプローチ(例:Tiny Time Mixers)の研究が進んでいるarxiv.org。また、特徴量の選択やシーケンス長の最適化を自動で行うメタラーニング手法も重要になる。特に、ドル円や他の為替データに対して、パラメータ数と特徴量数の関係を体系的に検証した研究はまだ少なく、今後の検討が望まれる。
金融時系列ではデータのノイズとサンプル数の制約が大きく、高度なモデルを使用しても過剰適合しやすい。したがって、モデル選択では「シンプルさと十分な特徴量数のバランス」を優先し、過大なパラメータ数を避けることが重要である。