― 多重比較問題とは? どのくらいのアウトオブサンプルが必要? 代表研究をやさしく解説 ―
EA で 自動売買をしていると
「バックテストでは右肩上がりなのに実トレードでは弱い…」
こんな経験をしたことはありませんか?
その原因の1つが 多重比較問題(データ・スヌーピング) です。
この記事では、
世界の金融研究で有名な論文やデータを使って
- どれくらいのアウトオブサンプル期間が必要か
- 何個モデルを試すと、どれくらい“まぐれ勝ち”が生まれるのか
- FXやAI開発で注意すべきポイント
を、やさしい言葉でまとめます。

1. 多重比較問題とは?
たくさん試すほど「たまたま勝ったパターン」が増える問題
通貨ペア、時間足、パラメータ…
これらを何十個、何百個と試していくと、
「たまたま成績が良く見えるモデル」 が必ず出てきます。
数学的には非常に当たり前で、
コインを100回投げれば、どこかで「10回連続表」が出るのと同じです。
この「偶然勝ったモデル」をベストとして採用してしまうのが
多重比較問題(Multiple Testing / Data Snooping) です。
FXは特にノイズ(ランダム性)が強いため
見かけの良いバックテスト結果はまぐれ勝ちの可能性が高くなります。

2. 「どれくらいのOOS(アウトオブサンプル)期間で信頼できるのか?」
→ シャープ比とアウトオブサンプル年数を計算した有名研究
代表的な研究は Bailey & López de Prado (2014) です。
彼らは “Minimum Track Record Length(必要な最低運用年数)” を導き、
シャープ比が本当にプラスであると言うために
どれくらいのアウトオブサンプルが必要かを計算しました。
● 代表的な結果(分かりやすく要約)
| 真のシャープ比(狙う強さ) | 必要なOOS年数 | 解説 |
|---|---|---|
| 1.0 | 3〜5年程度 | 強めの戦略でも、3年くらいないと信頼しにくい |
| 0.5 | 10年以上 | 弱い戦略は、長期OOSがないと偶然か判断できない |
つまり、
「年単位で儲かるモデル」 = 「長期間のOOSで初めて本物と分かる」
ということ。
FX のようにノイズが強い市場では 5年間の純粋なOOS は“最低ライン”と考えている研究者もいます。

3. では「何個試すと何個が偽物なの?」
→ PBO(Backtest Overfitting)の研究
次に紹介するのは
The Probability of Backtest Overfitting(PBO) と呼ばれる研究です。
Bailey らは
「多数のモデルを試したとき、どれくらいの割合が“偽物の勝ち組”なのか?」
を計算しました。
● 代表的な数字(かなりショッキング)
ある実験では、4年分のデータで多数のパラメータを試したところ…
- インサンプルでは Sharpe 1〜3 の「超優秀モデル」が多数誕生
- その中の“最優秀モデル”を外に持ち出すと
- 約78%が OOS でマイナス Sharpe(=負け)
- “見た目がよかったモデル”の PBO ≒ 74%(ほとんどが偽物)
つまり、
パラメータやモデルを大量に試すほど、
見かけの最強モデルは ほぼまぐれ になる。
これが多重比較問題の本質です。

4. 実データでも証明された「バックテストは当てにならない」
Quantopian 888アルゴの実証研究
Wiecki らは、Quantopian というアルゴプラットフォームで
888本の実アルゴリズムを分析しました。
結果は非常にシンプルです。
● OOSとISの相関が極めて低い
インサンプル Sharpeレシオ とアウトオブサンプル Sharpeレシオ の相関は…
- R² < 0.25(ほぼ関係なし)
● バックテストが良いほどOOSは悪い
これは多重比較問題で説明できます。
● たくさんバックテストを回した人ほどOOSが悪くなる
こちらも「試行回数が増えると偽物が混じりやすい」ことを示します。
5. テクニカル指標の世界でも「まぐれ勝ち」だらけ
数千のルールのほぼすべてがデータ・スヌーピングで無効
テクニカル指標の検証でも
有名な研究がたくさんあります。
● Sullivan, Timmermann, White (1999)
ダウ平均100年 × 数千のテクニカルルールを検証。
→ データ・スヌーピングを補正すると
ほぼ全滅
● Harvey, Liu, Zhu (2016)
株式の400以上のファクターを調査。
→ 普通の5%有意水準だと“偽物”が大量発生
→ 正しく補正すると、特に有意なファクターはごく少数
FXでも同じで、
数千のEAやテクニカルルールを試すと
たくさん「勝って見えるルール」が出てきますが、
そのほとんどは まぐれ です。

6. では実務ではどう対策するべきか?
研究で共通している対策ポイントをまとめると…
① “純粋な”アウトオブサンプル期間を長く取る
- Sharpe 1 なら OOS 3〜5 年
- FXのようにノイズが強い市場なら 5年以上が最低ライン
② モデルを大量に試したときは“補正”が必須
研究者が推奨する補正指標:
- Deflated Sharpe Ratio (DSR)
→ 試行回数・非正規分布を考慮した Sharpe の信頼度 - PBO(Probability of Backtest Overfitting)
→ その戦略選択プロセスがどれくらい“まぐれ勝ち”を生むか - White’s Reality Check / SPA test
→ テクニカルルールを多数試すときの統計的な補正
③ スタッキングや多数モデルの比較では「棚卸し」が重要
- 目的変数を何種類試したか
- Horizon 変更の回数
- 特徴量セットの数
- モデル(LGBM / Catboost / GRU など)の種類
- ハイパーパラメータグリッドの数
これらを掛け合わせると
実質的な“試行回数”はすぐに 数百 に増えます。
この試行回数をDSRに入れると
Sharpeがごっそり下がることがあります。
7. まとめ
AIでもFXでも「バックテストが良いほど危険」
この記事でわかったことは…
- バックテストが強いほど、まぐれの可能性が高い
- OOS 3〜5年は「最低限」の世界
- モデル数が多いほど“まぐれ勝ちモデル”が量産される
- AIでも、決して多重比較問題から逃れられない
- 補正指標(DSR・PBO・Reality Check)が必須
つまり、
「強いAIモデル」が欲しいのではなく
「まぐれで勝っていないAIモデル」を見つけるのが本当の目的
ということです。