PR

【AI 自動売買】CatBoostでの構築からMT5実装まで

MQL5記事

FX取引の世界で、AIによる予測モデルの重要性が高まっています。本記事では、最新の機械学習アルゴリズム「CatBoost」を活用したFX取引モデルについて解説します。

  • CatBoostの特徴と他の勾配ブースティングモデルとの比較
  • FX取引のためのCatBoostモデル構築プロセス
  • MetaTrader 5でのCatBoostモデルの実装方法
  • AIを活用したFX取引の可能性と課題

CatBoostの高い予測精度とカテゴリカル変数処理能力が、FX取引にどのような革新をもたらすのか、詳しく見ていきましょう。

CatBoostとは?高性能な勾配ブースティングアルゴリズム

CatBoostは、カテゴリカル変数(Yes or No)を効率的に処理できる点が大きな特徴です。

CatBoostの特徴と強み

CatBoostの主な特徴は以下の通りです:

  • カテゴリカル変数の自動処理: 他のアルゴリズムでは前処理が必要なカテゴリカルデータを、CatBoostは自動的に処理します。
  • 対称な決定木: 左右の枝が対称に成長する決定木を採用しており、これにより過学習のリスクを低減し、予測の安定性を向上させています。
  • 順序付きブースティング: データの時系列性を考慮したブースティング手法を採用しており、特に時系列データを扱うFX取引には適しています。
  • GPU学習のサポート: 大規模なデータセットでも高速な学習が可能です。

これらの特徴により、CatBoostはFX取引のような複雑で時系列性の強いデータを扱う際に、高い性能を発揮することが期待できます。

他の勾配ブースティングモデルとの比較

CatBoostは、XGBoostやLightGBMといった他の勾配ブースティングアルゴリズムと比較されることが多いです。以下に主な違いをまとめます:

  • カテゴリカル変数の取り扱い: CatBoostは自動的にカテゴリカル変数を処理しますが、XGBoostとLightGBMでは手動でエンコーディングが必要です。
  • 過学習への対策: CatBoostは対称な決定木と順序付きブースティングにより、過学習に強い傾向があります。
  • 学習速度: 一般的に、LightGBMが最も高速で、次いでXGBoost、CatBoostの順になります。ただし、データセットの特性によって変わる場合があります。
  • 精度: カテゴリカル変数が多いデータセットでは、CatBoostが他のアルゴリズムより高い精度を示すことが多いです。

FX取引のような環境では、日付や時間帯といったカテゴリカル変数が重要な役割を果たすことが多いため、CatBoostの特徴が活きる場面が多いと言えるでしょう。

FX取引のためのCatBoostモデル構築

CatBoostの特徴を理解したところで、実際にFX取引のための予測モデルを構築していきましょう。

データの準備と前処理

FX取引のモデル構築には、以下のようなデータが必要となります:

  • OHLC(始値、高値、安値、終値)データ: 価格の動きを表す基本的な情報です。
  • 時間関連の特徴量: 日付、曜日、月、年などの情報です。CatBoostはこれらをカテゴリカル変数として自動的に処理します。
  • テクニカル指標: 移動平均、RSI、MACDなどの一般的なテクニカル指標も有用です。
  • マーケットセンチメント: ニュース、経済指標の発表などの情報も考慮に入れると良いでしょう。

データの準備が完了したら、以下の点に注意して前処理を行います:

  • 欠損値の処理: CatBoostは欠損値を自動的に処理できますが、データの質を高めるため、適切な方法で補完することをおすすめします。
  • スケーリング: CatBoostは特徴量のスケーリングを必要としませんが、他のアルゴリズムと比較する際には統一したスケーリングを行うと良いでしょう。
  • 特徴量エンジニアリング: 既存の特徴量から新しい特徴量を作成することで、モデルの性能を向上させることができます。例えば、価格の変化率や、様々な期間の移動平均の組み合わせなどが考えられます。

モデルのトレーニングと評価

params = dict(
    iterations=100, 
    learning_rate=0.01,
    depth=10,
    l2_leaf_reg=5,  
    bagging_temperature=1,
    border_count=64,  
    eval_metric='Logloss',
    random_seed=42,  
    verbose=1,  
)

pipe = Pipeline([
    ("catboost", CatBoostClassifier(**params))
])

# モデルのトレーニング
pipe.fit(X_train, y_train, catboost__eval_set=(X_test, y_test), catboost__cat_features=categorical_features)

# モデルの評価
y_train_pred = pipe.predict(X_train)
y_test_pred = pipe.predict(X_test)

print("Training Set Classification Report:")
print(classification_report(y_train, y_train_pred))

print("\nTesting Set Classification Report:")
print(classification_report(y_test, y_test_pred))

データの準備が整ったら、いよいよモデルのトレーニングを行います。CatBoostのトレーニングプロセスは以下のようになります:

  1. データの分割: トレーニングデータ、検証データ、テストデータに分割します。時系列データの場合、単純なランダム分割ではなく、時間順に分割することが重要です。
  2. パラメータの設定: CatBoostには多くのハイパーパラメータがありますが、主要なものは以下の通りです:
    • iterations: ブースティングの回数
    • learning_rate: 学習率
    • depth: 木の深さ
    • l2_leaf_reg: L2正則化係数
  3. モデルのトレーニング: 設定したパラメータでモデルをトレーニングします。CatBoostは内部的に検証データを使用して早期停止を行うため、過学習を防ぐことができます。
  4. モデルの評価: テストデータを使用してモデルの性能を評価します。
    • precision(適合率):実際に正しいものの割合
    • recall(再現率): どれだけ正しく予測できたか
    • f1-score: 適合率と再現率の調和平均です。バランスの取れた評価
    • support(サポート):サンプル数
    • accuracy(正解率):正しく予測されたサンプルの割合です。全体の精度を示します。
    • macro avg(マクロ平均):各クラスの評価指標(precision、recall、f1-score)の平均。
    • weighted avg(加重平均):各クラスの評価指標を、そのクラスのサンプル数に応じて重み付けして計算した平均
  5. クロスバリデーション: 時系列データの場合、時間ベースのクロスバリデーション(例:前進チェーン法)を使用して、モデルの安定性を評価します。

特徴量の重要度分析

catboost_model = pipe.named_steps['catboost']

feature_importances = catboost_model.get_feature_importance()

feature_im_df = pd.DataFrame({
    "feature": X.columns,
    "importance": feature_importances
})

feature_im_df = feature_im_df.sort_values(by="importance", ascending=False)

plt.figure(figsize=(10, 6))
sns.barplot(data = feature_im_df, x='importance', y='feature', palette="viridis")

plt.title("CatBoost feature importance")
plt.xlabel("Importance")
plt.ylabel("feature")
plt.show()

CatBoostは、トレーニング後に特徴量の重要度を簡単に可視化することができます。これにより、どの特徴量がモデルの予測に大きく寄与しているかを理解することができます。

FX取引の文脈では、この分析により以下のような洞察が得られる可能性があります:

  • 価格データ(OHLC)の中で、どの要素が最も重要か
  • どの時間帯や曜日が為替レートの変動に影響を与えているか
  • どのテクニカル指標が最も有用か

これらの洞察は、モデルの改善だけでなく、トレーディング戦略の立案にも役立ちます。

MT5でのCatBoostモデルの実装

構築したCatBoostモデルを実際のトレーディングに活用するため、MT5に実装していきます。

ONNXフォーマットへのモデル変換

model_onnx = convert_sklearn(
    pipe,
    "pipeline_catboost",
    [("input", FloatTensorType([None, X_train.shape[1]]))],
    target_opset={"": 12, "ai.onnx.ml": 2},
)

# ONNXファイルとして保存
with open("CatBoost.EURUSD.OHLC.D1.onnx", "wb") as f:
    f.write(model_onnx.SerializeToString())

MT5でCatBoostモデルを使用するためには、まずモデルをONNX(Open Neural Network Exchange)フォーマットに変換する必要があります。ONNXは機械学習モデルの相互運用性を高めるための標準フォーマットです。

CatBoost モデルの保存は少し難しい場合があります。:

  1. ドキュメントを確認: Catboostのドキュメントを確認してください。こちら
  2. 入力特徴量の名前と型の指定: MT5側で正しくデータを渡せるよう、入力特徴量の名前と型を明確に指定します。
  3. 出力の形式: 予測値や確率値など、どのような形式で出力を得たいかを指定します。
  4. サンプルコードで確認:本家記事の添付ファイルを参考にしてください。

Expert Advisorの作成

#resource "\\Files\\CatBoost.EURUSD.OHLC.D1.onnx" as uchar catboost_onnx[]
#include <MALE5\Gradient Boosted Decision Trees(GBDTs)\CatBoost\CatBoost.mqh>
CCatBoost cat_boost;

void OnTick()
{
   if (!NewBar())
      return;
   
   MqlRates rates[];
   if (CopyRates(Symbol(), timeframe, 1, 1, rates) < 0)
   {
      Print("Failed to obtain OHLC price values error = ", GetLastError());
      return;
   }
   
   MqlDateTime time_struct;
   TimeToStruct(rates[0].time, time_struct);
   
   vector x = {rates[0].open,
               rates[0].high, 
               rates[0].low, 
               rates[0].close, 
               (double)time_struct.day, 
               (double)time_struct.day_of_week, 
               (double)time_struct.day_of_year, 
               (double)time_struct.mon};
               
   vector proba = cat_boost.predict_proba(x);
   long signal = cat_boost.predict_bin(x);
   
   Comment("Predicted Probability = ", proba, "\nSignal = ", signal);
   
   // トレードロジックをここに実装
}

ONNXフォーマットに変換したモデルを使用するExpert Advisor(EA)を作成します。EAは以下の主要な部分から構成されます:

  1. モデルの読み込み: ONNXファイルから変換したCatBoostモデルを読み込みます。
  2. データの準備: 現在の市場データやテクニカル指標を計算し、モデルの入力形式に合わせて準備します。
  3. 予測の実行: 準備したデータをモデルに入力し、予測を得ます。
  4. トレード決定ロジック: モデルの予測に基づいて、実際にトレードを行うかどうか、どの程度のポジションサイズにするかなどを決定します。
  5. リスク管理: ストップロスやテイクプロフィットの設定、最大ドローダウンの管理など、リスク管理のロジックを実装します。
  6. パフォーマンス監視: トレード結果や予測の精度をログに記録し、後で分析できるようにします。

バックテスト結果と考察

作成したEAのパフォーマンスを評価するために、過去のデータを使用してバックテストを行います。バックテストでは以下の点に注意が必要です:

  • 十分な期間: 様々な市場環境を含む十分な長さの期間でテストを行います。
  • 取引コストの考慮: スプレッドやスリッページなど、実際の取引コストを考慮に入れます。
  • 過去データのバイアス: 未来の情報が漏れていないか(前方バイアス)に注意します。
  • パラメータ最適化: バックテスト期間でパラメータを最適化しすぎると、過学習のリスクが高まります。

バックテストの結果を分析する際は、単純な利益だけでなく、シャープレシオ、最大ドローダウン、勝率などの指標も考慮します。また、異なる市場環境(トレンド相場、レンジ相場など)でのパフォーマンスの違いにも注目します。

CatBoostを用いたFX取引の可能性と課題

CatBoostを活用したFX取引モデルは大きな可能性を秘めていますが、同時にいくつかの課題も存在します。

モデルの改善アイデア

  • 特徴量の拡張: マクロ経済指標、市場センチメント指標、他の通貨ペアの情報など、より多様な特徴量を追加することで、モデルの予測力を向上させる可能性があります。
  • アンサンブル学習: CatBoostモデルと他の機械学習モデル(例:LSTM、ランダムフォレストなど)を組み合わせることで、より堅牢な予測システムを構築できる可能性があります。
  • マルチタスク学習: 価格の方向性だけでなく、ボラティリティの予測など、複数のタスクを同時に学習させることで、より豊富な情報を得ることができるかもしれません。
  • オンライン学習: 定期的にモデルを再学習させることで、市場環境の変化に適応させることができます。

実践的な利用に向けた検討事項

  • リスク管理: 機械学習モデルの予測は常に不確実性を伴います。適切なポジションサイジングやストップロスの設定など、リスク管理は極めて重要です。
  • モデルのモニタリング: 市場環境の変化によってモデルの性能が劣化する可能性があります。定期的にモデルのパフォーマンスをチェックし、必要に応じて再学習や調整を行う必要があります。
  • 規制への対応: アルゴリズム取引に関する規制は国や地域によって異なります。法的な側面にも注意を払う必要があります。
  • インフラストラクチャ: 低遅延の執行システム、安定したインターネット接続、バックアップシステムなど、信頼性の高いインフラストラクチャの構築が重要です。
  • 倫理的考慮: アルゴリズム取引が市場に与える影響や、AIの利用に関する倫理的な問題についても考慮する必要があります。例えば、高頻度取引が市場の安定性に与える影響や、AIによる意思決定の透明性などが挙げられます。
  • 継続的な学習と改善: 金融市場は常に変化しています。最新の研究成果や新しいアルゴリズムに注目し、継続的にモデルとシステムを改善していく姿勢が重要です。
  • 解釈可能性: CatBoostは特徴量の重要度を提供してくれますが、モデルの決定プロセスを人間が理解し、説明できることも重要です。特に、規制当局や投資家への説明が必要な場合に備えて、モデルの解釈可能性を高める工夫が求められます。
  • バックアップ戦略: AIモデルに完全に依存するのではなく、モデルが予期せぬ動作をした場合のバックアップ戦略や、人間の判断を介在させるプロセスを設計することも検討すべきです。

まとめ:CatBoostを活用したFX取引の未来

CatBoostを活用したFX取引モデルは、高い予測精度とカテゴリカル変数の効率的な処理能力により、大きな可能性を秘めています。

しかし、この技術を活用する上で重要なポイントがいくつかあります:

  • 継続的な改善とリスク管理: モデルの構築と実装だけでなく、継続的な改善とリスク管理が不可欠です。
  • 人間の判断の重要性: AIモデルは意思決定支援ツールの一つであり、人間の洞察と判断も依然として重要です。
  • 技術の進化と市場の変化: 機械学習アルゴリズムとFX取引の融合が進むにつれ、より洗練された戦略が生まれる一方で、単純な予測モデルでは優位性を保つことが難しくなる可能性があります。
  • 倫理的配慮: テクノロジーの活用には責任と慎重さが求められます。適切に活用することで、金融市場全体の効率性と安定性の向上にも貢献できる可能性があります。
  • 継続的学習の重要性: 市場の変化に適応し、新しい知識を吸収し続ける姿勢が重要です。今日の最適戦略が明日には陳腐化する可能性もあるため、継続的な学習と柔軟な思考が長期的成功の鍵となります。

FX取引におけるAIの活用はまだ始まったばかりです。CatBoostを含む様々な機械学習アルゴリズムの発展により、この分野は急速に進化していくでしょう。

オンラインコミュニティ

こちらのコミュニティで、AIや機械学習をトレードに活かすために日々探求しています。
興味のある方は覗いてみてください。

参考記事

Data Science and ML (Part 31): Using CatBoost AI Models for Trading
CatBoost AI models have gained massive popularity recently among machine learning communities due to their predictive ac...
タイトルとURLをコピーしました