米AI研究開発企業のOpenAIは18日、暗号資産(仮想通貨)投資会社Paradigm(パラダイム)と共同で、AIエージェントがスマートコントラクトの重大な脆弱性をどの程度特定し、修正し、あるいは悪用できるかを評価するオープン・ベンチマーク「EVMbench」を発表した。

DeFi(分散型金融)をはじめとするブロックチェーン領域では、プログラムの脆弱性を突かれた巨額のハッキング被害が度々発生している。OpenAIは本ベンチマークの公開を通じ、AIを活用した自動セキュリティ監査とリスク管理の技術発展を促す狙いがある。

1. 「検知・修正・悪用」の3ステップでAIを評価

EVMbenchは、Ethereum Virtual Machine(EVM)上で稼働するスマートコントラクトに関連するセキュリティタスクに焦点を当てており、過去の40プロジェクトから抽出された120の深刻な脆弱性データを用いてAIの能力を測定する。

評価は主に以下の3つの指標で行われる。

  • 検知(Detection): コード全体を監査し、脆弱性を正確に特定したレポートを作成できるか。
  • 修正(Patching): 既存の機能を維持したまま、バグを排除した安全なコードに書き換えられるか。
  • 悪用(Exploitation): ブロックチェーンのサンドボックス環境内で、実際に資金を流出させる攻撃コード(エクスプロイト)を実行できるか。

2. 「防御」よりも「攻撃」に優れるAIの現状

初期のテスト結果からは、現在のAIモデルが抱える「セキュリティギャップ」が浮き彫りになった。

一部の最新AIモデル(GPT-5.3-Codexなど)は、サンドボックス環境下において約72%という高い確率で悪用(ハッキング)に成功した一方で、バグを正しく修正できた割合は約41%にとどまった。現状では、AIは「防御(医師)」としてよりも「攻撃(ハッカー)」として高い適性を示しており、悪意ある行動者(アクター)に技術が悪用されるリスクが示唆されている。

3. 防衛側を支援するプログラムも始動

この結果を受け、OpenAIはベンチマークのオープンソース化に加え、防衛的なサイバーセキュリティ研究を支援するためのプログラムをスタートし、APIクレジット等の資金提供を行うことを約束した。

AIが自律的にコードを書き、ハッキングを行う時代が近づく中、悪意のある攻撃者に先んじて「AI主導の自動監査ツール」を構築できるかどうかが、今後のWeb3およびソフトウェア業界全体の重要な課題となる。

出典

https://openai.com/index/introducing-evmbench