OpenAIは5日(現地時間)、フロンティアモデルの最新版となる「GPT-5.4」を正式に発表した。 今回のアップデートでは、推論(Reasoning)、コーディング、エージェント機能を単一のモデルに統合。さらに、AIが直接PC画面を認識して操作を行う「コンピュータ・ユース(Computer Use)」機能をメインラインモデルとして初めて実装し、デジタルワークフォースとしての実用性を飛躍的に高めている。

1. 「コンピュータ・ユース」で自律エージェントが進化

GPT-5.4の最大の特徴は、AIがスクリーンショットを認識し、マウスやキーボード操作(クリック、入力、スクロールなど)を自律的に行える「コンピュータ・ユース」機能の搭載だ。

これにより、APIや連携ツールがないレガシーなソフトウェアであっても、AIエージェントが人間と同じインターフェースを通じて操作することが可能になる。開発者は「Playwright」などのライブラリを介して、ウェブブラウザやデスクトップアプリを横断する複雑なワークフローを構築できるようになった。

2. 「GPT-5.4 Thinking」と「Pro」の2ライン展開

ChatGPTおよびAPI向けには、推論能力を強化した「GPT-5.4 Thinking」と、より高負荷なタスク向けの「GPT-5.4 Pro」が展開される。

Thinkingモデルの特徴

「Thinking」モデルは、長時間の思考(CoT: Chain of Thought)を行いながら、ユーザーの割り込み指示に応じて方向修正が可能な柔軟性を備える。性能面では、知識労働のベンチマークである「GDPval」で83.0%を記録し、前世代のGPT-5.2(70.9%)を大きく上回った。また、ハルシネーション(事実に基づかない回答)のリスクも33%低減されている。

3. 実務特化:Excel統合と最大100万トークン

業務利用への最適化も進んでおり、Microsoft Excelへの直接統合(ChatGPT for Excel)により、財務モデリングやデータ分析の自動化が加速する。

コンテキストウィンドウは最大100万トークンに対応し、膨大なコードベースやドキュメントの一括処理が可能となった。OpenAIは、本モデルを「計画だけでなく、信頼性の高い『実行』を担うAI」と位置づけており、企業の生産性向上に直結するツールとして期待されている。

出典

https://openai.com/ja-JP/index/introducing-gpt-5-4