GPT-5.4が登場。AIのコンピューター操作、ついに人間を超えた【2026年4月】
📡 この記事はクロドが収集・和訳しました。掲載情報はすべて各社公式ソースで確認済みです。
「AIがパソコンを操作する」精度が、人間を上回った
3月5日、OpenAIがGPT-5.4を正式リリースした。
今回のリリースで一番注目されているのが、コンピューター操作の精度だ。
「OSWorld-Verified」というベンチマークがある。
実際のパソコン上で「このファイルを開いて、このアプリを使って、こう操作して」という指示をこなせるかを測る評価だ。
結果はこうだった。
これ、さらっと書いたけど、かなり大きな話だ。
「AIがパソコン操作で人間を超えた」というのは、単純な話ではない。
マウスクリック・テキスト入力・アプリの切り替え・ファイル管理——
画面を見ながら手順を判断して操作する、という複合タスクで人間より正確にこなせるようになったということ。
GPT-5.4、何が変わったか
GPT-5.4の主な変更点をまとめると:
・コンピューター操作の正式対応(Computer-Use)
→ Claudeに先行していた機能がOpenAIのメインモデルにも統合
・コンテキスト最大100万トークン対応
→ 長大な文書・コードベースをまとめて処理できる
・事実誤りが前世代比33%減少
→ ハルシネーション(AIの嘘)が着実に減っている
・GDPvalベンチマークで業界プロと同等以上を83%達成
→ 44職種をシミュレートした評価。GPT-5.2の70.9%から大きく向上
・Thinking機能搭載
→ 回答を生成しながら途中の思考過程を表示できる。方向修正しやすい
GPT-5.4 mini と nano も登場した
3月17日には小型版のGPT-5.4 miniとGPT-5.4 nanoもリリースされた。
GPT-5.4 miniは「OpenAIがこれまで無料提供した中で最も性能が高いモデル」と公式が言っている。
GPT-5.4フルサイズに近い精度でありながら、2倍以上高速。
ChatGPTの無料ユーザーも使えるレベルになった。
GPT-5.4 nanoはさらに小さく・安い。
API価格が入力$0.20 / 100万トークンと非常に低コスト。
大量処理・自動化のバックエンドに向いた設計だ。
店舗オーナー目線で考えると
「コンピューター操作が自動化できる」というのは、1人でカフェバーを経営しながらAIを使っている身からすると正直かなりインパクトがある。
今までの自動化は「データを入力して、出力を取り出す」という形が多かった。
GPT-5.4が示すのは、「画面を見ながら、操作して、完了させる」という形の自動化が現実的になってきたということ。
ウェブサイトからの情報収集・予約システムへの入力・報告書の作成——
ソフトウェアのAPIが用意されていないタスクでも、人間と同じ「画面操作」でこなせるAIが登場してきた。
まだ「精度75%」は100%ではないし、失敗もある。
でも方向性として、AIに任せられる仕事の範囲がまた一段広がったのは確かだ。
競合との立ち位置
コンピューター操作の分野は今、各社が力を入れている。
Anthropicは昨年「Computer Use」機能をClaudeに導入した。
GoogleもGeminiを使った操作エージェントを開発中。
今回GPT-5.4がこの分野でベンチマーク上位に入ってきたことで、競合がさらに加速するのは確実だ。
この1〜2年でAIエージェントの実用性は大きく変わると思う。
GPT-5.4 mini の価格は今後の自動化コストを変える
GPT-5.4 nanoの価格(入力$0.20 / 100万トークン)は、
1文字あたり0.00001円ちょっとの計算になる。
コスト的には、かなり大量の処理を自動化しても月数百円レベルに収まるケースが増えてくる。
「AIを使うと高い」という時代は、静かに終わりつつあるのかもしれない。
📎 ソース
🤖 このShortsも、自動で作って自動でアップしています
この記事と同じく、n8nとAIが毎朝動いて 台本・ナレーション・動画編集・YouTubeアップロードまで 全部ひとりでに完走しています。
カフェバーオーナーが作った仕組みが、今日もどこかで動いてる。
☕ 店舗オーナーのためのAI自動化 入門ガイドをプレゼント中
「n8nって何?」から始まる方でも大丈夫。 実際に店舗で動かしている自動化の始め方をLINE登録者限定で無料配布しています。
LINEで無料で受け取る →