GPT-5.4登場 — 100万トークン・PC操作・推論強化で「作業AI」の時代へ

AI

2026年3月5日、OpenAIはGPT-5.4を発表しました。今回のアップデートが大きいのは、単に「会話がうまくなった」だけではなく、長い資料を読み、必要なら途中で方針を調整し、さらにPCや各種ツールまで操作できる方向へ一段進んだからです。OpenAI自身もGPT-5.4を「professional work(業務用途)」向けの最重要モデルとして位置づけており、ChatGPTの主戦場が雑談や質問応答から、実際の仕事そのものへ広がってきたことが分かります。

なお、ChatGPTの規模感も桁違いになっています。週間アクティブユーザーは9億人(Instagramが10年かかった水準を3年以下で達成)、有料ユーザーは5,000万人(課金率5.5%)という驚異的な数字です。

ざっくり何が変わった?

前モデル(GPT-5.2)と比べて、GPT-5.4で大きく変わったポイントを一言ずつまとめます。

変わったこと ひとことで言うと
読める量が爆増 一度に100万トークン(本数冊分)を読めるようになった
途中で口出しできる AIが考えている最中に「やっぱりこっちで」と軌道修正できる
PCを自分で操作する ブラウザやExcelをAIが見て、マウス・キーボードで直接動かせる
速くて安い 前世代より83%速く、トークン消費は47%少ない
嘘が減った ハルシネーション(でたらめ)が33%減少、回答エラーも18%減
コード能力を統合 別モデルだったCodexの力が本体に合流し、1つで完結

要するに、「長い仕事を任せても途中で忘れず、必要ならPCも触れて、しかも速い」——これがGPT-5.4の変化の核心です。以下、それぞれ詳しく見ていきます。

GPT-5.4の主な新機能まとめ

100万トークンコンテキスト

GPT-5.4の大きな目玉のひとつが、API版で最大100万トークンという非常に大きなコンテキストウィンドウです。コンテキストとは、モデルが一度に参照しながら考えられる情報量のことです。長い契約書、議事録、コードベース、調査メモ、仕様書などをまとめて読み込みやすくなり、「途中で情報を落としやすい」という従来の弱点がかなり緩和されます。

実務では、ファイルを小分けにして順番に要約させるよりも、関連資料をまとめて持たせたほうが精度が上がる場面が多いです。たとえばゲーム開発なら、企画書、UI仕様、既存スクリプト、デバッグログ、プレイテストメモを一括で与えて、矛盾点や改善案を探させる、といった使い方が現実的になります。これは「情報の量」だけでなく、「文脈のつながり」を保てる点が重要です。

100万トークンという数字は派手ですが、本質は「AIがより長い仕事の流れを途中で忘れにくくなる」ことです。ただし、Xでは「1Mの半分あたりから直前の話が噛み合わなくなる」という報告もあり、実際の運用では過信は禁物です。チャットの賢さより、むしろプロジェクト単位での作業継続力が伸びた、と見るほうが実態に近いでしょう。

推論強化(Thinkingモード、interruptible reasoning)

GPT-5.4 Thinkingでは、複雑な問いに対して、いきなり結論を出すのではなく、最初に考え方の方針を示しながら進める機能が強化されています。OpenAIは、GPT-5.4 Thinkingが「upfront plan of its thinking」を提示し、作業中にユーザーが方向修正できるようになったと説明しています。これは実質的に、途中で割り込んで軌道修正できる推論フローだと捉えてよいでしょう。

専門用語でいうと、これは単なる回答生成ではなく、長い推論プロセスをユーザーと共同で制御しやすくする設計です。たとえば「まず市場調査、次に競合整理、最後に提案書ドラフト」という流れをAIが先に示し、ユーザーが途中で「競合比較を先に厚くして」と指示できるわけです。これにより、やり直しの手間が減り、最終成果物の精度も上げやすくなります。

Xでもこの機能への反響は大きく、「思考中に追加指示を出せるのは感動」「Thinkingモデルでもメモリ参照でき、相談相手として頼もしい」という好意的な声が目立ちます。加えてOpenAIは、深いWeb調査や長考を要する質問でも文脈維持が改善したと述べています。

トークン効率47%改善・速度83%向上

GPT-5.4は、OpenAIによれば「最もトークン効率の高い推論モデル」です。特にTool Searchを使った構成では、250件のMCP Atlasタスク評価で、同じ精度を保ちながら総トークン使用量を47%削減したとされています。さらに前世代比で83%の速度向上も報告されており、体感的な「待ち時間」も大きく減っています。

この改善が意味するのは、単に料金が安くなるという話だけではありません。ツール定義や長い指示文を毎回全部読み込ませる必要が減るため、レスポンスが軽くなり、コンテキストの無駄遣いも減るのです。エージェント型のワークフローでは、こうした効率差がそのまま使い勝手の差になります。

仕事でAIを使うほど、1回の賢さよりも「何十回も回したときの安定感」が大事になります。47%改善という数字は、その意味でかなり実務的な価値を持っています。API料金の細かい話を抜きにしても、業務利用での現実感が増したアップデートです。

Tool Search(ツール自動選択)

Tool Searchは、GPT-5.4が大量のツールを抱えた環境でも、必要なものをその都度探して使えるようにする仕組みです。従来は、利用可能なツール定義を最初から全部プロンプトに含める必要があり、これが大きな負担になっていました。GPT-5.4では、まず軽い一覧だけを持ち、必要になったときだけ該当ツールの定義を取りに行けます。

これは、AIにとっての「道具箱の整理術」のようなものです。使うか分からない道具を毎回全部机に並べるのではなく、必要になったときだけ取り出す。結果として、速度、コスト、コンテキストの余裕、いずれにもプラスに働きます。OpenAIは、大規模なMCPサーバー群でも有効だと説明しています。

将来的にAIが社内ツール、クラウド、表計算、データベース、デザインツールなどを横断して使うようになるほど、この仕組みの価値は増していきます。ChatGPTが"何でも知っているチャットボット"ではなく、"必要な道具を選びながら作業する実務アシスタント"に近づいていることを示す要素です。

Computer Use — AIがPCを操作する時代

今回のGPT-5.4で最も象徴的なのが、Computer Useの強化です。OpenAIは、GPT-5.4をデフォルトでcomputer useを搭載した初のメインラインモデルだと説明しています。VM上で動作し、ブラウザやアプリの画面をスクリーンショットで見て、マウスやキーボード操作を行い、複数アプリをまたいだ作業を実行できます。

要するに、AIがAPI経由の裏側だけではなく、実際の画面UIを相手に動けるようになってきたわけです。OpenAIの説明では、Playwrightのような自動操作ライブラリを使った制御にも強く、加えてスクリーンショットに対して座標ベースでクリックや入力を行う能力も高いとされています。従来の「操作方法を説明するAI」から、「自分で操作するAI」への変化です。

さらにEnterprise向けには、Excel向けのChatGPTアドインやGoogleスプレッドシート連携が同日に案内されました。注目すべきは、投資銀行向けベンチマークで43.7%→87.3%と劇的に改善している点です。VentureBeatも、ExcelやGoogle Sheets向けの金融プラグインとネイティブなComputer UseをGPT-5.4の大きな柱として報じています。

ベンチマーク面でもインパクトは大きく、OSWorld-VerifiedでGPT-5.4は75.0%を記録し、人間の72.4%を上回りました。OSWorldは、デスクトップ環境をスクリーンショットとキーボード・マウス操作で正しく扱えるかを測る指標です。AIが"操作の説明役"ではなく、かなり実務に近い"操作担当"へ進みつつあることを示す数字です。

Codex連携 — コーディング能力の統合

GPT-5.4には、GPT-5.3 Codexのコーディング能力がメインモデルに統合されました。これまで別系統だったコード特化モデルの強みが、汎用モデルの中に溶け込んだ形です。

Codex appはWindows版にも対応し、マルチエージェント構成(Architect / Visual Engineer / Game Systems / QA)での実装も可能になっています。100万トークンのコンテキストと合わせて、「計画→実行→検証」の長期タスクサイクルを一つのモデル内で完結できるのは大きな進化です。

Xでは「Codex CLIだけで十分」という開発者の声や、xhighモードが「速いのに設計が上手い」という評価も見られます。

料金・プラン

プラン 価格 GPT-5.4利用
Free 無料 自動ルーティング時のみ
Plus 月$20(約3,200円) Thinking利用可
Pro 月$200(約3万円) Pro利用可

API料金は前世代比で大幅コスト削減が行われており、Xでは「Claude Opusの約半額」という声も上がっています。Gensparkなどのサードパーティ経由であれば無料で試せるルートもあるようです。

ベンチマーク比較(Claude Opus 4.6 / Gemini 3.1 Proと)

GPT-5.4は、多くの業務系ベンチマークで非常に強い成績を出しています。まずGDPvalではGPT-5.4が83.0%を記録し、比較表ではClaude Opus 4.6の78.0%を上回る数字が示されています。GDPvalは、営業資料、会計スプレッドシート、スケジュール作成など、実際の知的労働に近いタスクを評価する指標で、単なる雑学クイズではありません。

Computer Use系では、OSWorld-VerifiedでGPT-5.4が75.0%、Claude Opus 4.6が72.7%とされ、GPT-5.4がわずかに上回ります。ブラウジング能力を測るBrowseCompでは、GPT-5.4 Proが89.3%で、Gemini 3.1 Proの85.9%を上回る一方、通常のGPT-5.4 Thinkingは82.7%でした。

一方で、コーディングではClaudeが依然として強い場面があります。SWE-benchでClaude Opus 4.6が79.2%、GPT-5.4が77.2%とされ、コード修正やリポジトリ理解ではClaudeに分があるとまとめられています。ただしTerminal-Benchでは、GPT-5.4が75.1%を記録しClaude Opus 4.6の65.4%より高いです。Xでも「コーディングはまだClaudeメイン」という声がある一方、「GPT-5.4が明確にClaudeの強みを潰しにきている」という指摘も多く見られます。

SVGアニメーション比較では、GPT-5.4が葉の物理挙動まで実装する精度を見せており、スライド生成でもOpus 4.6との比較投稿が上がっています。つまり、純粋なソフトウェア修正評価ではClaude、ターミナルを含むエージェント実行やビジュアル系ではGPT-5.4という見方が近そうです。

ベンチマーク GPT-5.4 Claude Opus 4.6 Gemini 3.1 Pro 読みどころ
GDPval 83.0% 78.0% 知識労働・業務アウトプットでGPTが優勢
OSWorld 75.0% 72.7% PC操作系でGPTが人間平均も上回る
BrowseComp 89.3%(Pro) 84.0% 85.9% Web探索ではGPT ProとGeminiが強い
SWE-bench 77.2% 79.2% コーディング評価はClaudeが一歩上
SWE-Bench Pro 57.7% より難易度の高いコード評価
Terminal-Bench 75.1% 65.4% 68.5% ターミナル込みの実行型作業はGPTが強い
Toolathlon 54.6% ツール活用の総合力
ハルシネーション 33%削減 GPT-5.2比で大幅改善

モデルバリエーション(Thinking / Pro の違い、誰向けか)

GPT-5.4系は、大きく見るとThinkingProの2つの使い分けが重要です。Thinkingは、ChatGPT内で長めの推論や計画立案をしながら作業を進める用途に向いています。途中で方針を見せ、ユーザーが介入しながら答えを磨いていけるため、調査、企画、ドキュメント作成、分析系の仕事と相性が良いです。

一方のProは、OpenAI自身が「maximum performance on complex tasks」と説明している上位版です。とくにBrowseCompではProが89.3%と通常版82.7%を大きく上回っており、難しいWeb探索や高難度推論で差が出ています。大量の情報をまたいで精度重視で仕上げたいユーザーに向くでしょう。

感覚的に言えば、Thinkingは「一緒に考える優秀な共同作業者」、Proは「重い案件を確実に処理したいときの高性能版」です。ライトな相談や日常用途なら過剰なこともありますが、企画書、法務レビュー、金融分析、複雑な調査、複数ツールをまたぐエージェント処理では、こうした差がそのまま体感差になります。

ユーザーの生の声(Xより)

好意的な評価

  • 「5.2辺りのストレスが減った。建設的な会話ができる」
  • 「解約しようと思ってたけど5.4試して話が変わった」
  • 「Thinkingモデルでもメモリ参照でき、相談相手として頼もしい」
  • 「思考中に追加指示を出せるのは感動」
  • Web検索の速度と精度が非常に高い評価
  • 論文執筆で論理展開のヒントから新キーワード発見

批判的な声

  • 「全然ダメ。4oの寄り添い感がない」「#keep4o」運動が発生
  • 「視座が狭まるところは治ってない」
  • 「操作されてる感じ。会話を続けさせようとしてくる」
  • 日本語の言葉遣いに「不愉快」という声(日本語固有の問題か)
  • 「ユーザーに嘘もごまかしも無制限にするモデル」という最低評価も
  • GPT-5.1が3月11日で終了予定で、移行先に不安の声
  • DoD(米国防総省)契約問題でユーザー150万人離脱後のリリースという背景

対処Tips(Xユーザーから)

  • カスタム指示に「優しい、フレンドリー」と書くと4oっぽい文章に改善される
  • 出力後に5項目自己採点させると資料の質が大幅向上

まとめ

GPT-5.4は、2026年3月5日の登場によって、ChatGPTをもう一段別のフェーズへ押し上げました。100万トークンの長文処理、Thinkingによる途中介入可能な推論、47%のトークン効率改善、83%の速度向上、Tool Search、Codex統合、そしてネイティブなComputer Use。これらはすべて、「会話をうまく返すAI」よりも「仕事を前に進めるAI」を目指した機能です。

もちろん、すべての分野で完全無敵になったわけではありません。コーディングの一部評価ではClaude Opus 4.6が強く、検索系ではGemini 3.1 Proも非常に強力です。ユーザーからは「4oの寄り添い感がない」「日本語が不自然」といった声もあり、会話の質感という面では好みが分かれています。

ただ、それでもGPT-5.4が示した方向性は明確です。AIの価値は、返答の上手さだけではなく、長い文脈を保ち、ツールを選び、PCを操作し、実際の成果物を仕上げる力へ移ってきています。2026年3月時点では、「全部入りで完全勝利した1モデル」ではなく、用途別に最適解が分かれ始めたと見るのが自然です。

そう考えると、GPT-5.4は「対話AI」から「作業AI」への転換点と呼ぶにふさわしいモデルです。ChatGPTはもう、ただ質問に答える存在ではありません。これからは、あなたの横で一緒に仕事を進める、実務パートナーとして評価される時代に入っていくはずです。

参考ソース

コメント

タイトルとURLをコピーしました