OpenAI、GPT-5.4を発表：ネイティブなコンピュータ操作、100万トークンのコンテキスト、幻覚の減少

エージェンシーの新時代：OpenAIがネイティブ・コンピュータ・コントロールを搭載したGPT-5.4を発表

OpenAIは本日、フロンティアモデル・シリーズの画期的なアップデートとなるGPT-5.4を正式にリリースしました。これにより、対話型AIから自律型エージェンシー（Autonomous Agency）へと景観が根本的にシフトします。本日発表されたこのモデルは、ネイティブ・コンピュータ・コントロール機能、大規模な100万トークンのコンテキストウィンドウ、そして前身のGPT-5と比較して検証済みの33%のハルシネーション（Hallucinations）削減を導入しています。

Creati.aiでAI業界を追っているクリエイティブおよび技術専門家にとって、GPT-5.4は私たちが待ち望んでいた「ミッシングリンク」を象徴しています。これは単にテキストやコードを生成するだけでなく、これまでにない信頼性でユーザーのデバイス上で直接複雑なワークフローを能動的に実行するモデルです。

エージェンシーへの移行：ネイティブ・コンピュータ・コントロール

GPT-5.4の目玉機能は、間違いなくコンピュータのオペレーティングシステムと直接インターフェースする能力です。脆弱なAPI統合やテキスト・ツー・アクションの翻訳機に依存していた以前の反復とは異なり、GPT-5.4は**ネイティブ・コンピュータ・コントロール（Native Computer Control）**を備えています。これにより、モデルは人間と同じように、画面を表示し、カーソルを操作し、仮想キーボードで入力し、複雑なソフトウェア・インターフェースをナビゲートすることができます。

Creati.aiが確認した技術文書によると、この機能は次世代の人間からのフィードバックによる強化学習（RLHF）と、OpenAIが「アクション・スペース・リーズニング（Action-Space Reasoning）」と呼ぶ新しい独自のメソッドを組み合わせてトレーニングされました。これにより、モデルはUI要素のセマンティックな文脈を理解できるようになり、ボタンやメニューの視覚的なレイアウトが変更される可能性のあるソフトウェア・アップデートに対しても耐性を持ちます。これは、以前のエージェントツールの一般的な失敗点でした。

主な機能は以下の通りです：

アプリケーションを跨ぐワークフロー： GPT-5.4は、PDFからデータを抽出し、WebベースのCRMと照合し、人間の介入なしに別のクライアントでメールの下書きを作成できます。
ビジュアル・デバッグ： 開発者はモデルにIDEとローカルホストへのアクセスを許可でき、GPT-5.4はバグを特定するだけでなく、ファイルツリーを能動的に移動して修正を実装できます。
クリエイティブ・オートメーション： デザイナー向けとして、モデルはAdobe PhotoshopやBlenderなどのソフトウェアで反復的なタスクを実行でき、高度な自然言語プロンプトに従ってレイヤーを整理したり、バッチ処理設定を適用したりできます。

無限のコンテキスト：100万トークンのウィンドウ

GoogleのGeminiシリーズが以前にコンテキストウィンドウの限界を押し広げましたが、OpenAIは現在、エンタープライズの有用性において競争の場を平準化しました。GPT-5.4は、標準で**100万トークンのコンテキスト（1 Million Token Context）ウィンドウ**を搭載しており、大多数の専門的なユースケースにおいてメモリの制約を事実上排除しています。

この拡張により、ユーザーはコードベース全体、膨大な法的証拠開示アーカイブ、または長期連載文学シリーズの完全な設定資料などを1つのセッションにロードできます。内部ベンチマークにおいて、OpenAIは、100万トークンのノイズの中に情報が埋もれている場合でも、「Needle in a Haystack（針の穴探し）」の検索テストでモデルが99.9%の精度を達成したと主張しています。

Creati.aiの読者にとって、これは大規模なドキュメントとの対話方法における劇的な変化を意味します。500ページの技術マニュアルをアップロードし、モデルに「40ページに記載されている設定メニューに移動し、それらの変更を実際のシステムに適用して」と依頼できるようになり、知識と行動の間のギャップを埋めることができます。

信頼性の飛躍的進歩：ハルシネーションを33%削減

おそらくエンタープライズでの採用において最も重要なアップデートは、信頼性の指標です。OpenAIは、GPT-5のベースモデルと比較してハルシネーションが33%削減されたと報告しています。この改善は、推論プロセス内の新しい「検証レイヤー（Verification Layer）」によるもので、モデルは回答を出力する前に、既知の事実に対して自身のロジックを実質的に「ダブルチェック」します。

この精度の飛躍は、モデルの新しいエージェント機能にとって特に不可欠です。AIにマウスとキーボードの制御が与えられる場合、誤ったファイルを削除したり、間違った連絡先にメールを送信したりといったエラーの代償は、テキストベースのミスよりも大幅に高くなります。

パフォーマンス比較：GPT-5.4 vs 前世代モデル

世代間の飛躍を可視化するため、主な仕様を以下にまとめました：

仕様	GPT-4o (2024年後半)	GPT-5 (2025年)	GPT-5.4 (2026年)
コンテキストウィンドウ	128kトークン	200kトークン	100万トークン
エージェント機能	テキストベースのツール呼び出し	限定的なブラウジング	ネイティブ・コンピュータ・コントロール
ハルシネーション率	ベースライン	4oと比較して15%削減	GPT-5と比較して33%削減
モダリティ	マルチモーダル（静的）	マルチモーダル（ビデオ）	アクティブなUIインタラクション

自律型エージェントのための安全性とガードレール

大きな力には、堅牢な安全メカニズムの必要性が伴います。OpenAIは、GPT-5.4と共に新しい「エージェント許可プロトコル（Agentic Permissions Protocol：APP）」を導入しました。このプロトコルは、支払いの承認、システムファイルの削除、SNSへの投稿といったリスクの高いアクションを、人間による明確なステップバイステップの確認なしにモデルが実行できないようにするものです。

セキュリティ研究者はこのアプローチを賞賛しており、自律性の効率性と、人間を介在させる（Human-in-the-loop）監視による安全性のバランスが取れていると指摘しています。セットアッププロセス中に、ユーザーはモデルが自由に行動できる「セーフゾーン（Safe Zones）」（例：特定のフォルダやアプリケーション）と、クリックごとに承認が必要な「制限ゾーン（Restricted Zones）」を定義できます。

業界への影響と可用性

GPT-5.4のリリースは、**エージェント型AI（Agentic AI）**が実験的な研究から展開可能な製品へと成熟したことを示しています。Software-as-a-Service（SaaS）業界にとって、これはディスラプション（創造的破壊）となる出来事です。AIとレガシーソフトウェアの間のギャップを埋めるためだけに構築された多くのツールは、モデル自体がユニバーサルな架け橋となることで、時代遅れになる可能性があります。

OpenAIは、GPT-5.4を今週からChatGPT PlusおよびTeamユーザーに展開し、開発者向けのAPIアクセスはグリッドの安定性を確保するために段階的に開放すると発表しました。エンタープライズ顧客は、内部データ処理を促進するために、100万トークンのコンテキスト機能を即座に利用できるようになります。

私たちCreati.aiがここでGPT-5.4をテストする際、クリエイティブなワークフローにおけるその応用に焦点を当てます。果たして自力でビデオタイムラインを編集できるのでしょうか？混沌としたライターの調査フォルダを整理し直せるのでしょうか？初期の兆候は、答えが「イエス」であることを示唆しており、AIの究極の約束である「真のデジタルコラボレーター」へと一歩近づいています。