この記事のポイント
  • ・OpenAI Codexが2026年4月の大型アップデートでMacアプリ操作・画像生成・メモリ・111プラグインを搭載。さらに5月7日のCodex for Chrome拡張週間400万ユーザー(年初比8倍)を突破した。
  • ・4月23日にGPT-5.5(400Kコンテキスト)を追加し、SWE-Bench Verifiedで88.7%を記録。同じタスクをGPT-5.4比72%少ないトークンで完了する。
  • ・5月6日のCode with Claude 2026でAnthropicが対抗策としてRoutines・Auto Mode・Dreamingを一挙投入。両陣営の競争を本記事で網羅解説。

この記事ではAIエージェントに特化して解説します。AIエージェント全般は AIエージェントフレームワーク比較2026年版 をご覧ください。

1. Codexが「コーディングツール」から「デスクトップエージェント」に変わった

2026年4月16日、OpenAIはコーディングエージェント「Codex」の大型アップデートを発表した。週間アクティブユーザーは300万人を超え、3ヶ月で5倍に成長している。

▶ OpenAI公式デモ動画を見る
Codex Computer Use デモ — X (OpenAI公式)

今回のアップデートの核心は、Codexがターミナルとエディタの枠を完全に超えたという点だ。Mac上のあらゆるアプリを操作し、画像を生成し、過去の作業を記憶し、数日〜数週間にわたるタスクを自律的に継続する——いわば「AIスーパーアプリ」への第一歩だ。

主要な新機能を整理する。

新機能 内容 対抗製品
Computer Use Macアプリをバックグラウンドで自律操作 Anthropic Computer Use
画像生成 gpt-image-1.5による統合画像生成
メモリ ユーザーの作業スタイル・スタックを記憶 Claude Code CLAUDE.md
111プラグイン MCP・アプリ統合・スキル連携 Claude Code MCP
インアプリブラウザ Webページへの直接コメント・指示
スレッド自動化 数日〜週単位のタスク自律継続 Claude Code /loop

2. Macアプリを自律操作する「Computer Use」

今回最も注目すべき機能がComputer Useだ。Codexが独自のカーソルを持ち、Macのデスクトップアプリケーションを画面を見ながらクリック・タイピングで操作する。

従来のCodex:
  ターミナル → コード実行 → 結果確認

新しいCodex:
  ターミナル + エディタ + ブラウザ + Figma + Slack + あらゆるMacアプリ
  → 画面を認識 → クリック・タイピング → 結果確認 → 次のアクション

重要なのは、複数のエージェントがバックグラウンドで並列実行できる点だ。ユーザーが自分の作業をしている間に、Codexは別のデスクトップセッションでテスト実行やアプリ操作を行う。ユーザーの作業を邪魔しない。

Codex開発チームのAri Weinsteinは「エージェントがバックグラウンドでアプリを使っている間、自分も同時にMacを使える。この感覚は魔法のようだ」と表現している。

具体的に何ができるのか

Computer Useでは、アプリ名を指定する方法タスクの内容からCodexが最適なアプリを判断する方法の2通りがある。OpenAIは独自の「秘密のソース」技術により、エージェントがアプリを操作してもシステム全体が重くならないと説明している。

実際のユースケースを整理する。

操作例 従来の方法 Codex Computer Use
Xcodeでビルド&テスト 手動でXcode操作 「Xcodeを開いてビルドしてテスト結果を報告」
Figmaからデザイン取得 Figma APIまたは手動コピー 画面認識でFigmaからデザインスペックを読み取り
API非対応の社内ツール操作 人間が手動操作するしかない 画面を見てクリック・入力で操作
フロントエンドの実機テスト Playwrightやcypress 実際のブラウザを開いて目視レベルの確認

この機能はAnthropicの「Computer Use」に対する直接的な回答だ。ただし現時点ではmacOSのみの対応で、EU・UK・スイスでは利用できないという制限がある。

# Codex CLI v0.121.0 での操作例

# 1. アプリ名を指定して操作
codex "Xcodeを開いてプロジェクトをビルドし、テスト結果をレポートして"

# 2. タスクを伝えてCodexに最適なアプリを選ばせる
codex "このAPIレスポンスをPostmanで検証して、エラーがあれば報告して"

# 3. 複数アプリをまたぐ操作
codex "Figmaの最新デザインを確認して、フロントエンドのコードを修正して、
       Slackの#dev-reviewチャンネルにスクリーンショット付きで報告して"

# 4. バックグラウンド並列実行
codex exec "テストを全て実行して、失敗したケースのデバッグを進めて"
# ↑ ユーザーは自分のMac作業を続けながら、Codexが裏で動く
graph TD A["ユーザーの指示"] --> B["Codex Agent"] B --> C{"URL種類を判定"} C -->|"API対応アプリ"| D["MCP/プラグイン経由"] C -->|"API非対応アプリ"| E["Computer Use
画面認識+クリック"] C -->|"Webアプリ"| F["インアプリブラウザ"] D --> G["結果をエディタに反映"] E --> G F --> G G --> H["メモリに作業パターンを保存"]

3. インアプリブラウザ:Webページに直接コメントで指示

OpenAIのAtlas技術をベースにしたブラウザがCodex内に統合された。localhost上のWebアプリや公開ページを開き、ページ上の特定の要素に直接コメントを付けて修正指示を出せる。

Codex開発チームのデモでは、グラフのY軸が切れている問題に対して、ブラウザ上でその箇所を指し「マージンを広げてY軸が切れないように修正して」とコメントすると、Codexが即座にCSSを修正してリロードする様子が実演された。

操作フロー:
  1. Codex内でブラウザを開く(localhost:3000 or 公開URL)
  2. ページ上の気になる箇所をクリック
  3. コメントで修正指示を入力
     「このグラフのマージンを広げてY軸が切れないようにして」
  4. Codexがソースコードを特定→修正→自動リロード
  5. 確認してOKなら次の指示へ

現時点ではフロントエンド開発とゲーム開発が主なターゲットだが、将来的にはより広いWebアプリケーション開発に対応する予定とのこと。

4. gpt-image-1.5による統合画像生成

Codex内で画像生成が完結するようになった。ChatGPTアプリに切り替える必要がない。

OpenAIの説明によれば、スクリーンショットを撮ってCodexに見せることで「正しい方向に進んでいるか」を視覚的に検証する使い方もできる。デザインの意図をコードに正確に反映できているかを、AIが画像レベルで確認するわけだ。

具体的なユースケースは以下の通り。

ユースケース 操作例
UIモックアップ 「ダッシュボードのヒーローセクションをダークテーマで生成して」
ゲームアセット 「8-bitスタイルのキャラクタースプライトを生成して」
プロダクトコンセプト 「このワイヤーフレームをリアルなUIデザインに変換して」
実装検証 スクリーンショットを撮影→Figmaデザインと比較→差分を指摘
具体的な操作フロー:

  1. Codexに「ダッシュボードのログインページをデザインして」と指示
  2. gpt-image-1.5がモックアップ画像を生成
  3. 「このデザインをReactコンポーネントで実装して」と続ける
  4. Codexがコードを生成→ブラウザでプレビュー
  5. スクリーンショットを撮って元のモックアップと比較
  6. 差分があれば自動修正→繰り返し

これにより、デザイン→コード→テスト→デプロイのサイクル全体をCodex内で回せるようになる。

5. メモリ機能:作業スタイルを学習する

Codexにパーソナライゼーション(メモリ)機能が追加された。

記憶する内容 具体例
技術スタック 「このプロジェクトはNext.js + Prisma + Vercel」
コーディング規約 「変数名はcamelCase、テストはVitest」
作業パターン 「PRはsquash merge、CIはGitHub Actions」
頻繁な指示 「TypeScriptの型は厳密に、any禁止」

AnthropicのClaude Codeでは、CLAUDE.mdファイルにプロジェクトルールを手動で記述するアプローチを取っている。Codexのメモリはこれを自動化する発想だ。使い続けるほどCodexがユーザーの好みを学習し、プロンプトの提案も自動生成される。

# Codex CLI — メモリの管理
codex memory list          # 記憶している内容を一覧表示
codex memory reset         # メモリをリセット
codex memory mode off      # メモリ機能を無効化

メモリ機能には2つのレベルがある。

レベル1: コンテキスト記憶 — 過去のタスクで使った技術スタック、コーディング規約、よく使うコマンドなどを記憶する。次のセッションで「前回と同じ設定で」と言えば、設定をゼロから説明する必要がない。

レベル2: プロアクティブ提案 — Codexが状況を察知して「やるべきこと」を先回りで提案する。Engadgetのレポートによれば、デモでは同僚がGoogle Docsのドラフトにコメントを残したことをCodexが検知し、「このコメントに返信しますか?」と提案する様子が実演された。

プロアクティブ提案の例:

  [Codex] 💡 提案: 山田さんがdesign-spec.gdocにコメントを残しました
          「フォントサイズを14pxに変更希望」
          → このコメントに対応してCSSを修正しますか? [はい / 後で]

  [Codex] 💡 提案: CIが失敗しています(test_auth.py::test_login)
          前回同じテストが失敗した時は、環境変数 DB_URL の設定漏れでした
          → 確認しますか? [はい / 後で]

ただし、この「自動記憶」と「先回り提案」アプローチにはプライバシー面の懸念もある。Enterprise・Eduプランでは段階的なロールアウトとなっており、EU/UKでは利用開始が遅れる。

6. 111プラグイン + MCP対応でツールチェーン統合

OpenAIは今回のアップデートで111個の新プラグインを追加した。スキル、アプリ統合、MCPサーバーを組み合わせ、Codexのコンテキスト収集と実行能力を拡張する。

主な統合先は以下の通り。

カテゴリ 対応ツール
プロジェクト管理 JIRA, Linear, Notion
バージョン管理 GitHub, GitLab
CI/CD CircleCI, GitHub Actions
コミュニケーション Slack, Microsoft Teams
デザイン Figma
オフィス Microsoft Suite
# マーケットプレイスからプラグインをインストール(v0.121.0)
codex plugin install jira-integration
codex plugin install gitlab-mcp
codex plugin install figma-design

# GitHub URL・git URL・ローカルディレクトリからもインストール可能
codex plugin install https://github.com/user/my-codex-plugin.git
codex plugin install ./local-plugin/

Claude CodeのMCP(Model Context Protocol)との違いは、OpenAIがマーケットプレイス方式でプラグインの発見・インストールを一元化している点だ。MCPはオープンプロトコルだが、Codexはプラグインストアのようなエコシステムを構築しようとしている。

7. スレッド自動化:数日〜数週間のタスクを自律継続

CodexにThread Automations(スレッド自動化)が追加された。会話スレッドのコンテキストを保持したまま、スケジュールされたタイミングで自律的に作業を再開する。

従来: 1回の会話 → タスク完了 → 終了

新機能:
  Day 1: 「このリファクタリングを進めて」
  Day 2: Codexが自動的にウェイクアップ → 続きの作業を実行
  Day 3: 進捗をユーザーに報告 → 次のステップを提案
  Day 7: 全工程完了 → PRを作成

これはClaude Codeの/loopコマンド(定期実行)に近い概念だが、日単位・週単位という長期スパンで自律的に動くという点で、一歩先を行っている。

8. Codex v26.415 + CLI v0.121.0 チェンジログ

今回のアップデートはアプリ版(v26.415)とCLI版(v0.121.0)の両方に及ぶ。

アプリ版 v26.415(2026年4月16日):

  • インアプリブラウザ(ローカル/公開ページのプレビュー + コメント機能)
  • Computer Use(macOSネイティブアプリの画面操作)
  • チャット機能(プロジェクトフォルダ不要の会話スレッド)
  • スレッド自動化(スケジュール起動 + コンテキスト保持)
  • タスクサイドバー(計画・ソース・成果物の可視化)
  • PRレビュー(GitHub PRのdiff表示 + コメント)
  • アーティファクトビューア(PDF・スプレッドシート・プレゼンのプレビュー)
  • Intel Mac初対応

CLI版 v0.121.0(2026年4月15日):

# 主要な新コマンド
codex plugin install <source>   # マーケットプレイス/GitHub/ローカルからプラグイン追加
codex memory list               # メモリ一覧
codex memory reset              # メモリリセット

# TUI改善
Ctrl+R                          # 逆方向の履歴検索(シェルのreverse search相当)

# セキュリティ
# bubblewrapサポートのセキュアdevcontainerプロファイル追加
# サプライチェーン強化(GitHub Actions・cargo依存のピン留め)

9. 【4月23日続報】GPT-5.5搭載でCodexはさらに進化した

4月17日のデスクトップ拡張から1週間後の4月23日、OpenAIは新フロンティアモデルGPT-5.5をChatGPTおよびCodexで提供開始した。前述のComputer Use・メモリ・111プラグインに加え、頭脳そのものがアップグレードされた格好だ。

API版は翌4月24日から提供開始されたが、Codex内のGPT-5.5は当面ChatGPTサインインのみで利用可能で、APIキー認証では選べない仕様となっている。

9-1. GPT-5.5でCodexが何を得たか

強化点 内容
コンテキスト 400Kトークンに拡大(GPT-5.4比2倍)
トークン消費 同タスクで大幅減(料金圧縮)
Computer Use 画面認識・自律操作の精度向上
エージェント挙動 長時間タスクで途中で止まりにくい
推論レイテンシ GPT-5.4と同等を維持

ポイント:GPT-5.5は「実装・リファクタ・デバッグ・検証」のサイクルを少ないトークンで回せる。Computer Useと組み合わせると、Macアプリ操作中の意思決定もより的確になった。

9-2. Codex内でGPT-5.5を有効化する

# 1. ChatGPTサインインで起動
codex login

# 2. /modelコマンドで切り替え
> /model
# → "gpt-5.5" を選択

# 3. または起動時にモデル指定
codex --model gpt-5.5 "このプロジェクトの脆弱性をレビューして"

GPT-5.5はPlus・Pro・Business・Enterprise・Edu・Goプランの全てで利用可能だ。Proプランなら推論時間を伸ばしたGPT-5.5 Proも選択肢に入る。


10. 【バズ中】「Claude Code 2.1で作る→Codex GPT-5.5で直す」が新標準

2026年4〜5月、X上で爆発的に拡散しているのが「Claude Codeで作る→Codexで直す」のハイブリッドワークフローだ。両ツールが同時期に大幅進化した結果、片方だけで完結するより併用したほうが速くて品質も高いという観察結果が広まっている。

10-1. なぜ今このワークフローが定着したのか

きっかけは2026年3月のOpenAI公式プラグインcodex-plugin-ccの登場だ。Claude Code内から/codex:reviewでCodexを直接呼べるようになり、ツール切替の摩擦がほぼゼロになった。

加えて以下の3つの追い風がある。

・Claude Opus 4.7(4/16)が1Mコンテキストを標準価格で提供開始 ・Codex GPT-5.5(4/23)が400Kコンテキスト+トークン圧縮を実現 ・Claude Code 2.1.xがWindows対応・worktree強化で安定運用ステージへ

つまり「両方とも本気で使えるレベル」に同時に到達したわけだ。

10-2. 両ツールの役割分担

Claude Code(Opus 4.7・1Mコンテキスト)の強み

・大規模コードベースを丸ごと読み込んで設計する力 ・抽象的なゴールから実装計画を立てる構造把握力 ・対話的な作業でユーザーと並走するペアプロ的スタイル ・1Mコンテキストで長文書類・巨大ログを丸ごと処理可能

Codex CLI(GPT-5.5・400K)の強み

・深い推論を時間をかけて回す論理性 ・細かい穴・エッジケース・型不整合の検出 ・Computer Useで実機テスト・UIレビューまで自律実行 ・サンドボックス隔離で安全にコマンド実行可能

10-3. 標準ワークフロー:3ステップ

Step 1: Claude Codeで設計+実装
        → 機能ブランチに大胆にコミット

Step 2: Codex CLIでレビュー+エッジケース修正
        → /codex:review もしくは codex --sandbox read-only
        → Computer Useで実画面テストも併用

Step 3: Claude Codeで最終整理(コメント・docstring・README)
        → 日本語ドキュメント整備
        → PR本文作成

10-4. codex-plugin-ccで両ツールを統合

# Claude Code内でマーケットプレイスを追加
> /plugin marketplace add openai/codex-plugin-cc

# プラグインをインストールして再起動
> /plugin install codex-plugin-cc

# 提供される3コマンド
> /codex:review                    # 通常レビュー
> /codex:rescue                    # タスク委譲
> /codex:adversarial-review        # 敵対的レビュー(穴探し特化)
順番を逆にすると失敗しやすい理由
「Codexで作ってClaude Codeで直す」順だと、Codexのサンドボックス制約がボトルネックになりがちだ。マイグレーション実行・staging API接続といった作業はClaude Codeのほうが安定する。**広い視野で組むのがClaude Code、細部を詰めるのがCodex**という分担が自然になる。

詳細はOpenAI Codex CLI完全ガイドで解説している。


11. 【5月最新】Codex for ChromeとCode with Claude 2026で競争激化

GPT-5.5搭載から2週間で、両陣営は更に大きな手を打ってきた。5月6日のCode with Claude 20265月7日のCodex for Chromeが連続発表され、開発者ツール戦争はターミナルからブラウザ・自律実行へと舞台を広げている。

11-1. Codex for Chrome(5月7日):ブラウザ全体を操作

OpenAIは5月7日、Codex for Chrome拡張を投入した。Codexアプリ(macOS・Windows)と連動し、署名済みブラウザセッションでCodexがWebを直接操作できる。

機能 内容
マルチタブcontext 複数タブ横断で情報収集
DevTools連携 Webアプリのデバッグ
サインイン済みサイト操作 LinkedIn・Salesforce・Gmail・社内ツールに対応
ホスト単位の許可制御 「このチャットだけ」or「常に許可」
提供地域 EU・UK除く全リージョン

ポイント:Computer Useはアプリ全体、Chrome拡張はブラウザ特化。Webアプリ開発・SaaS自動化のユースケースで決定打になり得る。

OpenAIは同時に週間アクティブユーザー400万人突破(年初比8倍)も発表した。4月時点の300万人からわずか3週間で更に33%増だ。

11-2. Code with Claude 2026(5月6日):Anthropicの対抗策

Anthropicは前日の5月6日にCode with Claude 2026カンファレンスを開催し、Claude Code側で7つの新機能を一挙発表した。CPOが冒頭で「今日は新モデル発表はない」と宣言したのが象徴的だ。

機能 概要
Routines 非同期自動化。GitHubトリガー or schedule(毎時/日次/週次)でPR自動作成
Auto Mode 多段階自律コーディング。承認ゲート+2段階分類で安全担保(Team向けresearch preview)
Dreaming 夜間に過去セッションを自己レビューしてメモリ更新
Outcomes 成功条件のrubricを書くと別gradingコンテキストで評価しイテレーション
Multi-Agent Orchestration エージェント艦隊調整実行(Public Beta)
Code Review 社内全面採用→一般公開。PR自動レビュー
CI Auto-Fix 失敗チェック自動修正(PRオーナーは赤×を見ない設計)
使用上限2倍 Claude Code 5時間枠を倍増

Mercado Libre事例の衝撃:ラテンアメリカ最大ECの23,000エンジニア全員がClaude Code使用、すでに50万PRレビュー実施済み、Q3に「90%自律コーディング」を公言した。

11-3. Codex-Spark:Cerebrasパートナーシップ第1弾

ChatGPT Pro限定のresearch previewとしてCodex-Sparkも登場した。Cerebrasの推論インフラで動く特化版で、テキスト専用・128Kコンテキスト。重い推論はGPT-5.5、瞬発系はCodex-Sparkという棲み分けだ。

11-4. SWE-Bench実数値で見る両者の差(5月時点)

ベンチマーク GPT-5.5 Opus 4.7
SWE-Bench Verified 88.7% 87.6%
SWE-Bench Pro(実Issue) 58.6% 64.3%
出力トークン量 72%少ない 標準
10ベンチマーク総合 4勝 6勝

数字が示すのは「片方を選ぶ」のではなく「両方使う」べきという現実だ。Verifiedレベルの細かいツール操作はGPT-5.5、Proレベルの広範囲アーキテクチャ推論はOpus 4.7。だから「Claude Codeで作る→Codexで直す」が機能する。


12. Claude Code vs Codex:2026年5月時点の比較

今回のアップデート(4/16デスクトップ拡張+4/23 GPT-5.5搭載)により、CodexとClaude Codeの競合関係がさらに鮮明になった。

機能 Codex (v26.415 / GPT-5.5) Claude Code (v2.1.138)
主要モデル GPT-5.5(4/23〜) Claude Opus 4.7(4/16〜)
コンテキスト 400K(GPT-5.5・Codex) 1M(Opus 4.7・標準価格)
デスクトップ操作 ✅ Computer Use(macOS) ✅ Computer Use(Linux/macOS)
画像生成 ✅ gpt-image-1.5内蔵 ❌ 非対応
メモリ ✅ 自動学習型 ✅ CLAUDE.md(手動定義)
プラグイン ✅ 111個 + マーケットプレイス ✅ MCP(オープンプロトコル)
ブラウザ ✅ インアプリブラウザ ❌ WebFetchツール
長期タスク ✅ 日〜週単位の自動化 ✅ /loop + cron
公式プラグイン連携 codex-plugin-cc(Claude Code内から呼び出し可)
対応OS macOS(Intel含む) macOS, Linux, Windows正式(v2.1〜)
週間ユーザー 300万人 非公開
EU/UK 一部機能制限あり 制限なし

OpenAIはマーケットプレイス + 自動メモリ + 画像生成という「囲い込み型」のエコシステムで攻めている。一方、AnthropicのClaude CodeCLAUDE.md + MCP + フルオープンという「透明性重視」のアプローチだ。

どちらが勝つかはまだわからない。だが、2026年4月時点で確実に言えるのは、コーディングエージェントの戦場がターミナルからデスクトップ全体に広がったということだ。

13. まとめ:「スーパーアプリ」と「ハイブリッド運用」が同時進行

Engadgetは4月のアップデートを「OpenAIのスーパーアプリ構想への布石」と評している。Codexは単なるコーディングツールではなく、開発者の作業環境全体を統合するハブになろうとしている。

・コードを書く(エディタ) ・テストする(Computer Use + ターミナル) ・デザインする(画像生成 + ブラウザ) ・管理する(JIRA・Slack連携) ・記憶する(メモリ) ・自律的に続ける(スレッド自動化) ・頭脳をアップグレードする(GPT-5.5・400K)

これらすべてが1つのアプリで完結する世界。それがOpenAIの描くCodexの未来だ。

しかし2026年4〜5月の現場で観察されているのは、別の方向性でもある。「囲い込み型のスーパーアプリ」と並走する形で、Claude Codeとのハイブリッド運用が広がっているのだ。

codex-plugin-ccによってツール切替の摩擦が消え、Claude Code 2.1とCodex GPT-5.5の両方が同時に成熟したことで、開発者は「片方を選ぶ」のではなく「両方を最適配置する」スタイルにシフトしている。

選択肢は3つある。Codexのマーケットプレイスに乗るか、MCPのオープンエコシステムに賭けるか、あるいは両方を組み合わせて『Claude Codeで作る→Codexで直す』を実践するか。2026年5月の主流は3番目だと覚えておきたい。

14. 参照ソース