はじめに

2025年5月、OpenAIは従来のAIコーディング支援ツールを大きく超える革新的なプロダクト「Codex」をリリースしました。Codexは単なるコード補完ツールではなく、クラウドベースのソフトウェアエンジニアリングエージェントとして、開発タスクを自律的に実行する能力を持っています。

本記事では、Codexがなぜ「エージェント」と呼ばれるのか、GitHub Copilotなど従来のAI補完ツールとの根本的な違いは何か、そしてクラウドサンドボックスでの実行がどのような革新をもたらすのかを解説します。

Codexとは何か

Codexは、ChatGPTのインターフェースからアクセスできるクラウドベースのソフトウェアエンジニアリングエージェントです。機能の記述、コードベースに関する質問への回答、バグの修正、レビュー用のプルリクエストの提案といったタスクを、人間の介入なしに自律的に実行できます。

codex-1モデルの特徴

Codexは、ソフトウェアエンジニアリング向けに最適化されたOpenAI o3のバージョンであるcodex-1を搭載しています。codex-1は以下の特徴を持ちます。

特徴 説明
強化学習による最適化 現実世界のコーディングタスクを通じて学習
人間のスタイルへの適合 PRの好みやコーディング規約を反映したコードを生成
テスト駆動型の実行 合格するまでテストを繰り返し実行
大規模コンテキスト 最大192,000トークンのコンテキスト長をサポート

SWE-Bench Verifiedベンチマークでは、codex-1は優れたパフォーマンスを発揮し、AGENTS.mdファイルやカスタムのスキャフォールディングがない状態でも高い問題解決能力を示しています。

モデルの進化

2025年5月のcodex-1リリース以降、モデルは継続的に進化しています。

codex-1(2025年5月)
    ↓
GPT-5-Codex(2025年9月)
    ↓
GPT-5.1-Codex / GPT-5.1-Codex-Mini(2025年11月)
    ↓
GPT-5.1-Codex-Max(2025年11月)
    ↓
GPT-5.2-Codex(2025年12月)

最新のGPT-5.2-Codexでは、長期的なタスクのためのコンテキスト圧縮、大規模なリファクタリングやマイグレーションでのパフォーマンス向上、Windows環境でのサポート改善、サイバーセキュリティ能力の強化が実現されています。

従来のAIツールとの根本的な違い

GitHub Copilotとの比較

GitHub Copilotは優れたAIペアプログラマーですが、その本質はリアルタイムのコード補完ツールです。開発者がコードを書いている最中に提案を行い、Tabキーで受け入れるという対話的なワークフローが中心となります。

一方、Codexは非同期で動作するエージェントです。

flowchart LR
    subgraph "GitHub Copilot"
        direction TB
        A1[開発者がコードを入力] --> B1[Copilotが補完を提案]
        B1 --> C1[開発者がTab/Rejectで判断]
        C1 --> A1
    end
    
    subgraph "OpenAI Codex"
        direction TB
        A2[開発者がタスクを指示] --> B2[Codexが環境で自律実行]
        B2 --> C2[PRを自動作成]
        C2 --> D2[開発者がレビュー]
    end
観点 GitHub Copilot OpenAI Codex
動作タイミング リアルタイム(同期) バックグラウンド(非同期)
主な出力 コードスニペット コミット・PR
実行環境 ローカルエディタ内 クラウドサンドボックス
テスト実行 開発者が手動実行 自動でテスト実行・検証
タスクの粒度 行・関数レベル 機能・Issue単位
並列処理 不可 複数タスクを同時実行可能

なぜ「エージェント」と呼ばれるのか

Codexがエージェントと呼ばれる理由は、自律性目標指向性にあります。

従来のAIコーディングツールは、開発者の入力に対して反応するリアクティブな存在でした。開発者が何かを入力するたびに提案を返すという、受動的な役割に留まっていました。

Codexは異なります。タスクを受け取ると、以下のような複雑なプロセスを自律的に実行します。

  1. コードベース全体を読み込んで理解する
  2. 問題を分析し、解決策を計画する
  3. ファイルを編集してコードを実装する
  4. テストを実行して結果を検証する
  5. 失敗した場合は修正を繰り返す
  6. 最終的な変更をコミットとしてまとめる

この一連のプロセスにおいて、開発者の介入は必要ありません。まさに「同僚に仕事を任せる」ような感覚で、開発タスクを委任できるのです。

クラウドサンドボックス実行の仕組み

Codexの革新的な特徴の一つが、クラウドサンドボックスでの実行です。

分離された実行環境

各タスクは、コードベースが事前に読み込まれた独自のクラウドサンドボックス環境で実行されます。この環境は完全に分離されており、以下の特徴を持ちます。

flowchart TB
    subgraph "Codexクラウド環境"
        subgraph "タスク1のサンドボックス"
            R1[リポジトリ<br/>クローン]
            T1[テスト実行]
            L1[Linter/型チェック]
        end
        subgraph "タスク2のサンドボックス"
            R2[リポジトリ<br/>クローン]
            T2[テスト実行]
            L2[Linter/型チェック]
        end
        subgraph "タスク3のサンドボックス"
            R3[リポジトリ<br/>クローン]
            T3[テスト実行]
            L3[Linter/型チェック]
        end
    end
    
    GH[GitHub<br/>リポジトリ] --> R1
    GH --> R2
    GH --> R3
    
    T1 --> PR1[PR作成]
    T2 --> PR2[PR作成]
    T3 --> PR3[PR作成]
  • 独立性: 各タスクは他のタスクに影響を与えない
  • 再現性: 同じ初期状態から実行が始まる
  • 安全性: ネットワークアクセスはデフォルトで無効

セキュリティアーキテクチャ

Codexのセキュリティ設計は、AIエージェントの安全な運用を最優先に考えられています。

ネットワーク分離

タスク実行中はインターネットアクセスがデフォルトで無効化されます。これにより、エージェントのインタラクションは以下に制限されます。

  • GitHub経由で明示的に提供されたコード
  • セットアップスクリプトで事前にインストールされた依存関係

この設計により、悪意のあるコード実行やデータ漏洩のリスクを大幅に低減しています。

透明性と検証可能性

Codexは作業の透明性を重視しています。すべてのアクションについて、以下の形で検証可能な証拠を提供します。

  • ターミナルログの引用
  • テスト出力の記録
  • 実行された各ステップの追跡

開発者は、Codexが「何をしたか」を詳細に確認し、結果を検証してから本番環境に統合できます。

インターネットアクセスの制御

2025年6月の更新で、必要に応じてCodexにインターネットアクセスを許可する機能が追加されました。これにより、以下のユースケースに対応できるようになりました。

  • 依存関係のインストール
  • パッケージのアップグレード
  • 外部リソースを必要とするテストの実行

インターネットアクセスはデフォルトでオフであり、特定の環境に対して、アクセス可能なドメインとHTTPメソッドを細かく制御できます。

Codexが対応するタスク

Codexは、ソフトウェア開発のさまざまなフェーズで活用できます。

機能開発

新機能の実装をCodexに委任できます。機能仕様を自然言語で記述すると、Codexはコードベースを分析し、適切な場所に実装を追加します。

プロンプト例:
「ユーザーがプロフィール画像をアップロードできる機能を追加してください。
画像は最大5MBまで、JPEGとPNGに対応してください。」

Codexはこのような指示を受けると、以下を自律的に実行します。

  • 既存のファイル構造を分析
  • 適切なコンポーネントやAPIエンドポイントを作成
  • バリデーションロジックを実装
  • 関連するテストを追加

バグ修正

Issueやバグレポートの内容をCodexに渡すと、原因を調査し、修正を提案します。

OpenAIの技術チームによると、Codexは「集中力が途切れやすい反復的で範囲が明確なタスク」の負荷軽減に特に有効です。バグ修正はまさにこのカテゴリに当てはまります。

リファクタリング

大規模なリファクタリングも、Codexの得意分野です。

  • 命名規則の統一
  • 設計パターンの適用
  • レガシーコードのモダナイズ
  • コードの分割・統合

GPT-5.2-Codexでは、大規模なコード変更に対するパフォーマンスが特に強化されています。

テスト作成

既存のコードに対するテストの自動生成も可能です。

プロンプト例:
「src/services/userService.tsのすべてのパブリックメソッドに対して
ユニットテストを追加してください。」

Codexはコードを分析し、エッジケースを含むテストケースを生成します。テストが失敗した場合は、自動的に修正を試みます。

Codexのワークフロー

Codexを使った基本的なワークフローを説明します。

タスクの開始

ChatGPTのサイドバーからCodexにアクセスし、プロンプトを入力します。

  • 「コード」ボタン: タスクを実行し、コードを変更する
  • 「質問する」ボタン: コードベースについて質問する

進捗のモニタリング

タスクの実行中、進捗をリアルタイムで監視できます。複雑さに応じて、タスクの完了には1分から30分程度かかります。

結果のレビュー

タスクが完了すると、Codexは変更を環境にコミットします。開発者は以下のアクションを選択できます。

  • 結果を確認: 変更内容をレビューする
  • さらなる修正をリクエスト: フォローアップの指示を送る
  • PRを開く: GitHubにプルリクエストを作成する
  • ローカルに統合: 変更をローカル環境に適用する

並列タスク実行

Codexの強力な機能の一つが、複数タスクの並列実行です。同時に複数のタスクをCodexに割り当て、それぞれが独立したサンドボックスで実行されます。

flowchart LR
    DEV[開発者] --> T1[タスク1:<br/>バグ修正]
    DEV --> T2[タスク2:<br/>テスト追加]
    DEV --> T3[タスク3:<br/>リファクタリング]
    
    T1 --> PR1[PR #1]
    T2 --> PR2[PR #2]
    T3 --> PR3[PR #3]

これにより、開発者は複数の開発ストリームを同時に進められます。

AGENTS.mdによるカスタマイズ

Codexは、リポジトリ内に配置されたAGENTS.mdファイルによって指示を受けることができます。

AGENTS.mdの役割

AGENTS.mdREADME.mdに似たテキストファイルで、以下の情報をCodexに伝えます。

  • コードベースのナビゲート方法
  • テスト実行のためのコマンド
  • プロジェクトの標準的な規約やベストプラクティス

配置場所とスコープ

AGENTS.mdはリポジトリ内の任意の場所に配置できます。

  • ルートレベル: リポジトリ全体に適用
  • サブディレクトリ: そのディレクトリ以下に適用
  • 深い階層が優先: 競合する指示がある場合、より深い階層のファイルが優先

基本的な記述例

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
# AGENTS.md

## プロジェクト構成
- `src/`: ソースコード
- `tests/`: テストコード
- `docs/`: ドキュメント

## テスト実行
プルリクエストを作成する前に、必ず以下のコマンドでテストを実行してください:
\`\`\`bash
npm test
npm run lint
\`\`\`

## コーディング規約
- TypeScriptを使用
- 関数は必ず型注釈を付ける
- 新しい機能には必ずユニットテストを追加する

Codexの利用条件

対応プラン

Codexは以下のChatGPTプランで利用できます(2025年6月時点)。

プラン 利用可否
ChatGPT Pro 利用可能
ChatGPT Team 利用可能
ChatGPT Enterprise 利用可能
ChatGPT Plus 利用可能
ChatGPT Edu 近日対応予定

API利用

開発者向けに、codex-mini-latestモデルがResponses APIで利用可能です。

項目 料金
入力トークン $1.50 / 100万トークン
出力トークン $6.00 / 100万トークン
プロンプトキャッシュ割引 75%

Codex CLIとの使い分け

CodexはChatGPTのWebインターフェースだけでなく、Codex CLIとしてターミナルからも利用できます。

クラウド版Codexの特徴

  • 複数タスクの並列実行
  • 長時間実行タスクのバックグラウンド処理
  • GitHub連携によるPR自動作成
  • チーム共有の環境設定

Codex CLIの特徴

  • ローカル環境での高速な対話
  • 既存のターミナルワークフローへの統合
  • 軽量で即座に実行可能
  • Git hookやCI/CDとの連携

両者を使い分けることで、タスクの性質に応じた最適なワークフローを構築できます。

まとめ

OpenAI Codexは、AIコーディング支援の新しいパラダイムを切り開くプロダクトです。

従来のツールとの違い

  • 補完ではなく、タスクの完遂を目指すエージェント
  • 同期的な対話ではなく、非同期でバックグラウンド実行
  • コードスニペットではなく、コミットとPRを出力

クラウドサンドボックスの価値

  • 安全で分離された実行環境
  • テストの自動実行と検証
  • 複数タスクの並列処理

対応タスク

  • 機能開発
  • バグ修正
  • リファクタリング
  • テスト作成

Codexはまだ研究プレビュー段階ですが、ソフトウェア開発の未来を垣間見せてくれます。次回の記事では、Codexの料金プランと利用条件について詳しく解説します。

参考リンク