ATLASはどの程度の性能を持つ？

LiveCodeBench v5で74.6%のpass@1-v(k=3)を達成。Claude 4.5 Sonnetの71.4%（シングルショット）を上回る。

必要なGPUスペックは？

RTX 5060 Ti 16GB VRAMが基準。CUDA 12.8対応のNVIDIA GPUで、システムRAM 14GB以上が必要。

ATLASはプライベートで運用できる？

はい。ローカルサーバで実行するため、コードをクラウドに送信しない。社内環境で完全に完結可能。

ランニングコストはいくら？

1タスクあたり約0.004ドル（電力消費のみ）。Claude 4.5 Sonnetの約0.066ドルと比較して大幅に低コスト。

500ドルGPUがClaude Sonnetをコーディング性能で上回る

この記事ではClaude APIに特化して解説します。Claude API・料金全般は Claude 料金まとめ｜Claude Code・API・Opus 4.7の価格を計算シミュレーター付きで比較をご覧ください。

何が起きたか

GitHubで公開されたオープンソースプロジェクト「ATLAS」が、消費者向けGPU（RTX 5060 Ti、16GB VRAM）上でClaude 4.5 Sonnetのコーディング性能を上回る結果を示した。LiveCodeBench v5の599タスクにおいて、ATLASは74.6%のpass@1-v(k=3)を達成。Claude 4.5 Sonnetのシングルショット性能71.4%を超えている。1タスクあたりのコストは約0.004ドル（電力消費のみ）で、Claude 4.5 Sonnetの約0.066ドルと比較して16分の1以下。

アーキテクチャの詳細

ATLASはQwen3-14B-Q4_K_M（量子化版）をベースモデルとして使用し、3つのフェーズで処理を行う。

graph TD A[タスク入力] --> B[Phase 1: 生成] B --> C[PlanSearch: 制約抽出と多様な解法プラン生成] C --> D[BudgetForcing: 思考トークンの制御] D --> E[検証: Geometric Lens] E --> F[5120次元自己埋め込みによるエネルギースコアリング] F --> G{最良候補の選択精度87.8%} G -->|成功| H[出力] G -->|失敗| I[Phase 3: 修復] I --> J[自己生成テストケースでPR-CoT反復改善] J --> H

Phase 1（生成）: PlanSearchが問題から制約を抽出し、多様な解法プランを生成する。BudgetForcingにより思考トークン数を制御し、計算リソースの効率的な配分を行う。

検証（Geometric Lens）: 5120次元の自己埋め込みを用いたエネルギースコアリング機構で、最良の候補を選択する。混合結果のタスクにおいて87.8%の精度で正解候補を識別する。

Phase 3（修復）: 初期解が失敗した場合、自己生成テストケースを用いてPR-CoT（多視点Chain-of-Thought）による反復改善を実施する。

ベンチマーク比較

モデル	LiveCodeBench v5	GPQA Diamond	コスト/タスク	実行環境
ATLAS	74.6%	47.0%	~$0.004	ローカル
Claude 4.5 Sonnet	71.4%	-	~$0.066	クラウド

重要な注意点として、ATLASはシングルパス生成ではなく、best-of-3候補選択と反復修復を組み合わせた手法である。純粋な1回の推論性能ではなく、複数回の推論を組み合わせたシステム全体としての性能という位置づけ。Hacker Newsでは「ベンチマーク性能と実務での有用性は異なる」という指摘も出ている。