1. 「AIにゲームを作らせる」ではない。「AIにゲームを遊ばせて、進化させる」
「こういうゲーム作って」→ AIが作る → AIが実際にプレイする → 「ここ面白くない」と判断する → 修正する → また遊ぶ——このループが、もう手の届くところにある。
鍵になるのは2つのオープンソースだ。
- OpenClaw:AIに「手足」を与える自律エージェントフレームワーク。コード生成・ビルド・テスト・Git操作・PR作成を自動で回す
- Qwen3.5:Alibaba発のネイティブマルチモーダルLLM。コードを書く「脳」とゲーム画面を見る「目」を1つのモデルで兼任。UIスクリーンショットで訓練済み。Apache 2.0でローカル実行可能、APIコストゼロ
従来のCopilot系ツールは「コードを提案する」止まりだった。OpenClaw + Qwen3.5は「コードを書いて、ビルドして、実際に遊んで、ダメだったら直す」を全部自律でやる。
既に現実になりつつある事例:OpenClawの自律ゲーム開発パイプラインでは「Bugs First」ポリシーで7分に1回のペースでゲーム修正/機能追加を回す実装が公開されている。また「Codex Mortis」はChatGPTでアート、Claude Codeでシェーダーを開発し、100% AI製ゲームとしてSteamにプレイアブルデモを公開した。
本稿では、Unity / Unreal Engineユーザーが「これ、来週から試せる」と思えるシナリオを中心に紹介する。
2. アーキテクチャ:手足+脳+目
構成はシンプルだ。
- OpenClaw = 手足:ファイル操作、ビルド実行、テスト、Git操作、PR作成を自律的に回す
- Qwen3.5 = 脳+目:コード生成・判断(脳)とスクリーンショット解析(目)を1モデルで兼任
自律ループ
人間の一言指示 → Qwen3.5がコード生成 → OpenClawがビルド&実行 → スクショ取得 → Qwen3.5が「これでいいか?」を視覚判定 → 修正 → 再ビルド → 再評価 …(自律で回り続ける)
Unity / Unrealとの接続
MCPブリッジ(Unity MCP、Unreal MCP)はGitHubに複数あるが、2026年3月時点ではコミュニティ実装が中心。実務では以下が確実に動く。
- バッチモード起動(Unity:
-batchmode -executeMethod、Unreal:コマンドライン自動化) - 自動テストでシーン巡回(Unity Test Framework / Unreal Automation System)
- スクショ取得(Unity:
ScreenCapture.CaptureScreenshot、Unreal:HighResScreenshot) - 入力送信(Unity:
Input.SimulateTouch/ New Input System、Unreal:Automation入力)
最初から完全自動を狙わない。「起動→巡回→撮る→評価→直す」の最小ループを確実に回す。
3. ワクワクする具体シナリオ 8選
(A) 丸投げプロトタイプ工場 ——「2Dローグライク作って」
一番刺さるシナリオから始めよう。人間は「2Dローグライク、ダンジョン自動生成、ターン制戦闘」とだけ指示する。あとはAIが勝手に回る。
- Qwen3.5がUnityプロジェクトを作成、基本戦闘を実装
- マップ自動生成ロジックを書く
- ビルド → AIが自分でプレイする
- スクショを見て「移動できない壁がある」「UIに情報が足りない」を検出
- 修正 → 再プレイ → 再評価
- バランス調整、チュートリアル追加、UI改善を繰り返す
完全な製品は無理でも、遊べるα版が数日で出てくるのは現実的だ。実際、Rosebud AIでは7万人のクリエイターが自然言語だけで100万以上のゲームを作っており、「言葉→ゲーム」の距離は急速に縮まっている。
人間の役割は「何を面白いと思うか」の判断に集中する。反復と検証はAIに任せる。
(B) ゲーム進化エンジン ——「このゲームを3世代進化させて」
まるで遺伝的アルゴリズムでゲームを育てる。
- 現バージョンをベースに、Qwen3.5が改良版を2〜3パターン生成
- それぞれビルド&自動プレイ
- スクショ+ログで「どれが一番面白いか」を評価
- 勝者を次世代のベースにして、再び改良版を分岐
- 世代を重ねるたびにゲームが洗練されていく
NVIDIAのNitroGen(4万時間のゲームプレイ動画で訓練、1000+ゲームで動くゲーミングAI基盤モデル)が示すように、AIがゲームを「遊んで評価する」能力は急速に進化している。
「AIにゲームを作らせる」ではなく「AIにゲームを遊ばせて、進化させる」。ここが本質だ。
(C) AIが初見プレイヤーになる ——「このチュートリアル、分かりにくくない?」
従来の自動テストは「正解を知っている」。このシナリオは正解を知らない前提でゲームを触る。
- Qwen3.5がスクショを見て「次に何を押すべきか?」を推論
- OpenClawが入力を送信して実際に操作
- 詰まったら「ここで迷った:ボタンが見つからない」とログに残す
- 全画面を巡回して「迷いポイントマップ」を生成
使い道:チュートリアル導線、スキル解放UI、装備画面の操作性、ショップの購入フロー
プレイテスターを雇う前に、AIに「初見で触らせる」。人間のテスターは"慣れてしまう"が、AIは毎回初見だ。
(D) 敵を育てるAI ——「このボス、強いけど理不尽じゃない感じにして」
普通のテスト自動化は「バグがあるか」を見る。これは「体験の質」を調整する。
- OpenClawがボスのAIパラメータ(攻撃頻度・回避確率・索敵範囲など)をJSON管理
- PlayModeで100戦自動実行。勝率・被弾回数・平均戦闘時間を収集
- 要所でスクショを撮り、Qwen3.5に「理不尽感」を判定させる:
- 一瞬でHP蒸発してないか?
- 攻撃予兆が視認可能か?
- 回避の猶予はあるか?
- 統計+視覚所見を合わせてパラメータ自動調整
- AI人格を3種類に分割して検証も可能:脳筋型、慎重型、スピードラン型
「AIが敵AIを作る」より、「AIが敵AIを100回殴って、ちょうどいい強さに育てる」方が確実に機能する。
(E) UIデザイン・トーナメント ——「このショップ画面、もっとソシャゲっぽく」
AIデザイナー同士を戦わせる。
- Qwen3.5がショップUIを3パターン自動生成(レイアウト・配色・情報密度を変えて)
- それぞれビルド → スクショ取得
- Qwen3.5が視認性・情報密度・色バランス・タップ領域を評価
- 「勝者」を採用、「敗者」のいいところを取り込んで改良版を再生成
- トーナメント形式で収束させる
VLMのゲームQA精度の裏付け:NeurIPS 2025で発表されたVideoGameQA-Benchでは、最新VLMがゲーム画面のグリッチを82.8%の精度で検出、バグレポートも50%のケースで実用レベルの品質で自動生成できることが確認されている(Sony Interactive Entertainment共同研究)。
デザイナーの「感覚」をAI同士で戦わせる。人間は最終ジャッジだけすればいい。
(F) AIが自分のゲームを実況する ——「初見実況してみて」
プレイテスターと実況者を兼ねるAI。
- Qwen3.5がスクショを見ながらゲームをプレイ
- プレイしながら状況を実況:「この部屋に入った。敵が3体。回復アイテムが見当たらない」
- 問題点をリアルタイムでコメント:「ここ理不尽。回避不能攻撃が連続」「ここは分かりやすい。矢印の誘導が効いてる」
- 全プレイ後にサマリーレポート生成
使い道:レベルデザインの検証、難易度カーブの確認、ストーリー演出の没入感チェック
人間のプレイテスターは1日に数回しか「初見」できない。AIは何度でも初見になれる。
(G) スキル破壊実験AI ——「この魔法、悪用できない?」
人間より悪用が上手いAIを味方につける。
- 全スキルの組み合わせを自動探索(1000パターン以上)
- 異常ダメージ、無限ループ、ハメ技を検出
- スクショで「画面崩壊」(描画破綻、UIオーバーフロー)も確認
- 検出した壊れコンボをレポート化+自動ナーフ提案
リリース前に「AIに壊してもらう」。プレイヤーに壊される前に。
(H) 世界観整合チェックAI ——「この街、雰囲気バラバラじゃない?」
QAではなく美術監督として機能する。
- 全シーンのスクショを取得
- Qwen3.5がカラーパレット、ライティングの方向性、UIフォントの一貫性を解析
- 世界観から逸脱している箇所を警告:「このシーンだけ暖色系。他は全部寒色」
- 修正案を提示(マテリアルカラー調整、ポストプロセス設定の統一など)
バグ検出ではなく「雰囲気の統一」。1人で開発しているインディーにこそ刺さる機能。
4. 既に起きていること
「未来の話」ではない。2025〜2026年に既に実証されている事例を並べる。
| プロジェクト | 何をやったか | 結果 |
|---|---|---|
| OpenClaw自律パイプライン | AIがゲームのビルド→テスト→バグ修正→機能追加を自律実行 | 7分に1回のペースで修正/追加を回す実装を公開 |
| Codex Mortis | ChatGPT(アート)+Claude Code(シェーダー)で弾幕ローグライトを制作 | 100% AI製ゲームとしてSteamにプレイアブルデモ公開。開発期間3ヶ月 |
| Rosebud AI | 自然言語の説明だけでゲームを生成する「vibe coding」プラットフォーム | 7万人が100万以上のゲームを作成。平均セッション3時間超 |
| NVIDIA NitroGen | 4万時間のゲームプレイ動画で訓練したゲーミングAI基盤モデル | 1000以上のゲームで動作。未知のゲームでも成功率52%向上 |
| Google Genie 3 | テキストプロンプトからプレイ可能な3D世界をリアルタイム生成 | 24fps 720pで一貫性のある3D世界を生成・操作可能 |
| VideoGameQA-Bench | VLMによるゲームバグ検出の精度を大規模ベンチマーク | グリッチ検出82.8%精度、バグレポート自動生成50%実用レベル(NeurIPS 2025) |
| Google Cloud調査 | ゲーム開発者615名への大規模アンケート | 90%が既にAIを使用中。47%がプレイテスト/バランシングに適用 |
5. ツール選びとリスク管理
Qwen3.5:脳と目を兼ねる中核モデル
- Qwen3.5-9B(ローカル推奨):RTX 3090/4090が1枚あれば動く。コード生成も画面評価もこれ1本。APIコストゼロ
- Qwen3.5-397B MoE(API):最高精度。DashScope APIで無料枠100万トークン
- Qwen3-VL-8B(代替):VLM専用。空間理解・OCR特化。
ollama run qwen3-vl:8b
安全設計
自律実行が強力なほど、暴走リスクも上がる。OpenClawのスキルマーケットプレイス(ClawHub)では悪性スキル混入が報告されている。
- 隔離実行:ビルド/テストはVM・コンテナで。ホスト環境と切り離す
- 最小権限:Gitトークン、Discordトークンは権限を最小に
- PR必須:OpenClawが直接mainに触らない。必ず差分レビュー
- 危険操作の手動承認:リリース、課金設定、証明書更新は自動化しない
OpenClawは"同僚"ではなく、権限を制御された外注ロボとして扱うと安全に回る。
6. 結論:「1人を1.5人にする」のは今すぐ可能
OpenClaw + Qwen3.5は、AIに「手足」「脳」「目」をすべて与える構成だ。オープンソース同士の組み合わせで、ローカル完結・APIコストゼロ。
ゲームを完全に丸投げして完成させる未来は、まだ少し先にある。だが「AIに遊ばせて、進化させる」サイクルはもう動いている。プロトタイプの自律生成、初見AIプレイテスト、ボスバランスの自動収束、UIのトーナメント選定、壊れコンボの事前検出——これらは来週から試せる温度感だ。
Google Cloudの調査によれば、ゲーム開発者の90%が既にAIを使用し、47%がプレイテストとバランシングに適用している。問題は「AIを使うかどうか」ではなく「どこまで任せるか」になった。
まずは1シナリオから。AIに「遊ばせて」みてほしい。ゲーム開発の重心が、きっと変わる。
参考ソース
- OpenClaw — GitHub公式リポジトリ
- OpenClaw自律ゲーム開発パイプライン — 実装例
- Qwen3.5 — ネイティブマルチモーダルエージェント
- Qwen3-VL — GitHub公式リポジトリ
- Codex Mortis — 100% AI製ゲームがSteamにデモ公開
- Rosebud AI — Vibe Codingプラットフォーム
- NVIDIA NitroGen — ゲーミングAI基盤モデル
- Google Genie 3 — テキストからプレイ可能な3D世界
- VideoGameQA-Bench — ゲームQA用VLMベンチマーク(NeurIPS 2025)
- Google Cloud調査 — ゲーム開発者の90%がAI使用中
- GameNGen — ニューラルネットワークがゲームエンジンになる
- Microsoft Security Blog — OpenClawの安全な運用
- Trend Micro — ClawHub悪性スキル報告
- MCP Unity — Unity Editor向けMCPプラグイン
- Qwen3-VL on Ollama — ローカル実行



コメント