OpenClaw×Qwen3.5でゲーム開発を自律化 — AIが「遊んで、進化させる」時代

1. 「AIにゲームを作らせる」ではない。「AIにゲームを遊ばせて、進化させる」
2. アーキテクチャ：手足＋脳＋目
1. 自律ループ
2. Unity / Unrealとの接続
3. ワクワクする具体シナリオ 8選
4. 既に起きていること
5. ツール選びとリスク管理
1. Qwen3.5：脳と目を兼ねる中核モデル
2. 安全設計
6. 結論：「1人を1.5人にする」のは今すぐ可能
参考ソース

1. 「AIにゲームを作らせる」ではない。「AIにゲームを遊ばせて、進化させる」

「こういうゲーム作って」→ AIが作る → AIが実際にプレイする → 「ここ面白くない」と判断する → 修正する → また遊ぶ——このループが、もう手の届くところにある。

鍵になるのは2つのオープンソースだ。

OpenClaw：AIに「手足」を与える自律エージェントフレームワーク。コード生成・ビルド・テスト・Git操作・PR作成を自動で回す
Qwen3.5：Alibaba発のネイティブマルチモーダルLLM。コードを書く「脳」とゲーム画面を見る「目」を1つのモデルで兼任。UIスクリーンショットで訓練済み。Apache 2.0でローカル実行可能、APIコストゼロ

従来のCopilot系ツールは「コードを提案する」止まりだった。OpenClaw + Qwen3.5は「コードを書いて、ビルドして、実際に遊んで、ダメだったら直す」を全部自律でやる。

既に現実になりつつある事例：OpenClawの自律ゲーム開発パイプラインでは「Bugs First」ポリシーで7分に1回のペースでゲーム修正/機能追加を回す実装が公開されている。また「Codex Mortis」はChatGPTでアート、Claude Codeでシェーダーを開発し、100% AI製ゲームとしてSteamにプレイアブルデモを公開した。

本稿では、Unity / Unreal Engineユーザーが「これ、来週から試せる」と思えるシナリオを中心に紹介する。

2. アーキテクチャ：手足＋脳＋目

構成はシンプルだ。

OpenClaw = 手足：ファイル操作、ビルド実行、テスト、Git操作、PR作成を自律的に回す
Qwen3.5 = 脳＋目：コード生成・判断（脳）とスクリーンショット解析（目）を1モデルで兼任

自律ループ

人間の一言指示 → Qwen3.5がコード生成 → OpenClawがビルド＆実行 → スクショ取得 → Qwen3.5が「これでいいか？」を視覚判定 → 修正 → 再ビルド → 再評価 …（自律で回り続ける）

Unity / Unrealとの接続

MCPブリッジ（Unity MCP、Unreal MCP）はGitHubに複数あるが、2026年3月時点ではコミュニティ実装が中心。実務では以下が確実に動く。

バッチモード起動（Unity：-batchmode -executeMethod、Unreal：コマンドライン自動化）
自動テストでシーン巡回（Unity Test Framework / Unreal Automation System）
スクショ取得（Unity：ScreenCapture.CaptureScreenshot、Unreal：HighResScreenshot）
入力送信（Unity：Input.SimulateTouch / New Input System、Unreal：Automation入力）

最初から完全自動を狙わない。「起動→巡回→撮る→評価→直す」の最小ループを確実に回す。

3. ワクワクする具体シナリオ 8選

(A) 丸投げプロトタイプ工場 ——「2Dローグライク作って」

一番刺さるシナリオから始めよう。人間は「2Dローグライク、ダンジョン自動生成、ターン制戦闘」とだけ指示する。あとはAIが勝手に回る。

Qwen3.5がUnityプロジェクトを作成、基本戦闘を実装
マップ自動生成ロジックを書く
ビルド → AIが自分でプレイする
スクショを見て「移動できない壁がある」「UIに情報が足りない」を検出
修正 → 再プレイ → 再評価
バランス調整、チュートリアル追加、UI改善を繰り返す

完全な製品は無理でも、遊べるα版が数日で出てくるのは現実的だ。実際、Rosebud AIでは7万人のクリエイターが自然言語だけで100万以上のゲームを作っており、「言葉→ゲーム」の距離は急速に縮まっている。

人間の役割は「何を面白いと思うか」の判断に集中する。反復と検証はAIに任せる。

(B) ゲーム進化エンジン ——「このゲームを3世代進化させて」

まるで遺伝的アルゴリズムでゲームを育てる。

現バージョンをベースに、Qwen3.5が改良版を2〜3パターン生成
それぞれビルド＆自動プレイ
スクショ＋ログで「どれが一番面白いか」を評価
勝者を次世代のベースにして、再び改良版を分岐
世代を重ねるたびにゲームが洗練されていく

NVIDIAのNitroGen（4万時間のゲームプレイ動画で訓練、1000+ゲームで動くゲーミングAI基盤モデル）が示すように、AIがゲームを「遊んで評価する」能力は急速に進化している。

「AIにゲームを作らせる」ではなく「AIにゲームを遊ばせて、進化させる」。ここが本質だ。

(C) AIが初見プレイヤーになる ——「このチュートリアル、分かりにくくない？」

従来の自動テストは「正解を知っている」。このシナリオは正解を知らない前提でゲームを触る。

Qwen3.5がスクショを見て「次に何を押すべきか？」を推論
OpenClawが入力を送信して実際に操作
詰まったら「ここで迷った：ボタンが見つからない」とログに残す
全画面を巡回して「迷いポイントマップ」を生成

使い道：チュートリアル導線、スキル解放UI、装備画面の操作性、ショップの購入フロー

プレイテスターを雇う前に、AIに「初見で触らせる」。人間のテスターは"慣れてしまう"が、AIは毎回初見だ。

(D) 敵を育てるAI ——「このボス、強いけど理不尽じゃない感じにして」

普通のテスト自動化は「バグがあるか」を見る。これは「体験の質」を調整する。

OpenClawがボスのAIパラメータ（攻撃頻度・回避確率・索敵範囲など）をJSON管理
PlayModeで100戦自動実行。勝率・被弾回数・平均戦闘時間を収集
要所でスクショを撮り、Qwen3.5に「理不尽感」を判定させる：
- 一瞬でHP蒸発してないか？
- 攻撃予兆が視認可能か？
- 回避の猶予はあるか？
統計＋視覚所見を合わせてパラメータ自動調整
AI人格を3種類に分割して検証も可能：脳筋型、慎重型、スピードラン型

「AIが敵AIを作る」より、「AIが敵AIを100回殴って、ちょうどいい強さに育てる」方が確実に機能する。

(E) UIデザイン・トーナメント ——「このショップ画面、もっとソシャゲっぽく」

AIデザイナー同士を戦わせる。

Qwen3.5がショップUIを3パターン自動生成（レイアウト・配色・情報密度を変えて）
それぞれビルド → スクショ取得
Qwen3.5が視認性・情報密度・色バランス・タップ領域を評価
「勝者」を採用、「敗者」のいいところを取り込んで改良版を再生成
トーナメント形式で収束させる

VLMのゲームQA精度の裏付け：NeurIPS 2025で発表されたVideoGameQA-Benchでは、最新VLMがゲーム画面のグリッチを82.8%の精度で検出、バグレポートも50%のケースで実用レベルの品質で自動生成できることが確認されている（Sony Interactive Entertainment共同研究）。

デザイナーの「感覚」をAI同士で戦わせる。人間は最終ジャッジだけすればいい。

(F) AIが自分のゲームを実況する ——「初見実況してみて」

プレイテスターと実況者を兼ねるAI。

Qwen3.5がスクショを見ながらゲームをプレイ
プレイしながら状況を実況：「この部屋に入った。敵が3体。回復アイテムが見当たらない」
問題点をリアルタイムでコメント：「ここ理不尽。回避不能攻撃が連続」「ここは分かりやすい。矢印の誘導が効いてる」
全プレイ後にサマリーレポート生成

使い道：レベルデザインの検証、難易度カーブの確認、ストーリー演出の没入感チェック

人間のプレイテスターは1日に数回しか「初見」できない。AIは何度でも初見になれる。

(G) スキル破壊実験AI ——「この魔法、悪用できない？」

人間より悪用が上手いAIを味方につける。

全スキルの組み合わせを自動探索（1000パターン以上）
異常ダメージ、無限ループ、ハメ技を検出
スクショで「画面崩壊」（描画破綻、UIオーバーフロー）も確認
検出した壊れコンボをレポート化＋自動ナーフ提案

リリース前に「AIに壊してもらう」。プレイヤーに壊される前に。

(H) 世界観整合チェックAI ——「この街、雰囲気バラバラじゃない？」

QAではなく美術監督として機能する。

全シーンのスクショを取得
Qwen3.5がカラーパレット、ライティングの方向性、UIフォントの一貫性を解析
世界観から逸脱している箇所を警告：「このシーンだけ暖色系。他は全部寒色」
修正案を提示（マテリアルカラー調整、ポストプロセス設定の統一など）

バグ検出ではなく「雰囲気の統一」。1人で開発しているインディーにこそ刺さる機能。

4. 既に起きていること

「未来の話」ではない。2025〜2026年に既に実証されている事例を並べる。

プロジェクト	何をやったか	結果
OpenClaw自律パイプライン	AIがゲームのビルド→テスト→バグ修正→機能追加を自律実行	7分に1回のペースで修正/追加を回す実装を公開
Codex Mortis	ChatGPT（アート）＋Claude Code（シェーダー）で弾幕ローグライトを制作	100% AI製ゲームとしてSteamにプレイアブルデモ公開。開発期間3ヶ月
Rosebud AI	自然言語の説明だけでゲームを生成する「vibe coding」プラットフォーム	7万人が100万以上のゲームを作成。平均セッション3時間超
NVIDIA NitroGen	4万時間のゲームプレイ動画で訓練したゲーミングAI基盤モデル	1000以上のゲームで動作。未知のゲームでも成功率52%向上
Google Genie 3	テキストプロンプトからプレイ可能な3D世界をリアルタイム生成	24fps 720pで一貫性のある3D世界を生成・操作可能
VideoGameQA-Bench	VLMによるゲームバグ検出の精度を大規模ベンチマーク	グリッチ検出82.8%精度、バグレポート自動生成50%実用レベル（NeurIPS 2025）
Google Cloud調査	ゲーム開発者615名への大規模アンケート	90%が既にAIを使用中。47%がプレイテスト/バランシングに適用

5. ツール選びとリスク管理

Qwen3.5：脳と目を兼ねる中核モデル

Qwen3.5-9B（ローカル推奨）：RTX 3090/4090が1枚あれば動く。コード生成も画面評価もこれ1本。APIコストゼロ
Qwen3.5-397B MoE（API）：最高精度。DashScope APIで無料枠100万トークン
Qwen3-VL-8B（代替）：VLM専用。空間理解・OCR特化。ollama run qwen3-vl:8b

安全設計

自律実行が強力なほど、暴走リスクも上がる。OpenClawのスキルマーケットプレイス（ClawHub）では悪性スキル混入が報告されている。

隔離実行：ビルド/テストはVM・コンテナで。ホスト環境と切り離す
最小権限：Gitトークン、Discordトークンは権限を最小に
PR必須：OpenClawが直接mainに触らない。必ず差分レビュー
危険操作の手動承認：リリース、課金設定、証明書更新は自動化しない

OpenClawは"同僚"ではなく、権限を制御された外注ロボとして扱うと安全に回る。

6. 結論：「1人を1.5人にする」のは今すぐ可能

OpenClaw + Qwen3.5は、AIに「手足」「脳」「目」をすべて与える構成だ。オープンソース同士の組み合わせで、ローカル完結・APIコストゼロ。

ゲームを完全に丸投げして完成させる未来は、まだ少し先にある。だが「AIに遊ばせて、進化させる」サイクルはもう動いている。プロトタイプの自律生成、初見AIプレイテスト、ボスバランスの自動収束、UIのトーナメント選定、壊れコンボの事前検出——これらは来週から試せる温度感だ。

Google Cloudの調査によれば、ゲーム開発者の90%が既にAIを使用し、47%がプレイテストとバランシングに適用している。問題は「AIを使うかどうか」ではなく「どこまで任せるか」になった。

まずは1シナリオから。AIに「遊ばせて」みてほしい。ゲーム開発の重心が、きっと変わる。