OpenClaw×Qwen3.5でゲーム開発を自律化 — AIが「遊んで、進化させる」時代

ゲーム制作技術

1. 「AIにゲームを作らせる」ではない。「AIにゲームを遊ばせて、進化させる」

「こういうゲーム作って」→ AIが作る → AIが実際にプレイする → 「ここ面白くない」と判断する → 修正する → また遊ぶ——このループが、もう手の届くところにある。

鍵になるのは2つのオープンソースだ。

  • OpenClaw:AIに「手足」を与える自律エージェントフレームワーク。コード生成・ビルド・テスト・Git操作・PR作成を自動で回す
  • Qwen3.5:Alibaba発のネイティブマルチモーダルLLM。コードを書く「脳」とゲーム画面を見る「目」を1つのモデルで兼任。UIスクリーンショットで訓練済み。Apache 2.0でローカル実行可能、APIコストゼロ

従来のCopilot系ツールは「コードを提案する」止まりだった。OpenClaw + Qwen3.5は「コードを書いて、ビルドして、実際に遊んで、ダメだったら直す」を全部自律でやる。

既に現実になりつつある事例:OpenClawの自律ゲーム開発パイプラインでは「Bugs First」ポリシーで7分に1回のペースでゲーム修正/機能追加を回す実装が公開されている。また「Codex Mortis」はChatGPTでアート、Claude Codeでシェーダーを開発し、100% AI製ゲームとしてSteamにプレイアブルデモを公開した。

本稿では、Unity / Unreal Engineユーザーが「これ、来週から試せる」と思えるシナリオを中心に紹介する。

2. アーキテクチャ:手足+脳+目

構成はシンプルだ。

  • OpenClaw = 手足:ファイル操作、ビルド実行、テスト、Git操作、PR作成を自律的に回す
  • Qwen3.5 = 脳+目:コード生成・判断(脳)とスクリーンショット解析(目)を1モデルで兼任

自律ループ

人間の一言指示 → Qwen3.5がコード生成 → OpenClawがビルド&実行 → スクショ取得 → Qwen3.5が「これでいいか?」を視覚判定 → 修正 → 再ビルド → 再評価 …(自律で回り続ける)

Unity / Unrealとの接続

MCPブリッジ(Unity MCP、Unreal MCP)はGitHubに複数あるが、2026年3月時点ではコミュニティ実装が中心。実務では以下が確実に動く。

  • バッチモード起動(Unity:-batchmode -executeMethod、Unreal:コマンドライン自動化)
  • 自動テストでシーン巡回(Unity Test Framework / Unreal Automation System)
  • スクショ取得(Unity:ScreenCapture.CaptureScreenshot、Unreal:HighResScreenshot
  • 入力送信(Unity:Input.SimulateTouch / New Input System、Unreal:Automation入力)

最初から完全自動を狙わない。「起動→巡回→撮る→評価→直す」の最小ループを確実に回す。

3. ワクワクする具体シナリオ 8選

(A) 丸投げプロトタイプ工場 ——「2Dローグライク作って」

一番刺さるシナリオから始めよう。人間は「2Dローグライク、ダンジョン自動生成、ターン制戦闘」とだけ指示する。あとはAIが勝手に回る。

  1. Qwen3.5がUnityプロジェクトを作成、基本戦闘を実装
  2. マップ自動生成ロジックを書く
  3. ビルド → AIが自分でプレイする
  4. スクショを見て「移動できない壁がある」「UIに情報が足りない」を検出
  5. 修正 → 再プレイ → 再評価
  6. バランス調整、チュートリアル追加、UI改善を繰り返す

完全な製品は無理でも、遊べるα版が数日で出てくるのは現実的だ。実際、Rosebud AIでは7万人のクリエイターが自然言語だけで100万以上のゲームを作っており、「言葉→ゲーム」の距離は急速に縮まっている。

人間の役割は「何を面白いと思うか」の判断に集中する。反復と検証はAIに任せる。

(B) ゲーム進化エンジン ——「このゲームを3世代進化させて」

まるで遺伝的アルゴリズムでゲームを育てる。

  1. 現バージョンをベースに、Qwen3.5が改良版を2〜3パターン生成
  2. それぞれビルド&自動プレイ
  3. スクショ+ログで「どれが一番面白いか」を評価
  4. 勝者を次世代のベースにして、再び改良版を分岐
  5. 世代を重ねるたびにゲームが洗練されていく

NVIDIAのNitroGen(4万時間のゲームプレイ動画で訓練、1000+ゲームで動くゲーミングAI基盤モデル)が示すように、AIがゲームを「遊んで評価する」能力は急速に進化している。

「AIにゲームを作らせる」ではなく「AIにゲームを遊ばせて、進化させる」。ここが本質だ。

(C) AIが初見プレイヤーになる ——「このチュートリアル、分かりにくくない?」

従来の自動テストは「正解を知っている」。このシナリオは正解を知らない前提でゲームを触る

  1. Qwen3.5がスクショを見て「次に何を押すべきか?」を推論
  2. OpenClawが入力を送信して実際に操作
  3. 詰まったら「ここで迷った:ボタンが見つからない」とログに残す
  4. 全画面を巡回して「迷いポイントマップ」を生成

使い道:チュートリアル導線、スキル解放UI、装備画面の操作性、ショップの購入フロー

プレイテスターを雇う前に、AIに「初見で触らせる」。人間のテスターは"慣れてしまう"が、AIは毎回初見だ。

(D) 敵を育てるAI ——「このボス、強いけど理不尽じゃない感じにして」

普通のテスト自動化は「バグがあるか」を見る。これは「体験の質」を調整する

  1. OpenClawがボスのAIパラメータ(攻撃頻度・回避確率・索敵範囲など)をJSON管理
  2. PlayModeで100戦自動実行。勝率・被弾回数・平均戦闘時間を収集
  3. 要所でスクショを撮り、Qwen3.5に「理不尽感」を判定させる:
    • 一瞬でHP蒸発してないか?
    • 攻撃予兆が視認可能か?
    • 回避の猶予はあるか?
  4. 統計+視覚所見を合わせてパラメータ自動調整
  5. AI人格を3種類に分割して検証も可能:脳筋型、慎重型、スピードラン型

「AIが敵AIを作る」より、「AIが敵AIを100回殴って、ちょうどいい強さに育てる」方が確実に機能する。

(E) UIデザイン・トーナメント ——「このショップ画面、もっとソシャゲっぽく」

AIデザイナー同士を戦わせる。

  1. Qwen3.5がショップUIを3パターン自動生成(レイアウト・配色・情報密度を変えて)
  2. それぞれビルド → スクショ取得
  3. Qwen3.5が視認性・情報密度・色バランス・タップ領域を評価
  4. 「勝者」を採用、「敗者」のいいところを取り込んで改良版を再生成
  5. トーナメント形式で収束させる

VLMのゲームQA精度の裏付け:NeurIPS 2025で発表されたVideoGameQA-Benchでは、最新VLMがゲーム画面のグリッチを82.8%の精度で検出、バグレポートも50%のケースで実用レベルの品質で自動生成できることが確認されている(Sony Interactive Entertainment共同研究)。

デザイナーの「感覚」をAI同士で戦わせる。人間は最終ジャッジだけすればいい。

(F) AIが自分のゲームを実況する ——「初見実況してみて」

プレイテスターと実況者を兼ねるAI。

  1. Qwen3.5がスクショを見ながらゲームをプレイ
  2. プレイしながら状況を実況:「この部屋に入った。敵が3体。回復アイテムが見当たらない」
  3. 問題点をリアルタイムでコメント:「ここ理不尽。回避不能攻撃が連続」「ここは分かりやすい。矢印の誘導が効いてる」
  4. 全プレイ後にサマリーレポート生成

使い道:レベルデザインの検証、難易度カーブの確認、ストーリー演出の没入感チェック

人間のプレイテスターは1日に数回しか「初見」できない。AIは何度でも初見になれる。

(G) スキル破壊実験AI ——「この魔法、悪用できない?」

人間より悪用が上手いAIを味方につける。

  1. 全スキルの組み合わせを自動探索(1000パターン以上)
  2. 異常ダメージ、無限ループ、ハメ技を検出
  3. スクショで「画面崩壊」(描画破綻、UIオーバーフロー)も確認
  4. 検出した壊れコンボをレポート化+自動ナーフ提案

リリース前に「AIに壊してもらう」。プレイヤーに壊される前に。

(H) 世界観整合チェックAI ——「この街、雰囲気バラバラじゃない?」

QAではなく美術監督として機能する。

  1. 全シーンのスクショを取得
  2. Qwen3.5がカラーパレット、ライティングの方向性、UIフォントの一貫性を解析
  3. 世界観から逸脱している箇所を警告:「このシーンだけ暖色系。他は全部寒色」
  4. 修正案を提示(マテリアルカラー調整、ポストプロセス設定の統一など)

バグ検出ではなく「雰囲気の統一」。1人で開発しているインディーにこそ刺さる機能。

4. 既に起きていること

「未来の話」ではない。2025〜2026年に既に実証されている事例を並べる。

プロジェクト何をやったか結果
OpenClaw自律パイプラインAIがゲームのビルド→テスト→バグ修正→機能追加を自律実行7分に1回のペースで修正/追加を回す実装を公開
Codex MortisChatGPT(アート)+Claude Code(シェーダー)で弾幕ローグライトを制作100% AI製ゲームとしてSteamにプレイアブルデモ公開。開発期間3ヶ月
Rosebud AI自然言語の説明だけでゲームを生成する「vibe coding」プラットフォーム7万人が100万以上のゲームを作成。平均セッション3時間超
NVIDIA NitroGen4万時間のゲームプレイ動画で訓練したゲーミングAI基盤モデル1000以上のゲームで動作。未知のゲームでも成功率52%向上
Google Genie 3テキストプロンプトからプレイ可能な3D世界をリアルタイム生成24fps 720pで一貫性のある3D世界を生成・操作可能
VideoGameQA-BenchVLMによるゲームバグ検出の精度を大規模ベンチマークグリッチ検出82.8%精度、バグレポート自動生成50%実用レベル(NeurIPS 2025)
Google Cloud調査ゲーム開発者615名への大規模アンケート90%が既にAIを使用中。47%がプレイテスト/バランシングに適用

5. ツール選びとリスク管理

Qwen3.5:脳と目を兼ねる中核モデル

  • Qwen3.5-9B(ローカル推奨):RTX 3090/4090が1枚あれば動く。コード生成も画面評価もこれ1本。APIコストゼロ
  • Qwen3.5-397B MoE(API):最高精度。DashScope APIで無料枠100万トークン
  • Qwen3-VL-8B(代替):VLM専用。空間理解・OCR特化。ollama run qwen3-vl:8b

安全設計

自律実行が強力なほど、暴走リスクも上がる。OpenClawのスキルマーケットプレイス(ClawHub)では悪性スキル混入が報告されている。

  • 隔離実行:ビルド/テストはVM・コンテナで。ホスト環境と切り離す
  • 最小権限:Gitトークン、Discordトークンは権限を最小に
  • PR必須:OpenClawが直接mainに触らない。必ず差分レビュー
  • 危険操作の手動承認:リリース、課金設定、証明書更新は自動化しない

OpenClawは"同僚"ではなく、権限を制御された外注ロボとして扱うと安全に回る。

6. 結論:「1人を1.5人にする」のは今すぐ可能

OpenClaw + Qwen3.5は、AIに「手足」「脳」「目」をすべて与える構成だ。オープンソース同士の組み合わせで、ローカル完結・APIコストゼロ。

ゲームを完全に丸投げして完成させる未来は、まだ少し先にある。だが「AIに遊ばせて、進化させる」サイクルはもう動いている。プロトタイプの自律生成、初見AIプレイテスト、ボスバランスの自動収束、UIのトーナメント選定、壊れコンボの事前検出——これらは来週から試せる温度感だ。

Google Cloudの調査によれば、ゲーム開発者の90%が既にAIを使用し、47%がプレイテストとバランシングに適用している。問題は「AIを使うかどうか」ではなく「どこまで任せるか」になった。

まずは1シナリオから。AIに「遊ばせて」みてほしい。ゲーム開発の重心が、きっと変わる。

参考ソース

コメント

タイトルとURLをコピーしました