生成AI(画像・文章・音声・3Dなどを作るAI)がゲーム開発に浸透するほど、避けて通れないのが 「学習データは無限ではない」という現実です。さらに、集められるデータが減るほど 「どの作品を、どんな根拠で学習に使ったのか」という倫理・権利の論争が激しくなります。 2026年は、この2つが同時に表面化して「転換点」になりやすい年として語られています。
しかし、この問題には一つの逆転の発想がある。
AI時代の希少資源は「データ」ではない。
評価である。
AIはもうデータを大量に生成できる。足りないのは「どれが良くて、どれがダメか」を判断する人間の目だ。 そしてその評価こそが、次世代AIの最も価値ある学習データになる——。 本記事ではデータ枯渇の実態を整理した上で、この「逆転」がゲーム業界に何をもたらすかを論じる。
1. 「データ枯渇」とは何か:なぜ“2026年”が転換点と言われるのか
データ枯渇(Data Scarcity / Data Wall)=「質の高い学習データ」が足りなくなる現象
ここで言う“枯渇”は「インターネットが消える」という話ではなく、AIの性能向上に効きやすい 高品質で大規模な学習データ(人間が書いた良い文章、権利的にクリーンな画像、構造化された3D等)が、 成長スピードに追いつかなくなる、という意味です。
代表的な研究として、Epoch系の研究者らによる論文は「現状トレンドのままだと、公開されている人間生成テキストの“総量”に対して、 LLMが学習で消費する量が2026〜2032年ごろに追いつく可能性」を示しました (=“在庫を使い切る”タイミングが来る)。arXiv:2211.04325
また同趣旨の内容は一般メディアでも広く紹介され、「人間が書いた公開テキストが早ければ2026年ごろに足りなくなる可能性」 という見立ても報じられています。PBS / AP通信
ただし“いつ枯渇するか”は揺れる(2026説〜2028説)
同じEpoch側でも推計方法の更新により「高品質テキストが尽きる時期は2028年ごろかもしれない」との見直しも出ています。 Epoch AI(ブログ)
つまり「2026年に確実に終了」というより、2026年は (1)在庫が見え始める+(2)データが有料化・囲い込みされる+(3)法規制・権利主張が強まる が重なることで、業界の実務として“転換点になりやすい”という理解が現実的です。
2. 学習データの限界:テキスト・画像・3Dはそれぞれ事情が違う
テキスト:公開Webは「量」より「質」と「権利」がボトルネック
LLMの学習では、単に大量の文字があれば良いわけではなく、 ノイズが少ない/専門性がある/重複が少ないテキストが効きやすいと言われます。 しかし高品質テキストは増え方が遅く、AI側の学習需要が急増するため“壁”が語られます。arXiv:2211.04325
さらに近年は、プラットフォームや出版社がデータ提供を契約化・有料化し、 「スクレイピングして無料で集める」前提が崩れやすくなっています(=量はあっても使えない)。
画像:公開画像も豊富だが「権利のクリアさ」と「汚染(AI画像の混入)」が問題に
画像はネット上に膨大に存在しますが、ゲーム制作で本当に欲しいのは 権利的に説明できる学習元と、アートスタイル的に使える高品質データです。 加えて、ネット上にAI生成画像が大量に増えることで「AIがAIを学習する割合」が上がり、 品質が劣化する(いわゆる“モデル崩壊”“データ汚染”)の懸念も指摘されています。The Guardian
3Dモデル:そもそも“データが少ない・偏る”が深刻
3Dはテキストや2D画像ほど公開データが多くありません。しかも、 商用アセットやゲーム内モデルは権利が複雑で、勝手に集めにくい領域です。 3Dデータ不足が学習の課題になることは、研究レビューでも明示的に触れられています。 MDPI Sensors(2025)
結果として3D生成AIは「高価なクリーンデータを確保できる企業が強い」構図になりやすく、 インディーや小規模スタジオほど“ツールはあっても学習データや権利整理が追いつかない”状況が起きます。
3. アーティスト/開発者の権利問題:著作権と「学習元の同意」
論点1:著作物を“学習に使うだけ”でも許諾が必要なのか?
国や制度によって結論が違うため、ここが大炎上ポイントです。 たとえば日本は、著作権法の「情報解析(TDM)」例外が比較的広いと整理される一方、 違法アップロード等の侵害物を“知りながら”学習に取り込むと責任を問われうる、という方向性も示されています。 文化庁資料(英語PDF) / WIPO掲載資料(日本の整理)
論点2:学習によって“作風の模倣”が可能になったとき、誰の権利をどう守る?
画像・音声・文章で「○○風」が量産できると、創作者側は 仕事の機会喪失や人格的利益(名誉・信用)の侵害を懸念します。 EUでもこの対立は強く、AI法(AI Act)が“著作権遵守”を求めつつも、 権利者保護が十分かどうかを巡って批判が続いています。The Guardian(EUの論争)
4. 各国のAI規制動向:EU AI Act/日本/米国(2026年3月時点の見取り図)
EU:AI Actで「汎用AI(GPAI)」に透明性・著作権対応を要求
EUのAI Actは、リスクベースでAIを規律し、特に汎用AIモデル(GPAI)提供者に 透明性や著作権遵守に関する義務を課す枠組みを整えています。 欧州委員会は、生成AI向けの「Code of Practice(実務の手引き)」も提示し、 透明性・著作権・安全性を章立てで整理しています。 EU公式(AI Actの枠組み) / EU公式(GPAI Code of Practice)
ポイントは、単に「危ないAIは禁止」ではなく、 どんなデータで学習したかの説明(少なくとも要約)や 権利者の扱いを“制度として”求める方向に動いていることです。
日本:推進とリスク対応を両立する枠組み+政府利用ガイドライン
日本では「AIの研究開発・利活用を促進しつつリスクにも対応する」枠組みが整備された、という整理があります。 Araki Law(2026年の整理) / IBA(2025年の整理)
また、政府機関での生成AI利用についてのガイドライン(調達・ガバナンス・リスク管理)も公開されています。 デジタル庁ガイドライン(2025年PDF)
米国:連邦の方向性+州法の“パッチワーク”を巡る綱引き
米国はEUのような包括法よりも、行政命令・ガイダンス・州法が混在しやすい構造です。 2025年末には「州ごとのAI規制を抑える」趣旨の大統領令が出たとされ、 連邦主導の方針を強める動きが報じられました。 ホワイトハウス(大統領令) / AP通信(報道)
一方で、2026年1月時点で複数州のAI関連法が施行されている、という業界向け整理も出ています。 Baker Botts(2026年1月の整理)
5. ゲーム業界固有の問題:MODデータ/ユーザー生成コンテンツ(UGC)
MODは“宝の山”だが、権利がさらに複雑
MODには、既存IPの改変、他作品のアセット流用、コミュニティ独自の素材などが混ざりやすく、 学習データにすると「誰の権利を侵害しているか」が非常に追いにくくなります。 実際に、Skyrimの対話データで学習したAIフォロワーMODがDMCAで問題化した事例なども紹介されています。 ScoreDetect(MODと法的論点)
UGC(ユーザー生成コンテンツ)は“同意”の設計が勝負
マップ、スキン、テキスト、ボイス等をユーザーが作るゲームでは、 そのUGCを運営側がAI学習に使うのか、使うなら規約でどう説明し同意を取るのかが重要になります。 「投稿した瞬間に学習OK」だと反発が強くなりやすく、 オプトイン(明示同意)かオプトアウトか、 あるいは収益分配まで含めた設計が求められます。
ストア側の透明性要求:SteamのAI申告など
ゲーム配信プラットフォーム側も対応を進めています。Steamは開発者向けにAI利用の申告を含む仕組みを導入しており、 「AI使用の開示をもっと目立たせたい」という動き(拡張機能)まで出ています。 Steamworks告知 / GamesRadar(拡張機能)
6. 業界の対応策:データ枯渇と権利問題をどう乗り越えるか
(1)“クリーンデータ”を買う/契約する(ただし高コスト)
出版社・プラットフォーム・アセットストア等とライセンス契約を結び、権利を整理したデータで学習する方向です。 最も安全ですが、資本力が必要で、業界格差を広げる可能性があります。
(2)合成データ(Synthetic Data)の活用(ただし“汚染”リスクとセット)
不足分をAIが作ったデータで補う手法は有力ですが、 「AIがAIを学習し続けると品質が崩れる」懸念もあります。 そのため合成データは、ルールに基づく生成(シミュレーション)や、 検証可能なデータ生成パイプラインとして扱うのが現実的です。 NVIDIAも、データが“希少・サイロ化・センシティブ”な場面での合成データ生成をユースケースとして強調しています。 NVIDIA(Synthetic Dataの考え方)
(3)データ効率を上げる:小型化・専門特化・人間の監修
「巨大モデルを巨大データで学習」一辺倒ではなく、 用途を絞った小型モデルや、追加学習(ファインチューニング)、 人間のレビューでデータ品質を上げる方向が重要になります。 データが有限だと分かるほど、“どのデータで賢くするか”が勝負になります。
(4)透明性と同意:規約・表示・クレジット・報酬の仕組み
EUの透明性要請の流れもあり、今後は 「学習に何を使ったか」「権利者の意思はどう反映したか」を説明できる企業・スタジオが強くなります。 EU公式(GPAI Code of Practice)
7. AIはデータを作れる。足りないのは「人間の評価」だ
ここまで読んで「データが足りないなら、もう打つ手がないのか」と思うかもしれない。
答えはNoだ。発想を逆転させると全く違う景色が見えてくる。
データ枯渇は「データが無くなる問題」ではない。
「評価付きデータが足りない問題」だ。
AIはもうデータを作れる。テキストも、画像も、コードも、ゲームのステージも、大量に生成できる。 足りないのは、その中から「どれが良くて、どれがダメか」を判断するデータだ。 そしてその判断は、まだ人間にしかできない。
人間がデータを作る → AIが学習する
これからのAI学習
AIがデータを生成する → 人間が評価する → 評価付きデータでAIが再学習する
既に動いているループ:RLHF
この構造は、既にRLHF(Reinforcement Learning from Human Feedback)として 主要なLLM訓練の中核技術になっている。 AIが複数の回答を生成し、人間が「どちらが良いか」を判定し、 その評価データで報酬モデルを学習し、AIを再訓練する。
AIが大量生成(=量)→ 人間が評価(=質)→ 評価付きデータで再学習 → AIが改善 → さらに生成 …
つまり人間が全部作る必要はもうない。 「AI生成=量の担当」「人間評価=質の担当」に役割が分離される。
落とし穴:モデル崩壊と報酬ハッキング
ただし、このループには2つの大きな落とし穴がある。
- モデル崩壊:AIの出力だけで学習を繰り返すと、レアケースが消え、平均的なものだけ残る。多様性が死ぬ
- 報酬ハッキング:AIは「良い答え」ではなく「良く見える答え」を作り始める。評価基準を攻略してしまう
だからこそ、人間の目が不可欠であり続ける。 AIだけで回すとループが劣化する。人間が介入することで初めて品質が保たれる。
8. 「作れる人」より「見抜ける人」——評価力が資産になる時代
ここからが核心だ。 人間の評価にも価値の差がある。
- 素人の「いいね / ダメ」
- ゲームデザイナーの「このバランスは破綻してる。攻撃頻度を下げてヒット確認を入れるべき」
- プロのアーティストの「このライティングは物理的に不自然。光源の方向と影が矛盾してる」
どれも「評価」だが、AIの学習データとしての価値はまるで違う。 専門家の評価そのものが、希少で有料な情報になる。 これはもはや「データを作る能力」ではなく「データを見抜く能力」が資産になるということだ。
既に始まっている「評価の産業化」
この変化は既に巨大な産業になっている。
- Scale AI(2024年売上8.7億ドル):AI評価・ラベリングを大規模に提供。OpenAI、Microsoft、Metaなどが顧客
- Surge AI(年商10億ドル超):RLHF専門の人間評価データ提供
- Invisible / Mercor:専門家マーケットプレイス型。医師、法律家、プログラマーにAI評価を依頼できる
しかも最近は、安価なラベラーから高給の専門家評価者へのシフトが加速している。 専門家がAI評価の仕事で通常より20〜30%高い報酬を得るケースも報じられている。 評価力=高付加価値は、もう現実だ。
ゲーム開発は「作る」から「選ぶ」にシフトする
ゲーム業界に当てはめると、こうなる:
- AIが1000ステージを自動生成する。ゲームデザイナーの仕事は「面白い10個を選ぶ」こと
- AIが敵AIを100種類作る。プランナーの仕事は「プレイして良い3つを採用する」こと
- AIがUIを100パターン作る。UXデザイナーの仕事は「最適なものを見抜く」こと
今まで「作れる人」が価値だった。AI時代は「良いものを見抜く人」が価値になる。 これはアート業界のキュレーター経済と同じ構造だ。 絵を描く人だけでなく、どの絵に価値があるかを判断するキュレーターやコレクターが市場を動かす—— ゲーム開発にも同じ転換が来る。
AIが1000個のゲームを作る世界では、
価値を持つのは「1000個を作る能力」ではない。
「10個を選べる能力」である。
9. 今後の展望:2026年以降に起きそうなこと
- AI時代の資産は「GPU→データ→評価」へシフトする:データの確保だけでなく、それを評価できる専門家の確保が競争力になる
- 「作る人」から「選ぶ人」へ:AIが大量生成する時代、人間の役割は「面白さ」「正しさ」「美しさ」を判定するキュレーターになる
- 法規制は「禁止」より「説明責任」へ:透明性・著作権遵守・リスク管理が求められる方向(EUが先行)
- ゲーム業界はUGC時代の”同意設計”が核:コミュニティの信頼が、AI活用の成否を左右する
- ”人間の創作”の価値が再定義される:AI生成物の洪水の中で、制作過程の説明・作家性・評価力が差別化要因になる
まとめ
AIはデータを作れるようになった。テキストも、画像も、コードも、ゲームのステージも。
しかし「どのデータが価値を持つか」を判断する能力は、依然として人間に残っている。
AI時代の希少資源はデータではない。
評価である。
「データ枯渇(2026年問題)」は、AIが突然止まる話ではなく、 高品質で権利的にクリーンなデータが、AIの成長スピードに追いつかなくなるという構造問題だ。 だがAIが生成し、人間が評価し、その評価が次のデータになる——このループが回る限り、 「高品質データ」は生まれ続ける。 arXiv:2211.04325 / Epoch AI / EU公式
ゲーム業界では特に、MODやUGCが絡むことで”権利の出どころ”が曖昧になりやすく、 透明性と同意の設計がこれまで以上に重要になる。 今後は「AIを使うかどうか」ではなく、 どういうデータで、誰の権利をどう尊重し、何をプレイヤーに説明するのかが、 スタジオやプラットフォームの信頼を決めるテーマになっていくはずだ。
そして「良いものを見抜く力」を持つ人間の価値は、AI時代においてむしろ高まっていく。
枯渇するのは生データであり、人間の判断力という資源は枯渇しない。
参考ソース
- Will we run out of data? An analysis of the limits of scaling datasets in Machine Learning(arXiv)
- Will we run out of data? Limits of LLM Scaling(Epoch AI)
- AI training data could run out as early as 2026(PBS)
- EU AI Act - Regulatory Framework(EU公式)
- AI and Copyright in Japan(文化庁)
- Steam AI Disclosure Requirements(Steamworks)
- Synthetic Data Generation for AI(NVIDIA公式)


コメント