オススメ機能: お気に入り; 記事履歴; ランキング

記事検索
ゲームタイトル/メーカー名検索
詳細な検索へ

スマホ

スマホ: iOSニュース; Androidニュース; 事前登録; セール情報; 注目のアプリ; インタビュー; ムービー; iOSゲーム一覧; Androidゲーム一覧

▼その他 PSV 3DS

バンダイナムコエンターテインメント
発売日：2024/05/16
価格：基本プレイ無料＋アイテム課金

学園アイドルマスター

ニュース（49）
特集（10）
レビュー（10）
ムービー（15）

お気に入りタイトル/ワード

タイトル/ワード名（記事数）

最近記事を読んだタイトル/ワード

タイトル/ワード名（記事数）

週刊連載

Features

発売スケジュール

LINEで4Gamerアカウントを登録

人間よりAIのほうがレッスン上手？「学マス」で新カードのバランス調整を迅速かつ確実にするための“AI開発手法”とは［CEDEC 2024］

特集記事一覧

注目のレビュー

注目のムービー

問い合わせ

メディアパートナー

トップ>iPhone/iPad/Android>シミュレーション>学園アイドルマスター

2024/08/22 17:36

イベント

人間よりAIのほうがレッスン上手？「学マス」で新カードのバランス調整を迅速かつ確実にするための“AI開発手法”とは［CEDEC 2024］

ライター：高橋祐介

　ゲーム開発者向けカンファレンス「CEDEC 2024」の初日（2024年8月21日），スマホゲーム「学園アイドルマスター」（以下，学マス）の講演「『学園アイドルマスター』における適応的ゲームAIとグレーボックス最適化を用いたバランス調整支援システムの実現」が行われた。

　学マスではこれまで，深層強化学習によるカードゲームAIと，デッキ探索を用いたバランス調整支援システムを開発し，新規実装カードのバランス調整に活用してきたという。これらについて講演では，カードゲームのバランス調整支援にAIを活用する考え方や，最新のマスターデータにも適応するゲームAIの開発手法などが伝えられた。

左からサイバーエージェントゲーム・エンターテイメント事業部 AI戦略本部リサーチエンジニアの**伊原滉也氏**，QualiArtsの**那須勇弥氏**

　まずは那須氏より「バランス調整の課題」について説明された。学マスではカードデッキを組み，育成パート「レッスン」では山札から手札を引いてプレイするが，カードがもたらす効果は状況により変動する。

　そのため組み合わせ次第では，いわゆるバランスブレイカー的なカードが存在していても，人力で確実に見つけることは難しい。

　そこでグレーボックス最適化により，膨大な組み合わせのなかから有力なデッキを探す「デッキ探索AI」と，深層強化学習であらゆるプレイングを試す「レッスンAI」を作成・連携させて対処することにした。

画像集 No.002のサムネイル画像 / 人間よりAIのほうがレッスン上手？「学マス」で新カードのバランス調整を迅速かつ確実にするための“AI開発手法”とは［CEDEC 2024］

画像集 No.003のサムネイル画像 / 人間よりAIのほうがレッスン上手？「学マス」で新カードのバランス調整を迅速かつ確実にするための“AI開発手法”とは［CEDEC 2024］

　学マスは運営型タイトルであり，短いスパンで新カードが追加されていくことも課題とされた。ひと月に何度も新カードが実装されるワークフローにおいて，AIの学習時間に10日以上もかかってしまうようでは，バランス調整後の検証時間も取れなくなってしまうためだ。

　そこで，スクラッチした学習モデルに，追加データ分を転移学習させるアプローチを試みた。これによりスクラッチ学習を繰り返すよりも効率的に対応でき，従来は10日以上かかっていた学習時間を“10時間程度まで短縮”したという。同時に「プランナー側でシミュレートを完結させられるバランス調整支援システム」が誕生することとなった。

画像集 No.004のサムネイル画像 / 人間よりAIのほうがレッスン上手？「学マス」で新カードのバランス調整を迅速かつ確実にするための“AI開発手法”とは［CEDEC 2024］

　システムの開発体制は，以下のスライドのとおり。

　QualiArts側はインゲームロジック開発とバランス調整支援システムのWebアプリケーション/インフラ構築を担当し，サイバーエージェント側はデッキ探索AIとレッスンAIの開発を受け持っている。

画像集 No.005のサムネイル画像 / 人間よりAIのほうがレッスン上手？「学マス」で新カードのバランス調整を迅速かつ確実にするための“AI開発手法”とは［CEDEC 2024］

バランス調整支援システムとは？

　各論に移る前に，那須氏よりバランス調整支援システムの概要が説明された。前述のとおり，レッスンAIは初回だけスクラッチ学習でモデルを作り，以降はマスターデータの追加に合わせて移転学習を行う。

　そのあと，ゲームに新規追加されたカードを中心にデッキ探索を行い，シミュレーションを繰り返して結果を確認したあと，問題がなければ正式リリースされる流れになっているという。

画像集 No.006のサムネイル画像 / 人間よりAIのほうがレッスン上手？「学マス」で新カードのバランス調整を迅速かつ確実にするための“AI開発手法”とは［CEDEC 2024］

　スクラッチ学習と移転学習については，プレイイングを大別し，キャラクター属性「センス」と「ロジック」に分けて進められる。

　これらのコンソールはメタデータを管理する形で，モデルの実体はW&B（開発者向けコラボレーションプラットフォーム）に保持。機械学習につきもののパラメータ入力は不要で，知識がなくても扱いやすい。

画像集 No.007のサムネイル画像 / 人間よりAIのほうがレッスン上手？「学マス」で新カードのバランス調整を迅速かつ確実にするための“AI開発手法”とは［CEDEC 2024］

　学習実行のコアロジックはUnityリポジトリに実装され，.NETランタイムでも動かせるように設計と実装を対応させている。これをPythonで実装したレッスンAIがソケット通信によりプレイ（学習）するわけだ。

画像集 No.008のサムネイル画像 / 人間よりAIのほうがレッスン上手？「学マス」で新カードのバランス調整を迅速かつ確実にするための“AI開発手法”とは［CEDEC 2024］

　この形でAIモデル管理と学習実行をするうえでの課題は，モデルがなにを学習したのか分かりづらいこと，モデル自体の強さ（信頼性）が分かりにくいことだとする。前者はモデル一覧や学習実行前に，新規学習対象のスキルカードやアイテムの効果差分を表示。後者は精度が比較的高いスコアを出せる手法（MCTS）と比較することで解決したそうだ。

　ちなみに，学マスのカード効果の説明文はすべて関連マスターデータから自動生成しているため，動的に差分検出できるのだという。

画像集 No.009のサムネイル画像 / 人間よりAIのほうがレッスン上手？「学マス」で新カードのバランス調整を迅速かつ確実にするための“AI開発手法”とは［CEDEC 2024］

画像集 No.010のサムネイル画像 / 人間よりAIのほうがレッスン上手？「学マス」で新カードのバランス調整を迅速かつ確実にするための“AI開発手法”とは［CEDEC 2024］

　ワークフローの「デッキ探索」には，Google CloudのCloud Run/Batchを中心としたサーバレスアーキテクチャが採用された。これにより並列実行が可能で，使いたいタイミングで柔軟にリスケールできるものになっている。また，デッキ情報やAIによるプレイログは蓄積され，スプレッドシートのデータコネクタを使って同期できるとしている。

　これにより，プランナーが普段から使い慣れているスプレッドシート上で，データを任意に加工・分析することが可能になった。

画像集 No.011のサムネイル画像 / 人間よりAIのほうがレッスン上手？「学マス」で新カードのバランス調整を迅速かつ確実にするための“AI開発手法”とは［CEDEC 2024］

画像集 No.012のサムネイル画像 / 人間よりAIのほうがレッスン上手？「学マス」で新カードのバランス調整を迅速かつ確実にするための“AI開発手法”とは［CEDEC 2024］

画像集 No.013のサムネイル画像 / 人間よりAIのほうがレッスン上手？「学マス」で新カードのバランス調整を迅速かつ確実にするための“AI開発手法”とは［CEDEC 2024］

　これらの結果，以下のようなことが実現された。

　同システムをゲームのサービス開始前から運用することで，配信前の時点で「1億パターン以上のデッキをシミュレーション」でき，レッスンの総プレイ回数も10億回以上に到達。これを人力が行おうとした場合，1回1分で対処しても“約1900年”を要することになる。

　これだけのパターンを試したことで，設計時やテストプレイ時には気づけなかったことも検知でき，バランス調整に大きく貢献したという。

　具体例としては「ランキング上位陣のデッキが似通ったものになることを防ぐ」「スキルカードの組み合わせで発生するループを防ぐ」といったものだ。また副次的な効果として，バグ検出にも役立ったらしい。

画像集 No.014のサムネイル画像 / 人間よりAIのほうがレッスン上手？「学マス」で新カードのバランス調整を迅速かつ確実にするための“AI開発手法”とは［CEDEC 2024］

レッスンAIをレッスンする

　続いて伊原氏が「レッスンAI」について解説していった。レッスンAIに求められた要件は，以下のようなものになる。

1．あらゆる状況で任意のカードをプレイ可能
2．1プレイの時間は0.1秒以下
3．新規カード追加から結果確認までのリードタイムは36時間以下

　つまり，最高効率を目指して最高速度でプレイさせ，マスターデータの変更から36時間以内でのAI学習と，シミュレーション結果の分かりやすい確認方法が求められていたとする。

画像集 No.015のサムネイル画像 / 人間よりAIのほうがレッスン上手？「学マス」で新カードのバランス調整を迅速かつ確実にするための“AI開発手法”とは［CEDEC 2024］

　学マスにおけるレッスンは，マルコフ決定過程（MDP）としてモデル化することができる。これは現在の「状態」「行動」によって，次に移行する「状態」が確率的に決まるモデルである。

　これをモンテカルロ木法（MCTS）を使ったゲーム木探索手法と組み合わせることで，より厳密な最適行動に近づけていく。一応補足しておくと，これらはコンピュータが将棋や囲碁の手を読むのと原理は同じだ。

画像集 No.016のサムネイル画像 / 人間よりAIのほうがレッスン上手？「学マス」で新カードのバランス調整を迅速かつ確実にするための“AI開発手法”とは［CEDEC 2024］

画像集 No.017のサムネイル画像 / 人間よりAIのほうがレッスン上手？「学マス」で新カードのバランス調整を迅速かつ確実にするための“AI開発手法”とは［CEDEC 2024］

　ただし，上記の方法は計算時間がかかるのが難点であり，9ターン分のレッスンを行うのに平均実行時間が1416.2秒かかってしまう。

　その解決策として，「深層強化学習」による最適なプレイへの近似を目指す手法が取られた。とどのつまり，レッスンAIにあらゆる状況を経験させ，試行錯誤により学習させるといったものである。

画像集 No.018のサムネイル画像 / 人間よりAIのほうがレッスン上手？「学マス」で新カードのバランス調整を迅速かつ確実にするための“AI開発手法”とは［CEDEC 2024］

　結果，MCTSと比べても遜色ないスコアを出すことができ，1回あたりのプレイも0.1秒で対処できるレッスンAIを実現した。

　平均スコアは少し下回っているが，平均プレイ時間は要件で求められた0.1秒に到達。同時間なら1万4000倍以上のテストプレイが行える。

画像集 No.019のサムネイル画像 / 人間よりAIのほうがレッスン上手？「学マス」で新カードのバランス調整を迅速かつ確実にするための“AI開発手法”とは［CEDEC 2024］

　一方，新カードが続々と追加されていく運営状況では，レッスンAIの学習時間の課題を解決せねばならなかった。上記の性能を実現するためには3億回のプレイ，約300時間がかかる状況だったためだ。

　そこで，学習時間を減らすために「転移学習」が導入された。

画像集 No.020のサムネイル画像 / 人間よりAIのほうがレッスン上手？「学マス」で新カードのバランス調整を迅速かつ確実にするための“AI開発手法”とは［CEDEC 2024］

　とはいえ，こちらもそのままだと新カードが増え続けるうちに限界が訪れる仕組みのため，大規模言語モデル（LLM。OpenAIのEmbeddings APIを使用したという）で文章埋め込みを活用し，状態表現を行った。

　こちらはゲーム内の構造データではなく，カードの効果テキストを使用することで，仕様変更などにも強く，さらに新カードも追加学習なしで導入できるのがメリットだという。

画像集 No.021のサムネイル画像 / 人間よりAIのほうがレッスン上手？「学マス」で新カードのバランス調整を迅速かつ確実にするための“AI開発手法”とは［CEDEC 2024］

　結果として転移学習がより短時間で済むようになり，同じ時間でスクラッチ学習させた場合と比べても，より高精度なプレイを実現させた。

画像集 No.022のサムネイル画像 / 人間よりAIのほうがレッスン上手？「学マス」で新カードのバランス調整を迅速かつ確実にするための“AI開発手法”とは［CEDEC 2024］

　こうして学習を済ませたレッスンAIのプレイングは，人間と比較しても遜色がないというか，かなり近いものとなったという。

　学マスに精通した社内ユーザーのプレイと比べた場合でも，レッスンAIがスコアで上回ることがあり，そのプレイング内容の差もわずか一手，されど大きな一手の違いだったそうだ。

一手差を生んだのはロジック好印象型のようで，最適解にも試験者にも説得力がある

ロジックやる気型はイーブンスコア

デッキ構築AIにもLLMが使われていた

　続いて，伊原氏が「デッキ構築AI」について解説した。

　デッキ構築AIの目的は，バランスブレイカーとなりうる最大スコアのデッキを発見すること。極端なスコアが出た場合，そこには強すぎるカードや，カード同士の組み合わせが含まれているという考え方だ。

画像集 No.025のサムネイル画像 / 人間よりAIのほうがレッスン上手？「学マス」で新カードのバランス調整を迅速かつ確実にするための“AI開発手法”とは［CEDEC 2024］

　配信開始時のカードやアイテムの数だけでも，その組み合わせは膨大で（10の20乗以上），アップデートごとにすべてやり直すのは現実的ではなかった。そこで問題を総当たり的に解決する「ブラックボックス最適化」ではなく，問題に関する知識を一部活用する「グレーボックス最適化」を採用。また，ここでもLLMを用いた文章埋め込みが使われた。

画像集 No.026のサムネイル画像 / 人間よりAIのほうがレッスン上手？「学マス」で新カードのバランス調整を迅速かつ確実にするための“AI開発手法”とは［CEDEC 2024］

画像集 No.027のサムネイル画像 / 人間よりAIのほうがレッスン上手？「学マス」で新カードのバランス調整を迅速かつ確実にするための“AI開発手法”とは［CEDEC 2024］

画像集 No.028のサムネイル画像 / 人間よりAIのほうがレッスン上手？「学マス」で新カードのバランス調整を迅速かつ確実にするための“AI開発手法”とは［CEDEC 2024］

　デッキ探索アルゴリズムには，遺伝的アルゴリズムを用いた。これは2つのカードデッキを組み合わせて子世代のデッキを作り，評価の高い解が生き残ったり，優秀な解同士から次の世代を作ったり，そこに突然変異的な変化を起こしたりして最適解（の近似値）を探す仕組みだ。

画像集 No.029のサムネイル画像 / 人間よりAIのほうがレッスン上手？「学マス」で新カードのバランス調整を迅速かつ確実にするための“AI開発手法”とは［CEDEC 2024］

画像集 No.030のサムネイル画像 / 人間よりAIのほうがレッスン上手？「学マス」で新カードのバランス調整を迅速かつ確実にするための“AI開発手法”とは［CEDEC 2024］

　これは一般にはブラックボックス最適化の枠組みになるアルゴリズムだが，今回はLLMによってベクトル化したカード情報を導入することで，グレイボックス最適化のアルゴリズムとして実装された。

　具体的には，デッキの集合から関数分布を構成し，ガウス分布から点をサンプリング。埋め込み空間のある一点から最近傍のカードを探索し，そのカードをデッキに追加するという方法が取られた。分散が大きい場合はランダム選択に近く，小さい場合は親と子がよく似る結果となる。

突然変異については，確率pでカード枚数の増減を行ったという

　そして実験結果が以下のスライドとなる。

　転移学習させたAIに，総デッキ枚数が20～30枚，初期デッキ枚数が6～8枚，レッスン12ターンの設定でデッキ探索を行わせたところ，完全なランダムサンプリングに近いアルゴリズムと比較して，15％ほど効率のいい結果をたたき出したとしている。

画像集 No.033のサムネイル画像 / 人間よりAIのほうがレッスン上手？「学マス」で新カードのバランス調整を迅速かつ確実にするための“AI開発手法”とは［CEDEC 2024］

　伊原氏はこれらのバランス調整支援システムを用いたことで，サービス開始時点で1億デッキ，10億レッスン以上のシミュレーションを実施してきた。結果，人力では気付けなかったデッキやプレイパターンも調整できたメリットを再度伝えつつ，今回のセッションを締めくくった。

画像集 No.034のサムネイル画像 / 人間よりAIのほうがレッスン上手？「学マス」で新カードのバランス調整を迅速かつ確実にするための“AI開発手法”とは［CEDEC 2024］

　レッスンAIとデッキ探索AI。本セッションでは2つの開発事例が発表されたが，そのどちらも「従来の人口知能的なアプローチにLLMを組み合わせた」ことで，運営型ゲームのフローのなかでも実用的に使える支援システムを生み出せていることが興味深かった。

　まさしく，AI活用においてLLMが注目を集めている理由や，LLMの力が理解しやすいセッションだったのではないだろうか。