この論文を読んでいます。
・NeurIPSのCreative AI trackに通っているということであり、方法論はsolidだと思います。
・局面生成方法がかなり面白く、「400万のタクティクスの局面を訓練データとして、それまでの文字からFENの次の文字列を予測するNNを作り、生成モデルに適用する」という方式です。(2次元の盤面に対して1次元のシーケンスとすれば十分であることを示唆していてこれだけでも面白い)
・次に、生成された局面を強化学習に入れますが、その際に「勝ちになる手が1つであること」、「強いエンジンでは解けるが弱いエンジンでは解けないこと」に高い報酬を与えます。
(続く)
add a skeleton here at some point
20 days ago