当前位置: 首页 > 体育 > 电竞

腾讯研(yan)发全新TiG框架:可用AI玩王者荣耀让AI模型学会战略性思考

2025-10-08 18:47:16
来源:
电竞资讯10月4日(ri)称 据 decoder 今天报道,腾讯研究人员最近(jin)用《王者荣耀》游戏作为训练平台,探索如何让AI在游戏中学会“战略(lve)性思考”,研究全新 TiG(Think in Games)框架(jia),相关成果已发表于 Hugging Face 平台和 arXiv 期刊。

研究团队(dui)指(zhi)出,目前(qian)的 AI 模型存在明显(xian)的(de)功能鸿沟,以游戏(xi)为取向的 AI 能正常游玩但无法(fa)理解自己所做的决策,而(er)语言模型(xing)虽然可以推理策略但很难真正执行操作,为此他们研发了全新 TiG 框架,让模型在游戏中同步思考、行动。

undefined

团队(dui)选择以《王者荣耀》游戏作为训练范本,先使(shi)用匿名且标准化的赛事数据(ju)定义推上路、击杀暴君、守家等(deng) 40 种宏观(guan)行(xing)动,胜负回(hui)数均衡,AI 模型们必(bi)须要在每个定义好的(de)场景下选(xuan)择最佳(jia)策略,并解释其战略缘由。

undefined

具体来说,训练分为两个(ge)阶(jie)段,首先是在监(jian)督中学习(xi),弄清楚这些策略(lve)的基本机制;随后通过奖(jiang)励(li)机制进行强化学习,如果行动正确能得 1 分,错误行(xing)动则得 0 分。

undefined

随后团队(dui)测试了多种语言模型,涵盖 Qwen2.5(7B、14B、32B)、Qwen3-14B 模型,并使用 DeepSeek-R1 大模型(xing)作为对照(zhao)组;先(xian)从 DeepSeek-R1 提(ti)炼高质量训练数据,然后使(shi)用群体相对策略优化(GRPO)技术,比(bi)较不同策略之(zhi)间的优劣。

undefined

最终经过 TiG 框架训练的模(mo)型不仅能制定行动计划还能解(jie)释原因,例如 AI 会指出(chu)某个防御塔防守薄(bao)弱,是理想的进攻(gong)目标,但需要注意埋伏的敌人。模(mo)型训练(lian)后仍(reng)保持原有的文本理解、数学推理与问答能力(li)。

undefined

最终测(ce)试结(jie)果如下:

  • 对照组 DeepSeek-R1:决策准确率(lv)达(da) 86.67%

  • Qwen3-14B:决策准(zhun)确率达 90.91%,超越 DeepSeek-R1
  • Qwen2.5-32B :准确率从 66.67% 提升(sheng)至 86.84%
  • Qwen2.5-14B:准确率(lv)从 53.25% 提升至 83.12%
  • 最(zui)新资讯
    最新录像
    最新集锦
    热词推荐
    lYTXJ