明升手机版(中国)

来源：Frontiers of Computer Science 发布时间：2024/6/7 18:59:48

选择字号：小中大

FCS 文章精要：南京大学俞扬教授团队——模型梯度：统一策略和模型学习目标的基于模型的强明升手机习方法

论文标题：

期刊：

作者：Chengxing JIA, Fuxiang ZHANG, Tian XU, Jing-Cheng PANG, Zongzhang ZHANG, Yang YU

发表时间：22 Sep 2023

DOI：

微信链接：

针对基于模型的强明升手机习中，监督学习的转移模型学习目标偏离了策略优化的问题，南京大学俞扬教授团队撰写了研究论文：模型梯度：统一策略和模型学习目标的基于模型的强明升手机习方法。

文章信息

标题：

Model gradient: unified model and policy learning in model-based reinforcement learning

引用格式：

Chengxing JIA, Fuxiang ZHANG, Tian XU, Jing-Cheng PANG, Zongzhang ZHANG, Yang YU. Model gradient: unified model and policy learning in model-based reinforcement learning. Front. Comput. Sci., 2024, 18(4): 184339

阅读原文：

文章概述

文章旨在提出一种与策略优化目标一致的转移模型学习方法，从直接最大化策略在真实环境中积累奖励出发，得到动力学模型的优化算法。

技术步骤

从直接利用策略在真实环境的积累奖励，对参数化的环境模型计算梯度出发，获得了模型梯度的形式：最大化真实的策略梯度与环境中的策略梯度的相似度。从而基于该形式进行环境模型的学习。

实验结果

文本同多种基于模型的算法如SLBO、METRPO以及无模型的算法如PPO进行比较，多个控制任务上的实验结果表明，基于本文提出的模型梯度学习下的策略优化算法可以取得更好的样本效率以及渐进性能。另外与短轨迹模型的方法如MBPO在稀疏奖励上的比较也体现出了本文方法的优势。

相关内容推荐：

Frontiers of Computer Science

Frontiers of Computer Science （FCS）是由教育部主管、高等教育出版社和北京航空航天大学共同主办、SpringerNature 公司海外发行的英文学术期刊。本刊于 2007 年创刊，双月刊，全球发行。主要刊登计算机app领域具有创新性的综述论文、研究论文等。本刊主编为周志华教授，共同主编为熊璋教授。编委会及青年 AE 团队由国内外知名学者及优秀青年学者组成。本刊被 SCI、Ei、DBLP、INSPEC、SCOPUS 和明升中国app引文数据库（CSCD）核心库等收录，为 CCF 推荐期刊；两次入选“明升中国科技期刊国际影响力提升计划”；入选“第4届明升中国国际化精品科技期刊”；入选“明升中国科技期刊卓越行动计划项目”。

《前沿》系列英文学术期刊

由教育部主管、高等教育出版社主办的《前沿》（Frontiers）系列英文学术期刊，于2006年正式创刊，以网络版和印刷版向全球发行。系列期刊包括基础app、明升m88app、工程技术和人文社会app四个主题，是我国覆盖学科最广泛的英文学术期刊群，其中12种被SCI收录，其他也被A&HCI、Ei、MEDLINE或相应学科国际权威检索系统收录，具有一定的国际学术影响力。系列期刊采用在线优先出版方式，保证文章以最快速度发表。

明升中国学术前沿期刊网

特别声明：本文转载仅仅是出于传播信息的需要，并不意味着代表本网站观点或证实其内容的真实性；如其他媒体、网站或个人从本网站转载使用，须保留本网站注明的“来源”，并自负版权等法律责任；作者如果不希望被转载或者联系转载稿费等事宜，请与我们接洽。