当前位置: 首页 > news >正文

安徽省建设工程造价管理网站开发平台价格

安徽省建设工程造价管理网站,开发平台价格,网站开发平台软件,高德实时街景地图在线on-policy的定义:behavior policy和target-policy相同的是on-policy,不同的是off-policy。 behavior policy:采样数据的策略,影响的是采样出来s,a的分布。 target policy:就是被不断迭代修改的策略。 如果是基于深度…

on-policy的定义:behavior policy和target-policy相同的是on-policy,不同的是off-policy。

behavior policy:采样数据的策略,影响的是采样出来s,a的分布。
target policy:就是被不断迭代修改的策略。

如果是基于深度的算法,那么非常好分辨:目标函数里面一定有s和a的期望,而计算梯度的时候使用了SGD,把一个采样作为了期望的值。但是这里面还有一个隐含的限制就是采样遵循的分布必须是s,a的分布。

因此分辨是否是on-policy的,只需要看目标函数。如果目标函数中s,a的分布和策略相关的,那么一定是on-policy的,如果是策略无关的,那么一定是off-policy的。

比如DQN的目标函数:在这里插入图片描述
这里一个(s,a)对看成一个随机变量,服从均匀分布,因此分布和策略无关(至于为什么s,a是均匀分布,那个是算法自己假设的),因此采样的时候需要用到experience replay,使得不管什么策略采样得到的reward,都变成均匀分布的。

因此用了experice replay之后,随便什么策略采样,虽然采样出来s,a服从那个策略的分布,但是经过experice replay之后还是变成了均匀分布。

比如PG:
在这里插入图片描述

这里面的随机变量是s, 而s是服从stationary distribution,就是agent出现在这个state的次数形成的分布。而这个分布和策略pi是相关的,因此是on-policy的(改变策略之后,agent出现的概率也改变了)

比如DPG:

在这里插入图片描述
这里面的分布d是一个常数(这是为了计算梯度方便),因此DPG中s,a的采样和策略无关,是off-policy的。

比如PPO:

在这里插入图片描述
就是一个期望+一个类似正则项的东西,而非常明显看出来,这个期望是服从策略theta’的,也就是说s,a分布和策略相关,因此是on-policy的。

简单说下PPO:PPO用两个网络表示策略,一个是theta’一个是theta,用theta’网络的策略采样reward,得到的reward给theta的网络梯度下降。看起来怎么用了两个策略? 其实两个策略最后慢慢收敛到一起的,是一个策略。如果是off-policy是完全和策略无关的。

http://www.laogonggong.com/news/64711.html

相关文章:

  • 公司网站制作银川潮州seo
  • 乐云seo可视化网站建设品牌网站制作报价
  • 婚介网站方案网上交易平台网站建设公司
  • wordpress 外链统计seo l
  • 江苏华悦建设集团网站建站公司都有哪些
  • 一流的苏州网站建设wordpress 产品展示插件
  • 南充房产网官网长春seo网站建设费用
  • 建设英文网站赚钱的36个方法网页编辑器中文版
  • 网站手机访问 动易保定学校网站建设
  • 科技局网站建设方案收到一张网站服务费怎么做凭证
  • 青岛高新区建设局网站免费开放api
  • 自己开个网站做营销网站 如何让商家入驻
  • 贵州建设厅文件网站首页网站备案后打不开
  • 做外商备案的网站网页设计的板式
  • 免费网站制作效果网络营销有哪些主要策略
  • 网站开发过程 文档wordpress站点标题副标题换行
  • 网站开发部署到国外app开发大约多少钱
  • 创办一个网站企业网站建设的参考文献
  • 宁波设计公司排行榜宁波seo网络推广产品服务
  • 网络营销企业网站优化学生做爰网站
  • 做国际网站多少钱厦门微信公众号开发
  • 新手怎么建立网站乡下自家院子设计图片
  • 河南省建设资格注册中心网站门户网站建设 考核
  • wordpress企业站主题下载地址网站关键词搜不到了
  • 微信网站开发价格iis 网站乱码
  • 网站做nat映射需要哪些端口wordpress单用户案例
  • 界首网站优化公司网站制作学校找哪家
  • 淘宝装修做代码的网站上海网站建设备案号
  • 常平镇网站建设公司一个网站能多个域名做不同站点
  • 充电网站建设方案网站在线支付功能