当前位置: 首页 > news >正文

网络网站维护费怎么做会计分录google入口

网络网站维护费怎么做会计分录,google入口,沈阳大连疫情最新情况,为网站开发android客户端Instruct-GPT奖励模型的损失函数与反向传播机制解析 一、损失函数的数学本质与偏好表达二、损失函数如何驱动偏好排序三、多响应排序的批量处理机制四、反向传播的参数更新逻辑五、从比较对到全序关系的自动推导六、与传统排序模型的本质区别 总结:损失函数使用的比…

Instruct-GPT奖励模型的损失函数与反向传播机制解析

        • 一、损失函数的数学本质与偏好表达
        • 二、损失函数如何驱动偏好排序
        • 三、多响应排序的批量处理机制
        • 四、反向传播的参数更新逻辑
        • 五、从比较对到全序关系的自动推导
        • 六、与传统排序模型的本质区别

总结:损失函数使用的比较对排序损失 (pairwise ranking loss) ,由于 σ \sigma σ激活函数结果一定在0-1之间,使得对数运算log之后的值一定小于0,然后加上 log 外面的负号一定大于0,因此loss一定大于0,从而在反向传播中一定有损失,通过让 loss 不断下降,从而达到σ函数内部的rw-rl的差值更大(增大rw,减小rl,直到两者差值接近于1,模型收敛),从而降低损失。从而倾向于人类的倾向。

一、损失函数的数学本质与偏好表达

Instruct-GPT使用的奖励模型损失函数为:
loss ( θ ) = − 1 ( K 2 ) E ( x , y w , y l ) ∼ D [ log ⁡ ( σ ( r θ ( x , y w ) − r θ ( x , y l ) ) ) ] \text{loss}(\theta) = -\frac{1}{\binom{K}{2}} \mathbb{E}_{(x,y_w,y_l) \sim D} \left[ \log \left( \sigma \left( r_\theta(x, y_w) - r_\theta(x, y_l) \right) \right) \right] loss(θ)=(2K)1E(x,yw,yl)D[log(σ(rθ(x,yw)rθ(x,yl)))]

核心构成解析

  1. 输入对定义 ( x , y w , y l ) (x, y_w, y_l) (x,yw,yl) 表示同一个prompt x x x 对应的两个响应,其中 y w y_w yw 是人类偏好的响应, y l y_l yl 是非偏好响应
  2. 奖励差值 r θ ( x , y w ) − r θ ( x , y l ) r_\theta(x, y_w) - r_\theta(x, y_l) rθ(x,yw)rθ(x,yl) 表示模型对两个响应的奖励值之差
  3. sigmoid函数 σ ( z ) = 1 1 + e − z \sigma(z) = \frac{1}{1+e^{-z}} σ(z)=1+ez1,其性质是:
    • z > 0 z > 0 z>0 时, σ ( z ) > 0.5 \sigma(z) > 0.5 σ(z)>0.5,且 z z z 越大, σ ( z ) \sigma(z) σ(z) 越接近1
    • z < 0 z < 0 z<0 时, σ ( z ) < 0.5 \sigma(z) < 0.5 σ(z)<0.5,且 z z z 越小, σ ( z ) \sigma(z) σ(z) 越接近0
  4. 对数似然 log ⁡ ( σ ( z ) ) \log(\sigma(z)) log(σ(z)) 用于度量模型预测与人类偏好的一致性,当 z > 0 z > 0 z>0 时,该值为正,且 z z z 越大值越大;当 z < 0 z < 0 z<0 时,该值为负
二、损失函数如何驱动偏好排序

假设人类标注了一个偏好关系: y w ≻ y l y_w \succ y_l ywyl(即 y w y_w yw y l y_l yl 更优),损失函数的优化目标是最大化 σ ( r θ ( x , y w ) − r θ ( x , y l ) ) \sigma(r_\theta(x, y_w) - r_\theta(x, y_l)) σ(rθ(x,yw)rθ(x,yl)),这等价于最大化 r θ ( x , y w ) − r θ ( x , y l ) r_\theta(x, y_w) - r_\theta(x, y_l) rθ(x,yw)rθ(x,yl)

具体驱动过程

  1. 当模型初始预测 r θ ( x , y w ) < r θ ( x , y l ) r_\theta(x, y_w) < r_\theta(x, y_l) rθ(x,yw)<rθ(x,yl) 时:
    • 奖励差值为负, σ ( z ) < 0.5 \sigma(z) < 0.5 σ(z)<0.5 log ⁡ ( σ ( z ) ) \log(\sigma(z)) log(σ(z)) 为负
    • 损失函数值为正(因为前面有负号),模型产生"惩罚"
    • 反向传播会调整参数 θ \theta θ,使 r θ ( x , y w ) r_\theta(x, y_w) rθ(x,yw) 增大或 r θ ( x , y l ) r_\theta(x, y_l) rθ(x,yl) 减小
  2. 当模型预测 r θ ( x , y w ) > r θ ( x , y l ) r_\theta(x, y_w) > r_\theta(x, y_l) rθ(x,yw)>rθ(x,yl) 时:
    • 奖励差值为正, σ ( z ) > 0.5 \sigma(z) > 0.5 σ(z)>0.5 log ⁡ ( σ ( z ) ) \log(\sigma(z)) log(σ(z)) 为正
    • 损失函数值为负,模型产生"奖励"
    • 反向传播会保持或增强这种参数状态
三、多响应排序的批量处理机制

K = 4 K=4 K=4 为例,假设标注者对4个响应的排序为 y 1 ≻ y 2 ≻ y 3 ≻ y 4 y_1 \succ y_2 \succ y_3 \succ y_4 y1y2y3y4,则产生 ( 4 2 ) = 6 \binom{4}{2}=6 (24)=6 个比较对:

  • ( y 1 , y 2 ) , ( y 1 , y 3 ) , ( y 1 , y 4 ) (y_1, y_2), (y_1, y_3), (y_1, y_4) (y1,y2),(y1,y3),(y1,y4)
  • ( y 2 , y 3 ) , ( y 2 , y 4 ) (y_2, y_3), (y_2, y_4) (y2,y3),(y2,y4)
  • ( y 3 , y 4 ) (y_3, y_4) (y3,y4)

批量训练的关键优势

  1. 计算效率:对4个响应仅需4次前向传播,而非6次
  2. 相关性利用:同一prompt的响应具有内在相关性,批量处理避免过拟合
  3. 联合优化:6个比较对共同约束模型参数,使奖励值满足 r 1 > r 2 > r 3 > r 4 r_1 > r_2 > r_3 > r_4 r1>r2>r3>r4
四、反向传播的参数更新逻辑

损失函数对参数 θ \theta θ 的梯度为:
∇ θ loss ( θ ) = − 1 ( K 2 ) ∑ ( y w , y l ) ( 1 − σ ( r θ ( x , y w ) − r θ ( x , y l ) ) ) ⋅ ( ∇ θ r θ ( x , y w ) − ∇ θ r θ ( x , y l ) ) \nabla_\theta \text{loss}(\theta) = -\frac{1}{\binom{K}{2}} \sum_{(y_w,y_l)} \left( 1 - \sigma \left( r_\theta(x, y_w) - r_\theta(x, y_l) \right) \right) \cdot \left( \nabla_\theta r_\theta(x, y_w) - \nabla_\theta r_\theta(x, y_l) \right) θloss(θ)=(2K)1(yw,yl)(1σ(rθ(x,yw)rθ(x,yl)))(θrθ(x,yw)θrθ(x,yl))

梯度方向解析

  • r θ ( x , y w ) < r θ ( x , y l ) r_\theta(x, y_w) < r_\theta(x, y_l) rθ(x,yw)<rθ(x,yl) 时, 1 − σ ( z ) > 0.5 1 - \sigma(z) > 0.5 1σ(z)>0.5,梯度会推动 ∇ θ r θ ( x , y w ) \nabla_\theta r_\theta(x, y_w) θrθ(x,yw) 增大或 ∇ θ r θ ( x , y l ) \nabla_\theta r_\theta(x, y_l) θrθ(x,yl) 减小
  • r θ ( x , y w ) > r θ ( x , y l ) r_\theta(x, y_w) > r_\theta(x, y_l) rθ(x,yw)>rθ(x,yl) 时, 1 − σ ( z ) < 0.5 1 - \sigma(z) < 0.5 1σ(z)<0.5,梯度对参数的调整力度减弱
  • r θ ( x , y w ) ≫ r θ ( x , y l ) r_\theta(x, y_w) \gg r_\theta(x, y_l) rθ(x,yw)rθ(x,yl) 时, 1 − σ ( z ) ≈ 0 1 - \sigma(z) \approx 0 1σ(z)0,梯度接近0,训练收敛
五、从比较对到全序关系的自动推导

虽然标注数据仅提供两两比较对,但损失函数的累加机制会自动推导出全序关系。例如,对于三个响应 y a ≻ y b ≻ y c y_a \succ y_b \succ y_c yaybyc,包含三个比较对:

  1. ( y a , y b ) (y_a, y_b) (ya,yb) 驱动 r a > r b r_a > r_b ra>rb
  2. ( y a , y c ) (y_a, y_c) (ya,yc) 驱动 r a > r c r_a > r_c ra>rc
  3. ( y b , y c ) (y_b, y_c) (yb,yc) 驱动 r b > r c r_b > r_c rb>rc

这三个约束共同作用,最终会使模型学习到 r a > r b > r c r_a > r_b > r_c ra>rb>rc 的全序关系,而无需显式标注完整排序。

六、与传统排序模型的本质区别

传统排序模型可能直接优化排名位置,而Instruct-GPT的奖励模型通过以下机制实现更高效的偏好学习:

  1. 基于差值的优化:不关注绝对奖励值,只关注相对大小
  2. 批量相关性利用:同一prompt的响应作为整体优化单元
  3. 概率化偏好表达:通过sigmoid函数将奖励差值转化为偏好概率
  4. 梯度驱动的自动调整:反向传播自然实现"偏好响应奖励提升,非偏好响应奖励降低"

这种机制使得奖励模型能够高效利用人类标注的比较数据,在计算效率和模型性能之间取得平衡,为后续的强化学习阶段提供可靠的价值函数。

http://www.laogonggong.com/news/334.html

相关文章:

  • wordpress适合做什么网站现在做网络推广都有什么方式
  • 网站建设提成方案百度网页游戏排行榜
  • 天元建设集团有限公司本科生待遇太原seo建站
  • 达内网站开发学习培训哪里有seo排名优化
  • 网站建设有限公网站推广和宣传的方法
  • 长沙制作网站创建一个网站需要什么
  • 交互式网站开发技术包括中国进入全国紧急状态
  • 网站建设如何做用户名密码windows优化大师的特点
  • 百度推广 帮做网站吗中国站长素材网
  • 做网站咨询b站免费推广app大全
  • 凡科网站内容怎么做效果好快刷网站
  • 如何看网站是不是织梦做的新开店铺怎么做推广
  • 太原网站建设的公司排名优化绿松石什么意思
  • 有几个网站打不开阻断艾滋病的药有哪些
  • 有没有做衣服的网站吗百度小程序排名优化
  • 做网站信科网站建设百度推广怎么联系
  • 163网站是jsp做的吗近三年成功的营销案例
  • 怎么做情侣网站行业关键词词库
  • 微信企业号可以做微网站吗下载百度手机助手
  • 做网站适合用什么字体推特最新消息今天
  • 金泉网 网站建设网络软文推广平台
  • 新网站怎样做外链网络推广图片
  • 浙江学院网站建设百度账号安全中心官网
  • 做膜结构那个网站好宁波百度关键词推广
  • 邢台做网站推广的地方软文网站有哪些
  • 上海网站建设开发哪北京网站优化指导
  • 柳州网站虚拟主机公司产品推广朋友圈文案
  • 网站开发ppt转h5北京朝阳区优化
  • 重庆市城乡建设委员会教育网站百度平台我的订单
  • 网站文章在哪发布做seo什么是网站优化