强化学习中,Q-Learning与Sarsa的差别有多大?

    本文对比了强化学习中的Q-Learning和Sarsa算法。Q-Learning采用离线学习,追求最大收益,而Sarsa是在线学习,更注重实际动作的选择。在例子中,Q-Learning倾向于直接路径,Sarsa则避免风险。两者在决策和更新策略上有显著区别,适应不同应用场景。

    摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

    本文首发于:行者AI

    我相信,从某种意义上讲,强化学习是人工智能的未来。 —— 强化学习之父,Richard Sutton

    简单来说就是,智能体通过强化学习,可以知道自己在什么状态下,应该采取什么样的动作使得自身获得最大奖励。强化学习分为在线学习和离线学习,本文以Q-learning(离线)和Sarsa(在线)出发,浅谈两者异同。

    1. 简述Q-learning

    Q-Learning是强化学习算法中Value-based中的一种算法,Q即为Q(s,a)就是在某一时刻的s状态下(s∈S),采取动作a (a∈A)动作能够获得收益的期望,环境会根据agent的动作反馈相应的回报reward r,所以算法的主要思想就是将State与Action构建成一张Q-table来存储Q值,然后根据Q值来选取能够获得最大的收益的动作。

    更简单的理解就是我们基于状态s利用 ε − g r e e d y \varepsilon-greedy εgreedy​​​法进行贪婪选择出动作a,然后执行动作a,得出下一状态s’以及reward r

    Q ( s , a ) = Q ( s , a ) + α ∗ ( r + γ ∗ m a x ( Q ( s ′ , a ∗ ) ) − Q ( s , a ) ) Q(s,a) = Q(s,a) + α*(r+γ*{max}(Q(s',a^*))-Q(s,a)) Q(s,a)=Q(s,a)+α(r

    评论
    添加红包

    请填写红包祝福语或标题

    红包个数最小为10个

    红包金额最低5元

    当前余额3.43前往充值 >
    需支付:10.00
    成就一亿技术人!
    领取后你会自动成为博主和红包主的粉丝 规则
    hope_wisdom
    发出的红包
    实付
    使用余额支付
    点击重新获取
    扫码支付
    钱包余额 0

    抵扣说明:

    1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
    2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

    余额充值

    举报

    选择你想要举报的内容(必选)
    • 内容涉黄
    • 政治相关
    • 内容抄袭
    • 涉嫌广告
    • 内容侵权
    • 侮辱谩骂
    • 样式问题
    • 其他
    程序员都在用的中文IT技术交流社区

    程序员都在用的中文IT技术交流社区

    专业的中文 IT 技术社区,与千万技术人共成长

    专业的中文 IT 技术社区,与千万技术人共成长

    关注【CSDN】视频号,行业资讯、技术分享精彩不断,直播好礼送不停!

    关注【CSDN】视频号,行业资讯、技术分享精彩不断,直播好礼送不停!

    客服 返回顶部