Page 1 of 1

根据给定的规则执行动作

Posted: Sun Feb 09, 2025 6:39 am
by Bappy11
立即的奖励,
对下一刻的奖励的预测。
当下一个时刻到来时,算法会将新的预测与刚刚做出的估计进行比较。如果有滞后,则调整旧的预测。如此一来,算法的准确率就逐渐提高了。


TD Learning 中实现的参数
有三个参数。

1. Alpha(α):学习率
确定估计值应根据错误进行调整的程度。

2. Gamma(γ):折现率
对未来奖励的重视。

3. e:探索概率
表示探索新选项 (e) 或保留当前最佳选项 (值 1-e) 的概率。

了解如何实施 TD 学习
TD Learning 如何运作?
TD Learning 遵循以下步骤:

我们观察奖励并估计下一个状态。
当前状态的值根据观察到的奖励和下一个状态的估计值进行更新。
TD Learning 的优势
学习在每个阶段发生
TD 学习甚至可以在没有明确定义最终状态的环境中进行学习。
TD 学习所做的估计在不同事件之间是稳定和一致的,而蒙特卡洛方法的估计可能 阿塞拜疆电报数据 会有很大差异。
它利用了马尔可夫特性——即当前状态包含预测未来所需的所有信息——这使其非常高效。

TD Learning 有哪些应用程序?
由于TD学习为动态和不确定环境中的学习建立了高可靠性的框架,因此在复杂的决策系统中出现了许多应用。它可以在延迟奖励环境中进行有效的学习,这使得它成为人工智能、机器人或某些类型的视频游戏(如国际象棋)以及金融领域的实时学习的首选工具。 TD Learning也适用于供应链中的资源优化。

这还不是全部。在 20 世纪 80 年代和 90 年代,人们观察到控制多巴胺的神经元似乎能够处理“奖励预测错误”。当意外的奖励出现时,它们会增加活动,相反,当奖励低于预期时,它们的活动就会减少。结论是,将存在一种类似于 TD 学习的方法,这有利于其在神经科学中的应用。

机器学习训练
Facebook

叽叽喳喳