我打算強化這個

火雲邪神 2009-10-27 03:29:38

我打算強化這個http://code.kingof
coders.com/codeLib.php和這個http://code.kingof
coders.com/codeViewer.php

令到它可以搜到java的class, 不只能搜文件名, 有人加入嗎？

...全文

67 1 打赏收藏转发到动态举报

写回复

1 条回复

切换为时间正序

请发表友善的回复…

发表回复

chenzhp 2009-10-27

打赏
举报

回复

加油！

DeepMind发布了dm_control，这是基于MuJoCo物理引擎的Python强化学习开发环境。它提供了标准化的架构来执行连续控制任务，并使用可解释性奖励评估算法性能。

作者看了关于强化学习的论文后，打算写强化学习专栏。介绍了reward和Q矩阵两个概念，以机器人在房间移动为例，阐述Q-learning算法。包括初始化reward矩阵R和Q矩阵，给出Q阵更新公式，经多次更新后用Q矩阵做出最优解，最后贴上代码。

博主研究强化学习，将PPO算法在facebook/opt系列大语言模型跑通。介绍了强化学习通过人类反馈微调大语言模型的原理，对比了模仿学习与强化学习。还阐述了Supervised finetuning、Reward Model Finetuning、RLHF finetuning三个步骤，因本地资源有限效果有取舍，后续打算用云端训练。

博主曾写过关于强化学习的文章，但已遗忘较多内容。现打算重新撰写一篇更易理解的文章，后续有空会更新相应代码。

本文通过强化学习中的“奖励”机制类比个人成长路径，探讨了作者在写作、自媒体、比赛、活动与学习等方面的实践与困惑。面对稀疏或延迟的外部反馈，作者反思了自身奖励函数设置的偏差，并提出应重视内在确定性成就而非盲目追逐流量与物质回报。

23,404

社区成员

70,513

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章