社区
非技术区
帖子详情
我打算強化這個
火雲邪神
2009-10-27 03:29:38
我打算強化這個http://code.kingof
coders.com/codeLib.php和這個http://code.kingof
coders.com/codeViewer.php
令到它可以搜到java的class, 不只能搜文件名, 有人加入嗎?
...全文
67
1
打赏
收藏
我打算強化這個
我打算強化這個http://code.kingof coders.com/codeLib.php和這個http://code.kingof coders.com/codeViewer.php 令到它可以搜到java的class, 不只能搜文件名, 有人加入嗎?
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
1 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
chenzhp
2009-10-27
打赏
举报
回复
加油!
还记得DeepMind那个会跑酷的AI吗?它
打算
用这套Python强化学习工具吊打OpenAI
DeepMind发布了dm_control,这是基于MuJoCo物理引擎的Python强化学习开发环境。它提供了标准化的架构来执行连续控制任务,并使用可解释性奖励评估算法性能。
强化学习 Q—learning(python 代码)
作者看了关于强化学习的论文后,
打算
写强化学习专栏。介绍了reward和Q矩阵两个概念,以机器人在房间移动为例,阐述Q-learning算法。包括初始化reward矩阵R和Q矩阵,给出Q阵更新公式,经多次更新后用Q矩阵做出最优解,最后贴上代码。
强化学习ppo算法在大语言模型上跑通
博主研究强化学习,将PPO算法在facebook/opt系列大语言模型跑通。介绍了强化学习通过人类反馈微调大语言模型的原理,对比了模仿学习与强化学习。还阐述了Supervised finetuning、Reward Model Finetuning、RLHF finetuning三个步骤,因本地资源有限效果有取舍,后续
打算
用云端训练。
强化学习——动态规划(策略评估、策略改进)
博主曾写过关于强化学习的文章,但已遗忘较多内容。现
打算
重新撰写一篇更易理解的文章,后续有空会更新相应代码。
别急着划走,我不
打算
讲什么马尔可夫决策过程,也不会贴代码。强化学习这东西,核心思路特别简单:一个小家伙(咱们叫它智能体),被丢进一个陌生环境里,它不知道该干嘛,只能瞎试。做对了一件事,环境给多大
本文通过强化学习中的“奖励”机制类比个人成长路径,探讨了作者在写作、自媒体、比赛、活动与学习等方面的实践与困惑。面对稀疏或延迟的外部反馈,作者反思了自身奖励函数设置的偏差,并提出应重视内在确定性成就而非盲目追逐流量与物质回报。
非技术区
23,404
社区成员
70,513
社区内容
发帖
与我相关
我的任务
非技术区
Java 非技术区
复制链接
扫一扫
分享
社区描述
Java 非技术区
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章