社区
CSDN技术会议的课程社区_NO_3
2025 4月全球机器学习技术大会-上海站
帖子详情
冯张驰-LLaMA Factory多模态LLM高效微调原理与实践
m0_74120090
2025-04-23 14:55:07
课时名称
课时知识点
冯张驰-LLaMA Factory多模态LLM高效微调原理与实践
LLaMA Factory核心开发者 LLaMA Factory 是一个统一的大模型微调框架,旨在简化和加速对 100 多种LLM的微调过程。我们将介绍其与多模态相关的核心功能、技术栈、以及在实际应用中的表现,帮助与会者理解如何利用这一框架提升多模态LLM的训练效率与推理性能。
...全文
68
回复
打赏
收藏
冯张驰-LLaMA Factory多模态LLM高效微调原理与实践
课时名称课时知识点冯张驰-LLaMA Factory多模态LLM高效微调原理与实践LLaMA Factory核心开发者 LLaMA Factory 是一个统一的大模型微调框架,旨在简化和加速对 100 多种LLM的微调过程。我们将介绍其与多模态相关的
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
杨强院士领衔,2025 全球机器学习技术大会正式官宣!
AI的未来,正在加速到来!
Agent、DeepSeek、
多模态
热点炸场!60+重磅嘉宾共探AI未来,2025全球机器学习技术大会完美收官!
在这一背景下,本次大会以全球视角聚焦 AI 最前沿的发展趋势,围绕大语言模型技术演进、AI Agent
实践
、具身智能、
多模态
生成、DeepSeek 技术解析等 12 大专题展开深入探讨,与海内外一线科技公司与高校机构的专家学者,共同勾勒出大模型技术的创新脉络与落地全景。此次大会汇聚了来自微软、百度、阿里巴巴、腾讯、字节跳动、蚂蚁集团、智源研究院、小红书、网易、商汤科技、小米、360、AMD数十家领军企业和组织的技术专家,他们从科研创新、工程落地到产业趋势,带来了兼具深度与前瞻的思考。
51c大模型~合集92
如下图 2(b) 所示,跨域
微调
(OT)不是使用完整的模型进行训练,而是允许数据所有者使用模型所有者提供的有损压缩仿真器进行
微调
,但这种范式有个缺点:会让数据所有者得到的仿真器的性能较差。值得注意的是,该团队提出的方法在 WebQs 任务上实现了强大的插件性能,其中零样本准确率为零,突显了其在新的下游应用中的潜力。值得注意的是,由于选择了重要的层进行更新,插件的性能可以超过直接在
LLM
上进行
微调
的性能,这得益于稀疏训练带来的更好收敛性。因此,研究团队选择了对仿真器中的 MHSA 层进行秩压缩的策略。
专访“不要葱姜蒜”:测绘工程专业跨行AI领域,打开了一扇新世界的大门!
当时实验室提供了一些算力资源,在完成本职工作后,我想着“既然有算力,不如多尝试几个模型”,于是就开始整理 ChatGLM、千问等当时热门模型的训练脚本和 Web Demo,后来越来越多人来询问这些脚本资源,我意识到这可能是个普遍需求。Self-
LLM
最初的受众以研究生群体居多,因为当时大家都在尝试模型训练,而随时间不断发展,可以看到目前大模型面向的群体开始越来越庞大,更多的大学生、在职党也加入了进来。我们的项目就像个“时光胶囊”,记录了大模型发展的各个阶段——最新模型放在最上面,早期模型放在下面。
51c大模型~合集12
本文探讨了新颖的基于
LLM
的多智能体框架中潜在的知识传播风险。为此,本文针对
LLM
对世界知识认知的脆弱性提出了一种两阶段的攻击框架,通过说服性植入和编造知识植入,使得被操纵的智能体在没有外部提示的情况下能够自主在社区中传播知识,并改变其他智能体对特定知识的认知。这些发现揭露了当前基于
LLM
的多智能体社区对不可信知识的传播缺乏有效的防御机制。未来的工作可以从预防和检测两个阶段入手,利用提示工程或事实检测工具辅助智能体对不可信知识的真实性进行检测,从而提升多智能体社区的鲁棒性和安全性。
CSDN技术会议的课程社区_NO_3
1
社区成员
155
社区内容
发帖
与我相关
我的任务
CSDN技术会议的课程社区_NO_3
复制链接
扫一扫
分享
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章