解奉龙-FireRed-基于大模型的语音/音乐技术综合实践

m0_74120090 2025-04-23 14:55:06

课时名称

课时知识点

解奉龙-FireRed-基于大模型的语音/音乐技术综合实践

小红书音频技术负责人本次报告涵盖小红书技术团队研发了一系列语音/音乐大模型的技术详情及应用落地如FireRedASR：开源中文语音识别新sota，综合极致的精度和高效的推理需分别打造FireRed-LLM及FireRed-AED，对比此前sota Seed-ASR，中文字错率相对降低8.4%。FireRedTTS2.0: 开源中文语音合成新sota，支持zero-shot的语音克隆及human-like具有副语言想象及情感控制的自然语音生成。FireRedChat：超低延时且具有人感的大模型语音实时对话系统方案。FireRedmusic：小红书风格音乐生成的方案等。

...全文

69 回复打赏收藏转发到动态举报

写回复

回复

切换为时间正序

请发表友善的回复…

发表回复

目前，他在小红书负责语音识别与合成、语音交互、音乐技术在小红书全场景下的研发及落地，并主导打造了基于大模型的语音/音乐技术前沿综合解决方案 FireRed。他将分享在小红书这种社区推荐场景下，如何利用大模型技术，结合用户行为，提升内容理解能力，解决内容快速冷启动、精准的目标建模、内容去中心化分发的问题，以及如何利用 LLM 的推理能力，更好地结合用户的画像、行为和消费场景，可解释地实现兴趣的探索、打破信息茧房。在本次大会上，解奉龙博士将带来《FireRed-基于大模型的语音/音乐技术综合实践》的精彩演讲。

交通大模型则是指将大模型技术应用于交通领域，通过分析和优化历史交通数据以及预测未来的交通流量，从而提高交通效率，减少交通拥堵，并助力城市的可持续发展。大语言模型在投研中的应用——DeepSeek、QwQ-32B与Manus技术解析、投研场景与量化应用太平洋证券 2025-3-15。——DeepSeek的突破边界与“浙大先生”的未来图景浙江大学 2025-2-17。博睿数据 2025-3-12。DeepSeek-Coder当大语言模型与编程相遇——代码智能的崛起（英） D Guo 2024-1-26。

在Sherpa-onnx项目中，自动语音识别(ASR)模型的选择需要综合考虑多个因素。首先是识别准确率，这是衡量模型性能的核心指标；其次是计算资源需求，包括CPU/GPU使用率、内存占用等；最后是特定场景需求，如实时性、多语言支持等。 ## 主流ASR模型对比 Sherpa-onnx提供了多个预训练ASR模型，各有特点： 1. Paraformer模型：适合中文和英文混合识别，输出包含标点符...

交通大模型则是指将大模型技术应用于交通领域，通过分析和优化历史交通数据以及预测未来的交通流量，从而提高交通效率，减少交通拥堵，并助力城市的可持续发展。大语言模型在投研中的应用——DeepSeek、QwQ-32B与Manus技术解析、投研场景与量化应用太平洋证券 2025-3-15。——DeepSeek的突破边界与“浙大先生”的未来图景浙江大学 2025-2-17。博睿数据 2025-3-12。DeepSeek-Coder当大语言模型与编程相遇——代码智能的崛起（英） D Guo 2024-1-26。

此次大会汇聚了来自微软、百度、阿里巴巴、腾讯、字节跳动、蚂蚁集团、智源研究院、小红书、网易、商汤科技、小米、360、AMD、数势科技、声网、人民邮电出版社异步社区、电子工业出版社博文视点、清华大学出版社等数十家领军企业和组织的技术专家，他们从科研创新、工程落地到产业趋势，带来了兼具深度与前瞻的思考。在这一背景下，“大模型+行业落地实践”专场应运而生，邀请来自小红书、京东、金山办公、恒生电子研究院、eBay 等头部企业的技术专家，分享他们在不同业务场景中推动大模型技术落地的探索与成果。

CSDN技术会议的课程社区_NO_3

1

社区成员

155

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章