社区首页
(3667)
我加入的社区
我管理的社区
官方推荐社区
76
其他社区
3667
请编写您的帖子内容
发帖
社区频道(7)
显示侧栏
卡片版式
全部
社区活动
技术交流
最新资讯
问答专区
社区指南
活动专区
最新发布
最新回复
标题
阅读量
内容评分
精选
多模态生成大模型关键技术
云从科技
2025-12-04
云从科技多模态大模型训练和推理服务平台
云从科技多模态大模型训练和推理服务平台
...全文
425
评分
回复
云从科技多模态大模型训练和推理服务平台
云从科技多模态大模型训练和推理服务平台
复制链接
扫一扫
分享
多模态生成大模型关键技术
云从科技
2025-06-24
基于掩码预测的点云视频自监督学习
游戏《光环》中的 人工智能科塔娜说过一句话, “我是他的盾牌,我是他的利刃;我深知他,连同他的过去和未来”。 如何打造一个能想会说、能听会看的AI, 在人工智能发展过程中一直是个 全球性难题。 视频理解正进行着此项挑战。 作为“六感”之首的视觉,占据
...全文
331
评分
回复
基于掩码预测的点云视频自监督学习
游戏《光环》中的 人工智能科塔娜说过一句话, “我是他的盾牌,我是他的利刃;我深知他,连同他的过去和未来”。 如何打造一个能想会说、能听会看的AI, 在人工智能发展过程中一直是个 全球性难题。 视频理解正进行着此项挑战。 作为“六感”之首的视觉,占据
复制链接
扫一扫
分享
多模态生成大模型关键技术
云从科技
2025-06-20
基于扩散模型的音频驱动说话人生成
围绕“基于音频驱动的说话人视频生成”这一视觉-音频的跨模态任务,将语音与视觉技术结合,提出的方法能够根据输入的语音片段技术,生成自然的头部动作,准确的唇部动作和高质量的面部表情说话视频。该项成果在多个数据集上,都取得了优于过去研究的表现。 此外,在
...全文
272
评分
回复
基于扩散模型的音频驱动说话人生成
围绕“基于音频驱动的说话人视频生成”这一视觉-音频的跨模态任务,将语音与视觉技术结合,提出的方法能够根据输入的语音片段技术,生成自然的头部动作,准确的唇部动作和高质量的面部表情说话视频。该项成果在多个数据集上,都取得了优于过去研究的表现。 此外,在
复制链接
扫一扫
分享
多模态生成大模型关键技术
云从科技
2025-06-18
Relation-aware Network:探索视频片段定位任务中的多种层面关系
基于语言查询的视频片段定位任务(Temporal Language Grounding):该任务是给定一个视频和一段描述语句,通过融合视觉和语言两种模态的信息,在视频中定位出语言所描述内容的视频片段。随着高清摄像头的普及以及网络媒体的快速发展,每天都
...全文
281
评分
回复
Relation-aware Network:探索视频片段定位任务中的多种层面关系
基于语言查询的视频片段定位任务(Temporal Language Grounding):该任务是给定一个视频和一段描述语句,通过融合视觉和语言两种模态的信息,在视频中定位出语言所描述内容的视频片段。随着高清摄像头的普及以及网络媒体的快速发展,每天都
复制链接
扫一扫
分享
为您搜索到以下结果:
多模态生成大模型关键技术
39
社区成员
4
社区内容
发帖
与我相关
我的任务
多模态生成大模型关键技术
专注多模态大模型技术,汇聚该领域感兴趣者、研究人员和爱好者
复制链接
扫一扫
分享
社区描述
专注多模态大模型技术,汇聚该领域感兴趣者、研究人员和爱好者
大数据
人工智能
机器学习
技术论坛(原bbs)
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告