InternLM模型部署教程
社区首页 (3665)
请编写您的帖子内容
社区频道(7)
显示侧栏
卡片版式
全部
问题求助
交流讨论
社区活动
模型搭建
博文收录
活动专区
最新发布
最新回复
标题
阅读量
内容评分
精选

97
评分
回复
InternLM模型部署教程
InternLM:释放无限潜能的智能语言模型。InternLM 基于Transformer架构,利用了先进的自注意力机制,能够理解和生成复杂的文本结构,同时,它采用了动态掩码策略,使得预训练过程更加灵活和有效。
复制链接 扫一扫
分享

110
评分
回复
【算家云】基础操作教程02 容器中心
本期主要介绍容器中心的各相关功能及对应的操作流程。
复制链接 扫一扫
分享

109
评分
回复
ComfyUI零基础入门搭建教程
ComfyUI 是一个为Stable Diffusion设计的基于节点的AI绘图工具,提供图形用户界面。它将AI 生成图像的过程拆分为多个独立的节点,定制精准的工作流,用户还可以自定义图像生成管道。本文主要介绍了部署 ComfyUI 需要使用的命令和详细构建步骤。
复制链接 扫一扫
分享

108
评分
回复
I2VGen-XL模型构建指南
I2VGen-XL:解锁图像新视界,创生视频新精彩。I2VGen-XL 是一款创新的图像转视频生成工具,该系统提供了强大的代码库和视频生成模型,旨在通过输入文本、图像、所需运动、主题甚至反馈信号来生成高质量的视频。文章详细介绍了如何实现该模型本地部署。
复制链接 扫一扫
分享

87
评分
回复
GFP-GAN容器构建说明
GFP-GAN是腾讯在人像复原、超分等方面的佳作 ,其基于 FFHQ 上训练,由 70000 张高质量图像组成。在训练过程中,将所有图像的大小调整为5122。GFP-GAN 是在合成数据上训练的,这些合成数据近似于真实的低质量图像,并在推理过程中推广到真实世界的图像,可用于真实世界面部高清修复。更多详细信息见Github仓库。
复制链接 扫一扫
分享

114
评分
回复
如何在算家云搭建模型Linly-Talker(数字人文本配音)
Linly-Talker(数字人文本配音)是一款集成了多种人工智能技术的数字人对话系统,通过多模型集成、多轮对话能力、语音克隆技术、实时互动和视觉增强,为用户提供了一种全新的交互体验。
复制链接 扫一扫
分享

100
评分
回复
open sora1.0容器构建教程
2024 年 3 月 18 日,Colossal-AI 团队发布了 Open-Sora 1.0 项目,该项目是一个全面开源的视频生成模型项目,旨在高效制作高质量视频,并使所有人都能使用其模型、工具和内容。1. 模型架构Open-Sora 1.0 采用了 Diffusion Transformer(DiT)模型,并在此基础上引入了时间注意力层,以优化对视频数据的处理。
复制链接 扫一扫
分享

109
评分
回复
如何在算家云搭建模型mPLUG-Owl3(智能对话)
mPLUG-Owl3 (智能对话)是阿里巴巴 mPLUG 团队最新发布的通用多模态大模型,该模型在理解和处理复杂多图及长视频内容方面实现了显著突破。本文介绍了在算家云搭建该模型的详细方法和步骤,以便广大用户能在算家云快速搭建mPLUG-Owl3 。
复制链接 扫一扫
分享

100
评分
回复
Kolors模型部署指南
快手前沿AI杰作,文本转图片的非凡模型!Kolors 能够生成具有高分辨率和逼真度的图像,在生成自然风光、人物肖像等方面,能够呈现出令人惊艳的效果。本文将带领大家实现该模型本地部署。
复制链接 扫一扫
分享

122
评分
回复
Qwen2:通义千问倾力巨献,领航语言新纪元
Qwen2 是由阿里云通义千问团队研发的新一代大型语言模型系列,它在多个方面实现了技术的飞跃和性能的显著提升。名称:Qwen2研发团队:阿里云通义千问团队类型:大型语言模型特点:多版本、多规模,满足不同计算需求;全面支持 PAI 平台;整体性能代际飞跃。
复制链接 扫一扫
分享

138
评分
回复
CosyVoice:重塑声音,跨越语种的自然声音体验!
CosyVoice 是一个开源的超强 TTS(文本转语音)模型,它支持多种生成模式,具有极强的语音自然可控性。
复制链接 扫一扫
分享

102
评分
回复
YOLOv5模型部署教程
YOLOv5模型是一种由Ultralytics开发以实时物体检测闻名的计算机视觉模型,它是YOLO系列的升级版,继承了YOLO系列以实时物体检测能力而著称的特点。本文详细介绍了如何实现该模型本地部署。
复制链接 扫一扫
分享

93
评分
回复
如何在算家云搭建模型Baichuan 2(智能对话)
Baichuan 2(运动模仿)是百川智能推出的新一代开源大语言模型,采用2.6 万亿Tokens 的高质量语料训练。 在多个权威的中文、英文和多语言的通用领域 benchmark 上取得同尺寸最佳的效果。
复制链接 扫一扫
分享

98
评分
回复
Hallo部署指南
Hallo可基于语音音频输入来驱动生成逼真且动态的肖像图像视频。该框架采用了基于扩散的生成模型和分层音频驱动视觉合成模块,提高了音频与视觉输出之间的同步精度。本文介绍了如何在本地部署该模型。
复制链接 扫一扫
分享

98
评分
回复
FancyVideo
FancyVideo(视频生成)是一种创新的视频生成器,它通过精心设计的跨帧文本指导模块 (CTGM) 改进了现有的文本控制机制。具体而言,CTGM 分别在交叉注意的开始、中间和结束时结合了时间信息注入器 (TII)、时间亲和力细化器 (TAR) 和时间特征增强器 (TFB),以实现特定于帧的文本指导。本文介绍了在算家云搭建该模型的详细方法和步骤,以便广大用户能在算家云快速搭建FancyVideo。
复制链接 扫一扫
分享

101
评分
回复
GPT-SOVIT模型部署指南
强大的小样本语音转换和文本转语音 WebUI,GPT-Sovits是一个热门的文本生成语音的大模型,只需要少量样本的声音数据源,就可以实现高度相似的仿真效果。本文将详细介绍如何实现该模型本地部署。
复制链接 扫一扫
分享

111
评分
回复
MusePose模型部署指南
MusePose是一个基于扩散和姿势引导的虚拟人视频生成框架。该模型能够根据给定的姿势序列,生成参考图中人物的舞蹈视频。本文将带领大家一步步实现该模型的本地部署。
复制链接 扫一扫
分享

107
评分
回复
Omost容器构建教程
GitHub - lllyasviel/Omost:你的图像快到了!Omost 是一个将 LLM 的编码能力转换为图像生成(或更准确地说,图像合成)能力的项目。“O”代表“omni”多模态,象征着项目支持多种形式的输入与输出,而“most”则表达了项目致力于最大化挖掘 LLM 模型潜力的决心,力求从每一个细节中释放出最多的图像生成可能性。作为 ControlNet 作者倾力打造的创新项目,标志着图像生成技术的一次革命性飞跃。
复制链接 扫一扫
分享

103
评分
回复
TripoSR模型构建指南
TripoSR:极速3D重建,单图输入,顷刻成像!TripoSR 是由 Tripo AI 和 Stability AI 合作开发的最先进的开源模型,用于从单个图像进行快速前馈 3D 重建。本文提供了模型构建、配置和运行的详细步骤。
复制链接 扫一扫
分享

85
评分
回复
RWKV-CHN模型部署教程
RWKV-x060-World-7B-v2.1-20240507-ctx4096 一号空间,RWKV 语言模型旨在通过为自动化所有事情来消除使用大型语言模型的障碍。用户所需要的就是一个只有几兆字节的轻量级可执行程序。本文将详细介绍如何实现该模型的本地部署。
复制链接 扫一扫
分享
为您搜索到以下结果: