老师您好!请问这些技术可以用来做本地AI助手吗?
社区首页 (3646)

请编写您的帖子内容
社区频道(17)
显示侧栏
卡片版式
全部
AI 人工智能
生成式 AI
AI Edge Box
AI PC
IoT 物联网
XR/VR/AR/MR
Gaming 游戏
Auto 汽车
AI 大赛
博文收录
开发者中文专区
博客
活动
资讯
视频
硬件开发案例
最新发布
最新回复
标题
阅读量
内容评分
精选

11
评分
回复
老师您好!请问这些技术可以用来做本地AI助手吗?
老师您好!想请问像我们刚刚提到的这些技术(端侧模型、NPU 推理、RAG、工具调用等),是否已经可以用来做一个真正可用的本地 AI 助手? 在本地运行时,一般哪些能力更适合放在端侧,哪些还需要云端配合? 如果目标是日常助手场景(对话、检索、简单任务执
复制链接 扫一扫
分享
AI 大赛

12
评分
1
请问在移动设备NPU上能跑多大参数量的LLM?比如7B、13B模型可以吗?
想问下在手机/移动端 NPU 上做端侧推理,一般能跑多大参数量的 LLM?像 7B、13B 在什么量化和内存条件下才算“能跑、好用”,实际瓶颈主要在 RAM 还是 NPU 算力?
复制链接 扫一扫
分享
AI 大赛

9
评分
回复
GenieAPIService 调用本地NPU上的大语言模型时,对设备有什么性能要求?内存或算力要达到什么水平?
我在用 GenieAPIService 调用本地 NPU 上的大语言模型(端侧推理),想请教一下设备侧的性能要求通常怎么评估?有没有一个大概的“能跑 / 跑得动 / 跑得流畅”的门槛参考? 具体我想确认: 1. 算力/NPU 指标怎么对应到 LLM
复制链接 扫一扫
分享
AI 大赛

12
评分
1
有没有人做过从Win切到Android的部署呢?我们现在在做跨平台开发,需要同时跑 Windows 和 Android。
调试方法差的有点多呢,Windows 这边主要是 Python 环境、DLL 配好就能跑;Android 则要配置 NDK、CMake/ndk-build、打包 .so,还得通过 JNI 去调 C++。不知道跨平台开发有uu能给点建议吗
复制链接 扫一扫
分享
AI 大赛

12
评分
1
想问问模型放云端跑,还是干脆本地端侧跑啊?
感觉云端能撑更大的模型,生成效果更好点,不过时延不确定、隐私也要单独考虑,还得算上云服务的开销。但本地端侧设备的算力和内存就限制能用的方案没有云端那么自由。云端符合参赛要求吗?
复制链接 扫一扫
分享
AI 大赛

11
评分
1
老师如果要把QAI AppBuilder做的应用上线,安全性和稳定性方面要注意啥?
我们用 QAI AppBuilder 做了个 AI 应用准备上线,想请教上线前安全与稳定性最关键的注意点。 权限/鉴权(访问控制、API Key/Token)怎么配更安全,怎么避免密钥和隐私在日志或输出里泄露? 用户对话/文件/知识库数据会不会存储,
复制链接 扫一扫
分享
AI 大赛

11
评分
1
做带界面的AI应用时怎么让AI推理和UI界面配合得更流畅啊?
我在做一个带界面的 AI 应用(Web/移动端都可能),现在卡点是:AI 推理链路和 UI 交互配合不够顺滑,想请教大家在工程上一般怎么设计,能让体验更“丝滑”。 具体问题包括: 1. 推理是流式输出还是一次性输出更好? 比如对话/总结/检索类任务
复制链接 扫一扫
分享
AI 大赛

12
评分
1
我们用 QAI AppBuilder 跑 LLM感觉最大的问题还是内存吃得有点狠、推理也偏慢,有没有比较实际的优化思路?
我这边在用 QAI AppBuilder 跑 LLM,虽然LLM 本身参数量就摆在那里,但还是想问下有没有比较实际的优化思路? 现在我能想到的就是模型别挑太大的,只要任务能完成,模型小一点应该能明显减内存、提速度。另外我看到端侧一般都会用 INT8
复制链接 扫一扫
分享
AI 大赛

11
评分
1
NPU的调度机制是怎样的?会不会互相抢资源?
在看端侧方案的时候,有个问题一直没太想明白。 如果在同一台设备上有不止一个模型、或者不止一个推理任务同时跑,NPU 这边一般是怎么调度的? 是类似排队执行,还是支持一定程度的并行? 在实际使用中,会不会出现互相抢资源、某个任务把延迟拉得很高的情况?
复制链接 扫一扫
分享
AI 大赛

12
评分
2
边缘设备上跑这套方案,稳定性和功耗表现怎么样?适合 7×24 小时运行吗?
我们在评估把一套端侧 AI 方案部署到边缘设备上,应用场景是长期在线、持续推理,不是偶发跑一下模型。 比较关心两个实际问题: 在边缘设备上长时间运行,这套方案的稳定性表现如何?有没有内存、资源累积之类的隐患? 功耗控制大概是什么水平?在持续推理或周期
复制链接 扫一扫
分享
AI 大赛

11
评分
1
NPU的算力跟最新的GPU比怎么样?适合跑Transformer架构的模型吗?
在做端侧方案评估时,经常会遇到一个问题: 如果把模型放到 NPU 上跑,它的算力和当前主流 GPU 相比大概处在什么区间? 另外也比较关心 Transformer 这一类模型: NPU 是否适合运行 Transformer 架构(如 Attentio
复制链接 扫一扫
分享
AI 大赛

9
评分
1
我这边在看几种不同的部署方式,主要还是想清楚哪一条路线在模型适配上更省心点
貌似现在 Python 生态的模型最多,用 PyTorch 或 TensorFlow 都很顺畅,但落到骁龙 AI PC 的 NPU 上以后,性能和功耗会不会不理想呢,有没有适配端侧设备长期跑、性能和功耗都能照顾到的配置方式推荐?另外模型广场里那些已经
复制链接 扫一扫
分享
AI 大赛

11
评分
1
我最近在把一个 cv模型往终端设备上落,发现真正麻烦的不是推理性能,而是前后处理这块很容易拖后腿,有做端侧cv模型部署这块的嘛?
前处理的时候很多都在 CPU 上跑,数据量稍微大一点就卡得厉害,我现在在考虑是不是要用多线程去分摊,或者把一些图像转换的步骤丢给 GPU 做会更稳一点。 另外一个让我有点头疼的就是数据格式。有些模型的输入输出张量要求挺不同的,图片转成张量、输出再解析
复制链接 扫一扫
分享
AI 大赛

10
评分
1
能否用一个真实的模型部署流程来解释 QAIRT 各模块如何协同工作?
看 QAIRT 相关资料,模块和名词其实都能对上,但看完文档之后还是有点“纸面懂了,流程没完全吃透”的感觉。 比较想搞清楚的是真实开发中它到底是怎么跑一遍的。 比如一个很常见的场景: 模型最早是在 PyTorch 里训练和验证的,最终目标是跑在骁龙设
复制链接 扫一扫
分享
AI 大赛

9
评分
1
想问实际开发中,模型量化对精度有影响吗?有什么好的平衡策略吗?
我们在做端侧部署的时候,基本都会绕不开模型量化这一步。 不量化,性能和功耗压力很大; 一量化,又担心精度掉得不可控,尤其是业务对结果稳定性比较敏感。 现在比较纠结的是: 从实际开发经验来看,量化对模型精度的影响一般在什么范围内是“可接受”的? 在企业
复制链接 扫一扫
分享
AI 大赛

12
评分
1
企业级场景下,CV 模型跑在 NPU 上的实时性一般能到什么水平?
近期在评估把一部分 CV 模型部署到骁龙平台的 NPU 上,主要关注的是实时视频处理能力。 目前模型类型以常见的 CV 任务为主(比如检测、分割、跟踪这类),视频输入是连续流,不是单帧推理。现在比较关心几个实际问题: 在 NPU 上跑 CV 模型,实
复制链接 扫一扫
分享
AI 大赛

12
评分
1
实际开发中,从模型转换到最后在NPU上跑起来,哪一步最容易踩坑或者最耗时间啊?有啥经验分享吗?
在实际端侧开发过程中,我们发现从模型训练完成到最终稳定跑在 NPU 上,中间链路其实比较长,包括模型转换、量化、编译、Runtime 适配、端侧调试等多个步骤。 想请教一下,从实践经验来看: • 在这一整条流程中,哪一步最容易踩坑或者最耗时间?
复制链接 扫一扫
分享
AI 大赛

11
评分
1
既然AI Runtime Stack是通用的,那把手机上优化好的模型搬到车机上,主要会遇到哪些坑啊?需要特别注意啥?
了解到 AI Runtime Stack 在手机和车机上是相对通用的,我们也在考虑把已经在手机端优化过的模型迁移到车机平台使用。 想请教一下,在这个迁移过程中,实际工程中最容易遇到的坑主要集中在哪些方面? 比如: • 虽然 Runtime Stac
复制链接 扫一扫
分享
AI 大赛

11
评分
1
有转换好的qwen3的模型吗?或者转换好的模型去哪里下载呢?
我想请教一下,目前是否存在 已经转换好的 Qwen3 模型,可以直接用于推理或部署? 具体来说,我关注如下几个方面: • 是否有已经转换成推理 friendly 格式(如 GGUF / TensorRT / ONNX / 量化版本等)并且可直接下载
复制链接 扫一扫
分享
AI 大赛

10
评分
1
对于隐私敏感的应用场景,端侧部署是不是更有优势?性能损失可以接受吗?
要是对于隐私敏感的应用场景,端侧部署是不是更有优势?想问问性能损失可以接受吗?
复制链接 扫一扫
分享
AI 大赛
为您搜索到以下结果:
6,378
社区成员
6,031
社区内容
发帖
与我相关
我的任务
高通开发者论坛
本论坛以AI、WoS 、XR、IoT、Auto、生成式AI等核心板块组成,为开发者提供便捷及高效的学习和交流平台。
高通开发者专区主页:https://qualcomm.csdn.net/
复制链接 扫一扫
分享确定
社区描述
本论坛以AI、WoS 、XR、IoT、Auto、生成式AI等核心板块组成,为开发者提供便捷及高效的学习和交流平台。
高通开发者专区主页:https://qualcomm.csdn.net/ 人工智能物联网机器学习 技术论坛(原bbs) 北京·东城区
加入社区
获取链接或二维码
- 近7日
- 近30日
- 至今
加载中
社区公告
暂无公告