Whisper模型QNN推理安卓实现

_方落落_ 2025-05-20 15:46:02

按照官方开源实现了 https://github.com/quic/qidk/tree/master/Solutions/NLPSolution3-AutomaticSpeechRecognition-Whisper

测试高通whisper模型snpe加载在QCS6490上延迟还比较高,一次推理需要耗时250ms左右。高通github社区是否可以提供whisper 模型在qnn推理实现的apk demo?

另外目前whisper decode模型没有在TfLite delegate上启用推理加速,TfLite delegate是否可以在QCS6490上支持HTP加速,是否提供示例?

...全文
246 3 打赏 收藏 转发到动态 举报
AI 作业
写回复
用AI写文章
3 条回复
切换为时间正序
请发表友善的回复…
发表回复
  • 打赏
  • 举报
回复

我做过whisper 转成qnn,在8550 htp上跑过,6490不确定

  • 举报
回复
@weixin_38498942 感谢回复!请问是否可以更新下demo到qidk的solution。6490关于whisper qnn native的支持我也向formus论坛提出相关的讨论,但是高通目前似乎没有计划提供whisper qnn实现参考,请问下您这边有什么建议?
  • 举报
回复
@_方落落_ 可以等高通官方后续更新
ggml-tiny.bin 是 Whisper 语音识别模型的一个轻量级版本,基于 GGML 格式(一种为 CPU 优化的量化模型格式)。以下是详细说明: 1. 模型背景 Whisper 是 OpenAI 开源的自动语音识别(ASR)系统,支持多语言转录和翻译。 GGML 是一个专注于 CPU 推理的 tensor 库,支持量化(如 4-bit、5-bit 等),显著减少模型体积和内存占用。 2. ggml-tiny.bin 特点 轻量化:tiny 是 Whisper 的最小版本,参数量少(约 39M),适合低算力设备(如树莓派、手机等)。 量化版本:.bin 文件通常是 GGML 格式的量化模型,可能为 4-bit 或 5-bit,牺牲少量精度以提升推理速度。 功能:支持基础语音转录,但准确率低于大模型(如 base、small)。 3. 使用场景 嵌入式设备或移动端离线语音识别。 快速原型开发或对延迟敏感的应用。 4. 如何使用 依赖工具:需搭配 whisper.cpp 或类似支持 GGML 的推理库。 示例命令(假设已安装 whisper.cpp): ./main -m models/ggml-tiny.bin -f input.wav 5. 局限性 准确率较低,尤其对复杂口音或背景噪声敏感。 仅支持转录,无翻译功能(除非额外微调)。 如需更高精度,可考虑 ggml-base.bin 或 ggml-small.bin。模型文件通常从开源社区(如 Hugging Face)获取。 怎样使用可以参考:https://blog.csdn.net/qq_33906319/article/details/147320987?sharetype=blogdetail&sharerId=147320987&sharerefer=PC&sharesource=qq_3390631

4,659

社区成员

发帖
与我相关
我的任务
社区描述
本论坛以AI、WoS 、XR、IoT、Auto、生成式AI等核心板块组成,为开发者提供便捷及高效的学习和交流平台。 高通开发者专区主页:https://qualcomm.csdn.net/
人工智能物联网机器学习 技术论坛(原bbs) 北京·东城区
社区管理员
  • csdnsqst0050
  • chipseeker
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧