在摩尔线程 MTT S80 上使用 llama.cpp 进行 DeepSeek R1 14B蒸馏版模型推理

流水U 2025-03-05 01:13:32

PC配置

主板：B550M
CPU：AMD R7 5700X (官网描述X86支持Intel CPU, 实测AMD CPU也可以)
内存：32GB
SSD：512GB
显卡：MTT S80 (使用650W及以上ATX电源并通过双路PCIE给显卡供电)

OS

Ubuntu 22.04.5
内核版本：6.8.0-52-generic

显卡驱动与SDK

MUSA SDK版本：MUSA SDK rc3.1.1
显卡驱动版本：musa_2.7.1-rc3-0822_Ubuntu_amd64
SDK与驱动官网下载链接：https://developer.mthreads.com/sdk/download/musa?equipment=MTT%20S80&os=Ubuntu&driverVersion=&version=rc3.1.1
根据SDK包内 Installation_guide_for_MUSA_SDK_rc3.1.1.pdf 文档进行显卡驱动和SDK安装（根据官网博客文章描述该版驱动类型为 compute-only，可能存在图形界面无法启动的风险）。

模型文件

从开源社区下载模型文件：DeepSeek-R1-Distill-Qwen-14B-Q8_0.gguf

llama.cpp编译安装与运行

cd ~
#更新包信息并安装，需提前配置好国内的源以保证下载速度
sudo apt update && sudo apt upgrade -y
#安装一些工具方便远程操作，此处省略了samba配置
sudo apt install -y openssh-server samba net-tools curl clinfo
#安装llama.cpp编译依赖，需使用gcc-12和g++-12，否则可能报错cmath.h找不到
sudo apt install -y git build-essential cmake libomp-dev libboost-all-dev gcc-12 g++-12
sudo rm -rf /usr/bin/gcc
sudo rm -rf /usr/bin/g++
sudo ln -s /usr/bin/gcc-12 /usr/bin/gcc
sudo ln -s /usr/bin/g++-12 /usr/bin/g++

#配置好git信息并clone llama.cpp.git
git clone https://gitcode.com/gh_mirrors/ll/llama.cpp.git
#编译并安装llama.cpp
cd ~/llama.cpp
sudo cmake -B build -DGGML_MUSA=ON
sudo cmake --build build --config Release
sudo make -C build install

#创建目录并上传下载好的模型文件DeepSeek-R1-Distill-Qwen-14B-Q8_0.gguf到~/models目录
mkdir ~/models
cd ~/llama.cpp/build/bin/
#以WebUI界面方式运行llama.cpp，可通过浏览器访问http://<PC的IP>:8080进行访问
./llama-server -m ~/models/DeepSeek-R1-Distill-Qwen-14B-Q8_0.gguf -ngl 100 --port 8080 --host 0.0.0.0
#可以再开一个命令窗口对GPU进行监控
watch -n 3 mthreads-gmi