一种平价的chatgpt实现方案,基于清华的 ChatGLM-6B + LoRA 进行finetune.
数据集: alpaca
有colab的同学可以直接在colab上尝试: Build
官方ptuning代码
Demo
开源版的文心一言
S1 Finetune
准备
显卡: 显存 >= 16G (最好24G或者以上)
环境:
python>=3.8
cuda>=11.6, cupti, cuDNN, TensorRT等深度学习环境
pip3 install -r requirements.txt
数据预处理
转化alpaca数据集为jsonl
python cover_alpaca2jsonl.py \
--data_path data/alpaca_data.json \
--save_path data/alpaca_data.jsonl \
tokenization
python tokenize_dataset_rows.py \
--jsonl_path data/alpaca_data.jsonl \
--save_path
, 相关下载链接:
https://download.csdn.net/download/u012124438/88268960?utm_source=bbsseo