Colossal - AI发布的开源大模型后训练工具箱,包括其包含的内容、如何低成本微调DeepSeek - V3/R1,以及该工具箱的优势等。
在当下,DeepSeek爆火使得API低价内卷现象出现,但我们不能忽略开源模型提供“巨人的肩膀”这一巨大好处。对于行业来说,微调DeepSeek - V3/R1来低成本打造高质量私有模型、提高业务竞争力是更为迫切的需求。就在近期,已获得近4万GitHub Star的Colossal - AI发布了开源大模型后训练工具箱。这个工具箱包含诸多重要内容:- 能够进行DeepSeek - V3/R1满血671B的LoRA低成本SFT微调。- 具备完整的强化学习工具链,像PPO、GRPO、DPO、SimPO等。- 可以无缝适配包括DeepSeek系列蒸馏模型在内的HuggingFace开源模型。- 兼容支持英伟达GPU、华为昇腾NPU等多种硬件。- 支持混合精度训练、gradient checkpoint等训练加速手段以降低成本。- 有着灵活的训练配置接口,支持自定义奖励函数、损失函数等。- 提供灵活的并行策略配置接口,涵盖数据并行、模型并行、专家并行、ZeRO和Offload等,以适配不同硬件规模。若要进行6710亿参数规模的DeepSeek - V3/R1低成本微调,仅需几个步骤就能快速完成。首先是数据集准备,该脚本接收JSONL格式的文件作为输入数据集,例如https://github.com/hpcaitech/ColossalAI/blob/main/applications/ColossalChat/examples/training_s/lora_sft_data.jsonl。数据集的每一行应为一个聊天对话列表,如给出的示例所展示的那样,这种数据格式兼容Huggingface chat template,支持自定义system prompt,可按需灵活配置。然后是模型权重准备,为确保更好的微调效果,要使用BF16权重进行微调。如果已经下载了FP8的DeepSeek - V3/R1权重,可以利用DeepSeek官方脚本(https://github.com/deepseek - ai/DeepSeek - V3/blob/main/inference/fp8_cast_bf16.py)通过GPU将权重转换为BF16;对于使用国产华为昇腾算力的情况,可以下载https://gitee.com/ascend/ModelZoo - PyTorch/blob/master/MindIE/LLM/DeepSeek/DeepSeek - V2/NPU_inference/fp8_cast_bf16.py脚本转换权重。最后是使用方法,在准备好数据集和模型权重后,可使用Colossal - AI提供的一键启动脚本(https://github.com/hpcaitech/ColossalAI/blob/main/applications/ColossalChat/examples/training_s/lora_finetune.py)。该脚本与常见SFT脚本类似且完全兼容HuggingFace PEFT,启动命令如表格中所示,并且可以通过运行python lora_finetune.py—help查看每个参数的详细信息,该脚本还能通过tensorboard记录学习率、loss、grad norm等信息,方便对训练进行监控。通过使用LoRA等优化手段,示例命令已将SFT DeepSeek - V3/R1 - 671B的最低硬件要求降低近10倍,如可使用32个Ascend 910B NPU 64GB(使用ep = 8,pp = 4)或24个H100/H800 GPU(使用ep = 8,pp = 3),若启用CPU offload虽会损失一定训练速度但可进一步降低硬件要求。从给出的图片也能验证,在SFT DeepSeek V3/R1 671B时,Loss可以顺利降低。Colossal - AI在深耕大模型预训练降本增效的基础上,致力于成为开发者开箱即用的最佳后训练工具,帮助用户基于开源模型低成本快速构建私有模型。开源地址为https://github.com/hpcaitech/ColossalAI。
本文总结了Colossal - AI发布的开源大模型后训练工具箱的相关情况,包括其功能、对DeepSeek - V3/R1的低成本微调步骤以及该工具箱在降低硬件要求等方面的优势,展现了其在帮助用户基于开源模型构建私有模型方面的潜力。
原创文章,作者:东海凝丝,如若转载,请注明出处:https://www.gouwuzhinan.com/archives/20212.html