LLaMA-Factory

UJava约 686 字大约 2 分钟

LLaMA-Factory 是一个基于 Hugging Face 和 DeepSeek 模型的开源工具，主要用于大模型微调、推理及可视化操作。以下是其核心用法：

环境准备

‌安装 Anaconda ‌：创建Python环境（推荐Python 3.11），激活环境后安装依赖（如torch、metrics等）。
‌下载模型‌：通过pip install modelscope download --model Qwen/Qwen2.5-VL-7B-Instruct --local_dir /data2/users/yszhang/quickllm/qwen2.5-vl-instruct命令下载模型参数。

启动图形界面

运行llamafactory-cli webui启动Web界面（访问http://127.0.0.1:7860），通过以下步骤操作：

‌选择语言‌：默认支持中文（zh）。
‌模型选择‌：从Hugging Face或本地路径加载模型（如Qwen2.5-VL-7B-Instruct）。
‌参数配置‌：支持微调、推理参数设置，支持多卡训练（需提前安装 DeepSpeed ）。

微调流程

‌数据准备‌：需自行准备训练数据（文本/代码补全模板）。
‌训练启动‌：通过Web界面选择训练方法（如全量调参、 LoRA 等），指定GPU数量及输出路径。
‌结果验证‌：根据日志文件选择最优checkpoint进行推理测试。

注意事项

需确保服务器支持GPU加速，安装驱动及CUDA环境。 ‌
不同版本可能存在功能差异，建议参考官方GitHub更新日志。 ‌

Llama-Factory 内置的MMLU、 CMMLU 和 CEVAL 是针对大模型在不同场景下的评估工具，主要区别如下：

MMLU（多领域语言理解）

用于评估模型在多个学科领域的理解能力，包含数学、艺术、法律等67个主题的测试题，通过多项选择题形式考察模型对学科知识的掌握程度。

CMMLU（中文多选多学科理解）

专为中文设计，涵盖艺术、商业、文化等67个主题，侧重评估模型对中国文化、语言及跨学科推理能力的适应性。其题目设计更贴近中文语境，答案需针对中国背景。

CEVAL（ C-Eval ）

包含52个学科13948道题，通过不同难度等级（初级、中级、高级）评估模型在代码生成、数学推理等领域的专项能力。题型为填空题，需模型生成代码或数学解题步骤。

‌适用场景对比‌

‌MMLU‌：适合评估模型在多领域知识理解的泛化能力，类似 SQUAD 等通用语言理解测试。
‌CMMLU‌：侧重中文语境下的跨学科推理与知识应用，适合评估模型对中国文化、法律的适配性。
‌CEVAL‌：聚焦代码生成、数学推理等专项能力，通过填空题形式直接考察模型的编程与逻辑推导能力。

公众号更有货，推荐关注！