设计模型分类

Spring AI Alibaba

Spring AI Alibaba

UJava2026/2/25小于 1 分钟

LLaMA-Factory

LLaMA-Factory 是一个基于 Hugging Face 和 DeepSeek 模型的开源工具，主要用于大模型微调、推理及可视化操作。以下是其核心用法：

环境准备

‌安装 Anaconda ‌：创建Python环境（推荐Python 3.11），激活环境后安装依赖（如torch、metrics等）。
‌下载模型‌：通过pip install modelscope download --model Qwen/Qwen2.5-VL-7B-Instruct --local_dir /data2/users/yszhang/quickllm/qwen2.5-vl-instruct命令下载模型参数。

UJava2025/7/9大约 2 分钟

Python怎么开发大模型程序

在Python中开发一个大模型程序通常涉及以下几个步骤：

1. 选择合适的库

对于机器学习或深度学习项目，常用的库有：

TensorFlow 和 Keras：由Google开发，非常适合构建深度学习模型。
PyTorch：由Facebook开发，提供了灵活的张量操作和自动求导功能。
Scikit-learn：适合传统的机器学习任务。

UJava2025/6/10大约 2 分钟

大模型理论基础

第1章：什么是大模型？

1.1 大模型的定义

大模型，顾名思义，是指拥有大规模参数和复杂结构的机器学习模型。与传统的小模型相比，大模型通常包含数亿甚至数千亿个参数，这些参数是模型学习过程中需要调整的变量。大模型的核心目标是通过海量数据的训练，捕捉数据中的复杂规律，从而实现更高的性能和更广泛的应用。

举个例子：
想象一下，传统的小模型就像是一个小学生，只能解决简单的加减乘除问题。而大模型则像是一个博士生，能够解决复杂的数学问题，甚至能够写出论文、创作诗歌、编写代码。

1.2 大模型与普通模型的区别

UJava2025/5/7大约 5 分钟

大模型基础

模型架构与基础概念

1. LLM（大语言模型, Large Language Model）： 基于海量文本数据训练的[深度学习模型]，如GPT系列、BERT等，能够理解和生成自然语言文本，能够进行复杂对话、文本创作等任务。

2. AGI（通用人工智能, Artificial General Intelligence）： 这是AI研究的理想目标，追求创造能像人类一样学习新技能、解决广泛问题的智能体，目前仍处于理论探索和初步实践阶段。

UJava2025/5/7大约 25 分钟

大模型核心

近年来，以ChatGPT为代表的大模型技术掀起了人工智能领域的革命。它们不仅能生成流畅的文本，还能完成代码编写、图像生成等复杂任务。本文将深入解析大模型的核心原理，揭开其智能化的底层逻辑。

一、大模型的定义与特点

大模型（Large Language Model, LLM） 是指参数规模达到数亿甚至数千亿的深度学习模型。其核心特点是：

参数规模庞大：例如GPT-3参数达1750亿，通过海量数据训练捕捉复杂的语言规律。
数据需求量大：训练数据通常涵盖互联网文本、书籍、代码等多源信息，规模可达TB级。
任务泛化能力强：通过预训练学习通用知识，可适配翻译、问答、创作等多样化任务。

UJava2025/5/7大约 3 分钟

Python数据类型

基础知识与数据类型

一、数字类型

1.整型(int)

进制种类	引导符号	描述
十进制	无	默认情况，例如1010，-500
二进制	0b或0B	由字符0和1组成，例如0b1010,0B1010
八进制	0o或0O	有字符0到7组成，例如，0o76，0O76
十六进制	0x或0X	由字符0到9，a到f，A到F组成，例如0xABC

UJava2025/5/7大约 18 分钟

Docling

**[Docling]**‌是一个由[IBM]开发的开源文档解析工具，旨在简化文档处理流程，支持多种文档格式的解析和转换，并与人工智能生态系统无缝集成。Docling的主要功能包括：

‌多格式支持‌：Docling支持多种文档格式的解析和转换，包括PDF、DOCX、PPTX、图像、HTML、[AsciiDoc]和[Markdown]，并能将这些文档导出为Markdown或JSON格式‌。
‌高级PDF理解‌：Docling具备对PDF文档的高级理解能力，能够识别页面布局、阅读顺序和表格结构，特别适合处理复杂的PDF文档‌。
‌OCR支持‌：Docling支持光学字符识别（OCR），能够识别扫描PDF中的文字，适用于处理扫描或手写的文档‌。
‌统一文档表示‌：Docling提供了一个统一且富有表现力的文档表示格式，确保文档集成和分析的一致性和可靠性‌。
‌工具集成‌：Docling易于与[LlamaIndex]和[LangChain]等工具集成，增强文档的检索和问答能力，适用于构建检索增强生成（RAG）和问答（QA）应用程序‌。
‌命令行界面‌：Docling提供一个简洁的命令行界面（CLI），方便用户快速处理单个或批量文档转换‌。

UJava2025/4/16大约 1 分钟

MinerU-API

‌**[MinerU-API]**‌是一个基于[MinerU]的[PDF解析]API，支持一键启动，主要用于将PDF文档高效转换为[Markdown]和[JSON]等结构化格式。MinerU-API的核心功能包括文本、图片、表格和公式的提取，特别适用于多语言文档和复杂布局的PDF文件批量处理‌。

功能特点

‌多模态内容提取‌：支持提取PDF中的文本、图像、表格和公式等内容。
‌结构化输出‌：可以将提取的内容转换为Markdown和JSON格式，便于后续处理和分析。
‌高效处理‌：支持批量处理，适用于大量文档的快速转换。
‌多语言支持‌：OCR功能支持84种语言的检测和识别，适用于多语言文档的处理。
‌可视化结果‌：支持布局可视化和跨度可视化，便于高效确认输出质量。
‌跨平台兼容性‌：支持[Windows]和[Mac]平台，具有良好的兼容性。

UJava2025/4/16大约 1 分钟

MinerU

‌**[MinerU]**‌是一款开源的PDF、Word、PPT数据提取工具，能够将复杂多模态的文档转化为结构化数据格式，如Markdown和JSON。其主要功能包括OCR文字识别、语义一致性处理、人类可读性优化、公式转换、多语言支持、内容提取和跨平台兼容性等‌。

主要功能

‌OCR功能‌：能够检测扫描版PDF并启用OCR功能进行文字识别，支持84种语言的检测与识别‌。
‌语义一致性‌：移除页眉、页脚、脚注等元素，保持核心内容连贯‌。
‌人类可读性‌：支持单列和多列排列，优化阅读格式‌。
‌公式转换‌：识别文档中的公式并将其转换为LaTeX格式‌。
‌多语言支持‌：提供语言检测和识别功能‌。
‌内容提取‌：支持提取文档中的图像和表格，并将其转换为Markdown格式‌。
‌结构保留‌：保留文档原有的标题和段落结构‌。
‌跨平台兼容性‌：支持Windows、Linux和Mac等主流操作系统平台‌。

UJava2025/4/16大约 2 分钟