字母"B"通常代表“Billion”,即“十亿”。这是模型训练中所使用到参数的数量。
例如,GPT-3模型有175B个参数,这里的“175B”就是表示该模型有1750亿个参数。参数越多,代表模型训练的越复杂,模型的能力也就越强。
通常1B,意味着需要1G以上的内存,7B需要8G以上的内存才能成功运行大模型。
1.SFT 监督微调
1.1 SFT 监督微调基本概念
SFT(Supervised Fine-Tuning)监督微调是指在源数据集上预训练一个神经网络模型,即源模型。然后创建一个新的神经网络模型,即目标模型。目标模型复制了源模型上除了输出层外的所有模型设计及其参数。这些模型参数包含了源数据集上学习到的知识,且这些知识同样适用于目标数据集。源模型的输出层与源数据集的标签紧密相关,因此在目标模型中不予采用。微调时,为目标模型添加一个输出大小为目标数据集类别个数的输出层,并随机初始化该层的模型参数。在目标数据集上训练目标模型时,将从头训练到输出层,其余层的参数都基于源模型的参数微调得到。
CV大模型是计算机视觉(Computer Vision)大模型的缩写。计算机视觉(CV)是指让计算机拥有类似于人类视觉感知和理解的能力,而CV大模型则是指在计算机视觉领域中,采用大规模神经网络模型进行图像识别、目标检测、图像生成等任务的算法。这类模型通常具有参数量巨大、计算复杂度高、训练数据量庞大的特点。
CV大模型的定义和特点
- 定义:CV大模型指的是在计算机视觉领域,采用大规模神经网络模型进行图像识别、目标检测、图像生成等任务的算法。这类模型通常具有参数量巨大、计算复杂度高、训练数据量庞大的特点。
- 技术特点:
- 参数量巨大:大模型通常具有上亿甚至百亿级别的参数量,这使得模型具有更强的表达能力。
- 计算复杂度高:在训练和推理过程中,计算量较大,对硬件设备提出了更高的要求。
- 数据依赖性:大模型需要大量的训练数据,以充分学习数据的分布特征。
- 模型压缩与加速:为了满足实际应用需求,研究人员需要对大模型进行压缩和加速,如知识蒸馏、模型剪枝等。
自然语言处理(NLP, Natural Language Processing)大模型是人工智能领域的一个重要分支,专注于让计算机能够理解、生成和处理人类语言。这些大模型通常拥有海量的参数,通过深度学习和大规模数据集的训练,实现了对语言的深入理解和高效处理。以下是对[NLP]大模型的详细介绍:
一、NLP大模型的主要类型
- GPT系列
- GPT(Generative Pre-trained Transformer):由OpenAI开发的一系列NLP大模型,采用多层Transformer结构来预测下一个单词的概率分布。该系列模型通过预训练学习到语言模式,并能在多种NLP任务上表现出色。
- GPT-1:发布于2018年,参数规模为1.17亿,是GPT系列的开山之作。
- GPT-2:发布于2019年,参数规模提升至15亿,生成的文本质量更高、更自然流畅,能够生成更长的文本段落。
- GPT-3:发布于2020年,参数规模达到惊人的1750亿,是迄今为止最大的NLP模型之一。GPT-3在自然语言处理方面的表现十分出色,可以完成文本自动补全、将网页描述转换为相应代码、模仿人类叙事等多种任务。此外,GPT-3还具备零样本学习的能力,即在没有进行监督训练的情况下,可以生成合理的文本结果。
- GPT-4:发布于2023年,是一个大型多模态模型,支持图像和文本输入,再输出文本回复。GPT-4在多个专业和学术测试中表现出色,甚至在某些测试中达到了专业人士的水平。
- GPT(Generative Pre-trained Transformer):由OpenAI开发的一系列NLP大模型,采用多层Transformer结构来预测下一个单词的概率分布。该系列模型通过预训练学习到语言模式,并能在多种NLP任务上表现出色。
- BERT(Bidirectional Encoder Representations from Transformers)
- 由谷歌在2018年提出,是一种基于Transformer的双向编码器的表示学习模型。BERT通过预训练任务(如掩码语言模型和下一句预测)学习了大量的语言知识,并在多个NLP任务上刷新了记录。BERT的双向编码器结构使其能够同时考虑上下文信息,从而提高了模型的性能。
OCR大模型(Optical Character Recognition,光学字符识别)是一种将图像中的文字转换为机器编码文本的技术。它通过扫描或拍照的方式将纸质文档中的文字转换为电子格式,便于编辑、存储和检索。OCR技术在许多领域都有广泛应用,如数据录入、文献数字化、辅助阅读设备等。
OCR大模型的工作原理
OCR大模型的工作原理主要包括以下几个步骤:
- 去噪声:使用滤波器(如中值滤波器、高斯滤波器)减少图像中的噪声,如尘埃、划痕等。
- 灰度化:将彩色图像转化为灰度图像,降低计算复杂度同时保留主要信息。
- 二值化:将图像转换为只包含黑白两色的图像,通过设定阈值强化文字与背景的对比度。
- 去斜和校正:自动纠正图像中的扭曲和倾斜,确保文本的正确识别3。
POC(Proof of Concept)大模型是指在进行大规模应用之前,通过概念验证(Proof of Concept,简称POC)来测试大模型在实际应用中的可行性和效果。POC测试是大模型落地应用的重要环节,旨在验证大模型在特定场景下的性能和稳定性,确保其在正式部署前能够满足业务需求。
POC测试在大模型落地中的应用
- 验证大模型的性能和稳定性:通过POC测试,可以评估大模型在处理特定任务时的准确性和效率,确保其在正式环境中能够稳定运行。
- 优化大模型的参数和架构:根据POC测试的结果,可以对大模型的参数和架构进行优化,提高其在实际应用中的表现。
- 降低风险:POC测试可以帮助发现潜在的问题和缺陷,从而在正式部署前进行修正,降低项目风险。
1、Chroma
关键词: 轻量级、易用性、开源
功能特性:快速搭建小型语义搜索
-
提供高效的近似最近邻搜索(ANN)
-
支持多种向量数据类型和索引方法
-
易于集成到现有的应用程序中
-
适用于小型到中型数据集
应用系统:小型语义搜索原型、研究或教学项目
自从[GPT模型]诞生以来,其参数规模就在不停的扩大。但模型并非简单的直接变大,需要在数据、调度、并行计算、算法和机器资源上做相应的改变。
今天就来总结下,什么是大模型,模型变大的难在哪里以及对于CV/NLP或者搜推广场景上有什么应对策略。
什么是大模型?
大模型,顾名思义主打的就是“大”。主要包括几个方面:
- 数据规模大,通过大量的数据提高模型的[泛化能力]和性能。
- 大规模并行计算能力,随着计算硬件的不断进步,如GPU和TPU的普及,大规模并行计算能力的提升使得训练和推理大模型成为可能。
- 更“大”模型复杂性:大模型具备更深层次、更复杂的网络结构,可以捕捉更丰富的特征和关系,提高了模型的表达能力。
简介
**是一款新一代极速全场景(Massively Parallel Processing)数据库。**它遵循开源协议,采用简洁的架构设计,配备了全面向量化引擎和基于成本的优化器(CBO),能够实现亚秒级的查询速度,尤其是在多表关联查询方面表现突出。
主要特性
- 极速查询:StarRocks通过MPP框架和向量化执行引擎,能够提供亚秒级的查询速度,特别适用于多表关联查询。
- 现代化物化视图:支持现代化物化视图,进一步加速查询。
- 兼容性:兼容协议,支持标准,易于对接使用。
- 分布式架构:采用分布式架构,数据表水平划分并以多副本存储,支持10PB级别的数据分析,具有弹性容错能力。
- 高并发处理:通过良好的数据分布特性和灵活的索引设计,StarRocks能够处理高并发查询。