AIGC(Artificial Intelligence Generated Content)
从定义的角度来看,AIGC全英文是Artificial Intelligence Generated Content,指的是人工智能系统生成的内容,通常是文字、图像、音频或视频。这类内容可以通过自然语言处理,机器学习和计算机视觉等技术生成。
对于界定的理解,如果大家觉得看AIGC不明白,可以将其分开来看。前两个字母AI,应该是比较容易理解吧!就是我们常说的,人工智能吗!AIGC是AI后面加了两个字母,那就是人工智能的升级版呗!这样就好理解了!
如果你用再流行的ChatGPT去问,AIGC与AI有区别,它的回答会有四个方面不同,分别是:用途不同、技术不同、数据不同、结果不同。
AIGC的主要目的是帮助人们快速生成大量内容,从而节省时间和资源。简单地理解,就是AIGC会生成一个内容给我们,比如:是一个图片、一段文字,或是一个音频与视频,而AI是做不到的。
就是因为AIGC可以给我一个内容,所以它的诞生,也是AI的升级,并将AI技术更好地进行落地。我们来看一下它的应用场描述。
从这个列表中,不仅能看到AIGC可以为我们的生活服务,更应该是感受到它的强大生命力与广泛的市场前景。
根据相关的研报测算,预计到 2025 年国内 AIGC 市场空间可达403.52 亿元,到 2030 年市场空间可达 2175.58 亿元,未来几年市场有望迎来爆发式成长。
AIGC的发展历程可以分成三个阶段:早期萌芽阶段(上世纪50年代至90年代中期),沉淀累积阶段(上世纪90年代至本世纪10年代中期),快速发展阶段(本世纪10年代中期至今)。
一、早期萌芽阶段(1950s~1990s)
由于技术限制,AIGC仅限于小范围实验和应用,例如1957年出现了首支电脑创作的音乐作品《依利亚克组曲(IlliacSuite)》。然而在80年代末至90年代中期,由于高成本和难以商业化,AIGC的资本投入有限,因此未能取得许多显著进展。
二、沉淀累积阶段(1990s~2010s)
AIGC逐渐从实验性转向实用性,2006年深度学习算法取得进展,同时GPU和CPU等算力设备日益精进,互联网快速发展,为各类人工智能算法提供了海量数据进行训练。2007年出版了首部由AIGC创作的小说《在路上》(1TheRoad),2012年微软展示了全自动同声传译系统,主要基于深度神经网络(DNN),自动将英文讲话内容通过语音识别等技术生成中文。
三、快速发展阶段(2010s~至今)
2014年深度学习算法**“生成式对抗网络”(GenerativeAdversarialNetwork,GAN)推出并迭代更新,助力AIGC新发展。2017年微软人工智能少年“小冰”推出世界首部由人工智能写作的诗集《阳光失了玻璃窗》,2018年NVIDIA(英伟达)发布StyleGAN模型可自动生成图片,2019年DeepMind**发布DVD-GAN模型可生成连续视频。2021年OpenAI推出DALL-E并更新迭代版本DALL-E-2,主要用于文本、图像的交互生成内容。2024年5月14日,OpenAI公司推出一款名为GPT-4o的人工智能模型,具备“听、看、说”的出色本领。
四、2023年AIGC入世元年
2023年更像是AIGC入世元年,AIGC相关的话题爆炸式的出现在了朋友圈、微博、抖音等社交媒体,正式被大众所关注。其中令人印象深刻的是微软全系融入AI创作和OpenAIGPT-4的发布:2023年1月,微软必应搜索(MicrosoftBingSearch)推出了一项创新的功能,即聊天模式(ChatMode)。这项功能允许用户通过聊天框与必应搜索进行交互,获取信息、娱乐、创意等各种内容。必应搜索利用了先进的自然语言处理(NLP)和生成技术,能够理解和回答用户的各种问题和请求,同时提供相关的网页搜索结果、建议、广告等。必应搜索还能够根据用户的选择,切换不同的模式,如平衡模式(BalancedMode)、创意模式(CreativeMode)和精确模式(PreciseMode),以满足用户的不同需求和偏好。必应搜索的聊天模式是AIGC领域的一个突破,展示了人工智能与人类交流的可能性和潜力。
3.2AIGC关键技术
GAN、CLIP、Transformer、Diffusion、预训练模型、多模态技术、生成算法等技术的累积融合,催生了AIGC的爆发。算法不断迭代创新、预训练模型引发AIGC技术能力质变,多模态推动AIGC内容多边形,使得AIGC具有更通用和更强的基础能力。
一、GAN生成式对抗网络(早期视频生成)
GAN(GenerativeAdversarialNetworks),是一种由两个主要组成部分构成的深度学习模型:生成器(Generator)和判别器(Discriminator)。这两个部分通过对抗学习的方式相互竞争,从而使得生成器能够不断提高生成逼真样本的能力,而判别器则不断提高辨别真伪样本的能力。
GAN的工作原理可以概括为:
生成器(Generator):接收一个随机噪声向量作为输入,并将其转化为与真实数据相似的样本。随着训练的进行,生成器的输出逐渐变得更加逼真,目标是欺骗判别器,使其无法准确区分生成的样本和真实数据。
判别器(Discriminator):评估输入样本的真实性。它接收来自生成器的样本和真实数据,并尝试将它们正确分类为“真”或“假”。判别器的目标是尽可能准确地区分生成的样本和真实数据,使得生成器的输出更加逼真。
GAN在许多领域都取得了突破性的应用,包括但不限于图像合成与编辑、视频生成、文本生成、数据增强等。
GAN的优点包括:
能够生成高质量的图像和视频,如高分辨率图像、风格转换和图像增强等。
训练过程中不需要复杂的马尔科夫链,而是采用无监督的学习方式训练,适用于无监督学习和半监督学习领域。
相比其他生成模型,如玻尔兹曼机和GSNs,GANs只需要使用反向传播,不需要复杂的马尔科夫链。
相比变分自编码器(VAE),GANs没有引入任何决定性偏置,如果鉴别器训练良好,那么生成器可以完美地学习到训练样本的分布。
GAN的缺点包括:
训练GAN需要达到纳什均衡,这有时可能是一个挑战。
GAN不适合处理离散形式的数据,如文本。
训练GAN相比VAE或PixelRNN是不稳定的。
总的来说,GAN网络是一种强大的工具,能够通过深度学习模型生成与真实数据高度相似的样本,广泛应用于多个领域。
二、CLIP模型(多模态预训练神经网络)
CLIP模型是一种由OpenAI在2021年发布的多模态预训练神经网络,全称为ContrastiveLanguage-ImagePre-Training,即从自然语言监督中学习的一种有效且可扩展的方法。
CLIP模型的基本原理是通过对比学习让模型区分正样本和负样本,本质上是通过分类实现的。为了实现这一目标,CLIP使用了一个多模态编码器,它由图像编码器和文本编码器两个子编码器组成。图像编码器可以是基于卷积神经网络(CNN)或者视觉变换器(ViT)的模型,文本编码器则是一个基于Transformer的模型。在预测阶段,CLIP模型通过计算文本和图像向量之间的余弦相似度来生成预测。
CLIP模型特别适用于零样本学习任务,即模型不需要看到新的图像或文本的训练示例就能进行预测。它在多个领域表现出色,如图像文本检索、图文生成等,具有广泛的应用前景,包括但不限于图像分类、内容调节、图像描述等任务。
然而,CLIP模型也有其局限性,例如对于复杂和抽象场景的表现存在局限性,且训练效果依赖大规模的文本-图像对数据集,对训练资源的消耗比较大。
此外,关于CLIP模型的大小,具体取决于所选用的图像编码器和文本编码器的结构以及训练数据的大小。因此,无法给出具体的模型大小。
总的来说,CLIP模型是一种强大的多模态模型,能够将图像特征和文本特征进行对齐,从而实现跨模态的检索和生成任务。随着技术的不断发展,CLIP模型有望在更多领域得到应用和优化。
三、自然语言处理技术NLP
自然语言处理(NaturalLanguageProcessing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别。自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。因而它是计算机科学的一部分。自然语言处理主要应用于机器翻译、舆情监测、自动摘要、观点提取、文本分类、问题回答、文本语义对比、语音识别、中文OCR等方面。
四、MLP算法
MLP(多层感知器模型)是一种简单的神经网络,是人工智能最早的模型。MLP的特点是层与层之间的神经元全部相互连接(这种层可称为全连接层),为便于理解,可以将其理解为一种广义的线性模型:
五、卷积神经网络CNN
在卷积神经网络中,卷积操作指将一个可移动的小窗口(称为数据窗口,如下图绿色矩形)与图像进行逐元素相乘然后相加的操作。这个小窗口其实是一组固定的权重,它可以被看作是一个定的滤波器(filter)或卷积核。这个操作的名称“卷积”源自于汶种元素级相乘和求和的过程。这一操作是卷积神经网络名字的来源。
简而言之,卷积操作就是用一个可移动的小窗口来提取图像中的特征,这个小窗口包含了一组特定的权重,通过与图像的不同位置进行卷积操作,网络能够学习并捕捉到不同特征的信息。
CNN还具有一个非常重要的特性,它是通过共享卷积核来提取特征,这样一方面可以极大的降低参数量来避免更多冗余的计算从而提高网络模型计算的效率,另一方面又结合结合卷积和池化使网络具备一定的平移不变性(shift-invariant)和平移等变性(equivariance)。
虽然CNN具备如此多的优点,但不是一开始就一蹴而就,也并不是完美无瑕的。
以图像分割为例,在全卷积神经网络FCN提出以前,大多数基于CNN的方法都是基于Patch-wise即将图像块作为输入输入到CNN中去进行相应类别预测,这种方式一来计算非常冗余,二来也缺乏充足的上下文信息。
所以为什么FCN会这么有影响力,甚至可以称为是一个mile-stone的网络,就在于它真正意义上将patch-wise做到了pixel-wise,这对于语义分割这种密集型任务来说是至关重要的。
当然,FCN也存在许多的缺点,诸如分割结果粗糙等,当这并不妨碍我们基于它的思想去进行很多的拓展。
比如最近几年提出的很多分割论文都是针对它去进行改进,有人提倡改善编码器利用更强大的卷积模块去提取更具备代表性的特征。
有人热衷于改善解码器,比如引入跳跃连接操作来弥补编码器下采样过程中空间细节信息的丢失从而来实现更精准的定位,关于如何跳跃又是一个问题,有直接连线的Unet。
继而有人又借助语义鸿沟(semanticgap)或者背景噪声干扰这些口去突破,利用多个卷积去消除,结合高级特征的强语义和低级特征丰富的细节信息去指导融合的也有,另外还有借助注意力方式去消除歧义和抑制背景噪声的也大有人在。
除了编解码器之外,我们借用特征金字塔的思想还可以结合多层的结果去融合输出,得到一个更加细化的特征表示。在抛掉模型本身,也可以从任务本身下手,从全监督到半监督,自监督,few-shotlearning,ome-shotlearning,甚至是无监督域等等也有很多方向可以突破。
其他视觉任务如分类,检测或者low-level的任务如超分,去噪等也可以此类比,很多人写不来论文或者解决不了问题的关键点在于根本没发现问题在哪里,又何谈解决问题。
六、探索视觉Transformer(2022CN)
根据当下比较流行的说法,Transformer是谷歌于2017年提出的一种新型神经网络架构。
和传统的神经网络算法相比,Transformer的特点在于自注意力机制(Self-Attention)。比如在自然语言处理时,它能让模型评估句子中各个词的重要性,从而根据上下文锁定关键信息,提高下一阶段的文本预测与建模能力。
在此过程中,它的两大组件:编码器(Encoder)和解码器(Decoder),一个负责处理输入文本数据,进行编码和价值特征提取,一个负责生成有意义的文本序列信息,配合默契。
除此之外,Transformer的并行处理能力很强,能同时处理输入文本的各个部分,无须按顺序处理,这极大地提高了模型计算和训练的速度。
因为这些优势,目前主流的AI模型和产品,比如GPT、Claude、ChatGPT、GoogleBard、Midjourney等均有基于Transformer架构进行开发。
七、机器学习(eg.随机森林、支持向量机、感知机)
机器学习(Machinelearning)是人工智能的子集,是实现人工智能的一种途径,但并不是唯一的途径。它是一门专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能的学科。大概在上世纪80年代开始蓬勃发展,诞生了一大批数学统计相关的机器学习模型。
机器学习研究的是计算机怎样模拟人类的学习行为,以获取新的知识或技能,并重新组织已有的知识结构,使之不断改善自身。从实践的意义上来说,机器学习是在大数据的支撑下,通过各种算法让机器对数据进行深层次的统计分析以进行「自学」,使得人工智能系统获得了归纳推理和决策能力。
机器学习三要素包括数据、模型、算法。
机器学习核心技术。分类:应用以分类数据进行模型训练,根据模型对新样本进行精准分类与预测。聚类:从海量数据中识别数据的相似性与差异性,并按照最大共同点聚合为多个类别。异常检测:对数据点的分布规律进行分析,识别与正常数据及差异较大的离群点。回归:根据对已知属性值数据的训练,为模型寻找最佳拟合参数,基于模型预测新样本的输出值。
机器学习基本流程。机器学习工作流(WorkFlow)包含数据预处理(Processing)、模型学习(Learning)、模型评估(Evaluation)、新样本预测(Prediction)几个步骤。
八、深度学习(eg.CNN)
深度学习(Deeplearning)是机器学习的子集,灵感来自人脑,由人工神经网络(ANN)组成,它模仿人脑中存在的相似结构。在深度学习中,学习是通过相互关联的「神经元」的一个深层的、多层的「网络」来进行的。「深度」一词通常指的是神经网络中隐藏层的数量。大概在2012年以后爆炸式增长,广泛应用在很多的场景中。
深度学习的工作原理是什么?
深度学习由神经网络层驱动。神经网络由一系列算法按照人类大脑的工作方式松散建模而成,而使用大量数据进行训练,即对神经网络的神经进行配置。经过训练后,深度学习模型可以处理新数据,能够摄取并实时分析多个来源的数据,无需人为干预。在深度学习中,图形处理单元(GPU)可以同时处理多个计算,以优化方式训练深度学习模型。
在现实中,深度学习助力众多人工智能(AI)技术改善自动化和分析任务。绝大多数人每天都会接触到深度学习,例如在浏览互联网或使用手机时。深度学习可为YouTube视频生成摘要;在手机和智能音箱上执行语音识别;针对图片开展人脸识别;驱动无人驾驶汽车。随着数据科学家和研究人员不断运用深度学习框架来处理日益复杂的深度学习项目,深度学习将逐步成为我们日常生活的一部分。
深度学习与神经网络有何区别?
深度学习与神经网络对比。简单来说,深度学习就是具有多个神经层的神经网络的另一种说法。为了充分利用观测数据(例如图片或音频),神经网络会跨互联的神经网络节点层传递数据。在每一个节点层上,每一个节点都会对数据进行简单运算,并有选择地将数据传递到其他节点。随着数据不断传递,每一个节点层都会利用比上一层更高级的特性来处理数据,直至输出结果。在输入层与输出层之间,所有的神经网络层均被称为隐藏层。神经网络与深度学习的区别在于,一个基本的神经网络可能拥有一个或两个隐藏层,而一个深度学习网络可能拥有数十个甚至数百个隐藏层。一般来说,层数和节点越多,结果就越准确。不过,层数越多,深度学习模型的参数和对计算的需求就越多。神经网络可通过一组输入层来接收原始数据,而深度学习可以通过神经网络层对信息进行分类。例如,经过鸟类图像训练的神经网络可以识别鸟类图像。更多的层意味着更准确的结果,例如随着层数增加,神经网络能够从区分乌鸦和鸡升级到区分渡鸦和乌鸦。此外,深度学习算法驱动的深度神经网络拥有多个隐藏层(位于输入节点和输出节点之间),可以完成更加复杂的数据分类工作。深度学习算法必须基于大量的数据进行训练,它接收的数据越多,就越准确。例如,只有经过数千张鸟类图像的训练,算法才能准确地对新的鸟类图像进行分类。
对于神经网络而言,深度学习模型训练是一项资源密集型工作。在训练中,神经网络摄取数据(即输入),然后隐藏层基于权重(即表示输入数据之间连接强度的参数,将在训练过程中适时调整)对数据进行处理,最后输出预测。其中,权重将基于训练所使用的输入数据进行调整,以此来优化预测。深度学习模型需要耗费大量时间来训练海量数据,因此,高性能计算不可或缺。
GPU针对数据计算进行了专门优化,旨在提高大规模矩阵计算的性能。它尤其适用于并行执行大规模机器学习(ML)和深度学习,可帮助机器学习应用高效地对大量结构化或非结构化数据(例如图像、文本和语音)执行大量运算,实现超强性能。
**使用深度学习的5大理由。**深度学习的一个重大优势是它的神经网络可揭示数据中的隐藏洞察和关系。通过利用更强大的机器学习算法来分析大规模的复杂数据,企业可以通过以下方式改善欺诈检测、供应链管理和网络安全:1)分析非结构化数据。深度学习算法可以分析社交媒体帖子、新闻资讯和调查报告,从而探查文本数据,提供有价值的业务和客户洞察。2)数据标记。深度学习模型的训练离不开标记数据。经过训练,深度学习模型可以自行标记新数据,识别各类数据。3)特征工程。机器学习算法可显著节约时间—无需手动从原始数据中提取特征。4)效率。经过适当训练,深度学习算法能够以远超人类的速度,持续执行数千项任务。5)训练。在深度学习中,神经网络适用于多种类型的数据和应用。而通过使用新数据重新训练,深度学习模型可响应新的变化。
**AI、机器学习和深度学习有何区别?**尽管AI、机器学习和深度学习相互关联,但它们之间存在本质区别:人工智能(AI),人工智能可让计算机、机器和机器人模仿人,像人一样制定决策、识别对象、解决问题和理解语言。机器学习(ML),机器学习是AI的一个子集,它专注于构建可自主学习(无需人为干预)数据,从而持续提高准确性的应用。经过训练,机器学习算法可识别数据模式,做出更明智的决策和预测,但这一般需要用户参与。深度学习,深度学习是机器学习的一个子集,可帮助计算机解决更复杂的问题。深度学习模型同样可以自主创建新特征。
九、Diffusion扩散模型
扩散模型全称是DiffusionModel。因早期的视频生成主要依赖GAN(生成式对抗网络)和VAE(变分自编码器),但生成的视频内容质量受限,难以商用。最早被用在分布式学习上的扩散模型,很快被拓展到视频生成和处理领域。
从结果看,扩散模型在超分辨率、去噪、图像生成、修复等方面表现不俗。热门的StableDiffusion,就是当下很流行的开源扩散模型之一。
和以往图像视频生成模型/方法相比,扩散模型的工作原理在于在图像生成过程中,通过前向扩散(加噪)和反向扩散(去噪)不断修正训练自己,以生成更好的图像样本。目前,Runway、Pika、StableVideo等AI视频服务公司,就采用了这种扩散模型来生成视频。
DiT,全称DiffusionTransformer,是另外一种扩散模型,只是它基于Transformer架构,算是Transformer在自然语言处理领域获得成功后,在图像视频处理领域的一大延伸。
目前openAI的GLIDE、DALLE-2、DALL·E3、谷歌的Imagen等就采用了基于Transformer架构的扩散模型。
综合以上几点,我们不难看出:Transformer是一种热门架构,而扩散模型也有采用这一架构,推出了新型的扩散模型——DiT。
需要补充的是,扩散模型虽然是AI视频生成的主流形式,但并不是唯一的形式。
比如以谷歌VideoPoe为代表的AI图像视频生成工具,就没有采用扩散模型,而是基于大语言模型实现文生视频、图生视频、视频编辑、风格化处理、画面补充等任务。
以上导致了同属AI视频生成赛道,可能底层的技术模型并不一样。
不过为了提升视频生成的精度和质量,眼下以Sora为代表的AI视频生成模型,正逐步走向扩散模型与DiT的结合。这种优势互补,也让整个AI视频赛道迎来了颠覆性的变化。
十、多模态技术
多模态模型通过高技术供给重塑AI技术范式。多模态模型通过融合语言模态与图像模态,将语言模态包含的文本理解与思维链能力投射在图像模态上,赋予了模型图像理解与生成功能。从AI技术范式来看,多模态技术通过预训练+调参的方式颠覆了传统机器视觉小模型CNN高度定制化的业务模式,模型的泛用性大幅度提高。从AI商业模式来看,产业的话语权逐渐由应用端走向研发端,即改变了之前完全由客户定夺市场(项目制考虑单一任务投入人力、算力、周期计算项目金额)转向由技术定义市场(MAAS,客户无法估测基础模型摊薄成本,基座模型大力投入限制参与玩家,话语权降低)
多模态模型的核心目标是模拟人类大脑处理信息的方式。无论是语言模态还是图像模态,本质上是信息的一种载体。人类眼睛、耳朵等感官可以类比成接受各种模态的传感器,而大脑可以整合不同感官的信息来理解世界。同理,多模态模型模拟人类大脑处理信息的方式,把各种感知模态结合起来,以更全面、综合的方式理解和生成信息,最终实现更丰富的任务和应用。
多模态模型目前主要指的是文本-图像模型。模态是指一些表达或感知事物的方式,每一种信息的来源或者形式,都可以称为一种模态。例如,人有触觉,听觉,视觉,嗅觉;信息的媒介有语音、视频、文字等;多种多样的传感器如雷达、红外、加速度计等,每一种都可以称为一种模态。目前已落地的多模态模型主要为文本-图像大模型,已经有Clip、ViT、GPT-4等几十种基础模型推出,并且诞生了诸如StableDiffusion、Midjourney这样已落地的应用;所以多模态大模型领域目前以文本-图像大模型为主,未来随着AI技术的发展,包含更多模态的模型有望陆续推出。
多模态是实现通用人工智能的必经之路。按照处理的数据类型数量划分,AI模型可以划分为两类:
(1)单模态:只处理1种类型数据,如文本等;(2)多模态:处理2种及以上数据,可类比人脑同时对文本、声音、图像等不同类型信息进行处理。
相比单模态,多模态大模型在输入输出端的优势明显:输入端:1)提升模型能力:高质量语言数据存量有限,且不同模态包含的信息具有互补性,多元的训练数据类型有助于提升通用大模型能力;2)提高用户体验:推理侧更低的使用门槛和更少的信息损耗。输出端:更实用。1)可直接生成综合结果,省去多个模型的使用和后期整合;2)更符合真实世界生产生活需要,从而实现更大商业价值。
在腾讯2024数字科前沿应趋势中,强诓了通用人工智能渐行渐近,大模型走向多模态,A《智能体(Agent)有望成为下一代平台"。当下多模态大模型不仅仅是学界新宠,也是耒来行业发展进步的一大方向,站在汶篇综述的基础之上待我们可以更快更好的理解未来多椏态大椏型的发展,赶上汶波通用人工智能的新浪!
十一、循环神经网络RNN
循环神经网络(Recurrent Neural Networks)广泛应用于具有某种顺序的结构数据分析。与卷积神经网络相比,其预测值考虑了时序数据特征。其核心为通过隐藏层特征的时序传递,实现序列数据融合并决策输出。简单的说,当前状态输出基于当前状态输入与历史输入。
我们为什么需要 RNN?已经有像卷积网络这样表现非常出色的网络了,为什么还需要其他类型的网络呢?有一个需要用到 RNN 的特殊例子。为了解释 RNN,你首先需要了解序列的相关知识,我们先来讲一下序列。
序列是相互依赖的(有限或无限)数据流,比如时间序列数据、信息性的字符串、对话等。在对话中,一个句子可能有一个意思,但是整体的对话可能又是完全不同的意思。股市数据这样的时间序列数据也是,单个数据表示当前价格,但是全天的数据会有不一样的变化,促使我们作出买进或卖出的决定。
当输入数据具有依赖性且是序列模式时,CNN 的结果一般都不太好。CNN 的前一个输入和下一个输入之间没有任何关联。所以所有的输出都是独立的。CNN 接受输入,然后基于训练好的模型输出。如果你运行了 100 个不同的输入,它们中的任何一个输出都不会受之前输出的影响。但想一下如果是文本生成或文本翻译呢?所有生成的单词与之前生成的单词都是独立的(有些情况下与之后的单词也是独立的,这里暂不讨论)。所以你需要有一些基于之前输出的偏向。这就是需要 RNN 的地方。RNN 对之前发生在数据序列中的事是有一定记忆的。这有助于系统获取上下文。理论上讲,RNN 有无限的记忆,这意味着它们有无限回顾的能力。通过回顾可以了解所有之前的输入。但从实际操作中看,它只能回顾最后几步。
本文仅为了与人类大体相关联,而不会做任何决定。本文只是基于之前关于该项目的知识做出了自己的判断(我甚至尚未理解人类大脑的 0.1%)。
何时使用 RNN?RNN 可用于许多不同的地方。下面是 RNN 应用最多的领域。1. 语言建模和文本生成。给出一个词语序列,试着预测下一个词语的可能性。这在翻译任务中是很有用的,因为最有可能的句子将是可能性最高的单词组成的句子。2. 机器翻译。将文本内容从一种语言翻译成其他语言使用了一种或几种形式的 RNN。所有日常使用的实用系统都用了某种高级版本的 RNN。3. 语音识别。基于输入的声波预测语音片段,从而确定词语。4. 生成图像描述。RNN 一个非常广泛的应用是理解图像中发生了什么,从而做出合理的描述。这是 CNN 和 RNN 相结合的作用。CNN 做图像分割,RNN 用分割后的数据重建描述。这种应用虽然基本,但可能性是无穷的。5. 视频标记。可以通过一帧一帧地标记视频进行视频搜索。
十二、GPU
以下GPU部分内容参考知乎小枣君:AI计算,为什么要用GPU?
AI计算,要用GPU。行业里通常会把半导体芯片分为数字芯片和模拟芯片。其中,数字芯片的市场规模占比较大,达到70%左右。数字芯片,还可以进一步细分,分为:逻辑芯片、存储芯片以及微控制单元(MCU)。
逻辑芯片,其实说白了就是计算芯片。它包含了各种逻辑门电路,可以实现运算与逻辑判断功能,是最常见的芯片之一。大家经常听说的CPU、GPU、FPGA、ASIC,全部都属于逻辑芯片。而现在特别火爆的AI,用到的所谓“AI芯片”,也主要是指它们。
GPU是显卡的核心部件,英文全名叫GraphicsProcessingUnit,图形处理单元(图形处理器)。GPU并不能和显卡划等号。显卡除了GPU之外,还包括显存、VRM稳压模块、MRAM芯片、总线、风扇、外围设备接口等。
1999年,英伟达(NVIDIA)公司率先提出了GPU的概念。之所以要提出GPU,是因为90年代游戏和多媒体业务高速发展。这些业务给计算机的3D图形处理和渲染能力提出了更高的要求。传统CPU搞不定,所以引入了GPU,分担这方面的工作。根据形态,GPU可分为独立GPU(dGPU,discrete/dedicatedGPU)和集成GPU(iGPU,integratedGPU),也就是常说的独显、集显。GPU也是计算芯片。所以,它和CPU一样,包括了运算器、控制器和寄存器等组件。但是,因为GPU主要负责图形处理任务,所以,它的内部架构和CPU存在很大的不同。
CPU的内核(包括了ALU)数量比较少,最多只有几十个。但是,CPU有大量的缓存(Cache)和复杂的控制器(CU)。这样设计的原因,是因为CPU是一个通用处理器。作为计算机的主核心,它的任务非常复杂,既要应对不同类型的数据计算,还要响应人机交互。复杂的条件和分支,还有任务之间的同步协调,会带来大量的分支跳转和中断处理工作。它需要更大的缓存,保存各种任务状态,以降低任务切换时的时延。它也需要更复杂的控制器,进行逻辑控制和调度。
CPU的强项是管理和调度。真正干活的功能,反而不强(ALU占比大约5%~20%)。如果我们把处理器看成是一个餐厅的话,CPU就像一个拥有几十名高级厨师的全能型餐厅。这个餐厅什么菜系都能做,但是,因为菜系多,所以需要花费大量的时间协调、配菜,上菜的速度相对比较慢。
而GPU则完全不同。GPU为图形处理而生,任务非常明确且单一。它要做的,就是图形渲染。图形是由海量像素点组成的,属于类型高度统一、相互无依赖的大规模数据。所以,GPU的任务,是在最短的时间里,完成大量同质化数据的并行运算。所谓调度和协调的“杂活”,反而很少。并行计算,当然需要更多的核啊。如前图所示,GPU的内核数,远远超过CPU,可以达到几千个甚至上万个(也因此被称为“众核”)。
GPU的核,称为流式多处理器(StreamMulti-processor,SM),是一个独立的任务处理单元。在整个GPU中,会划分为多个流式处理区。每个处理区,包含数百个内核。每个内核,相当于一颗简化版的CPU,具备整数运算和浮点运算的功能,以及排队和结果收集功能。
GPU的控制器功能简单,缓存也比较少。它的ALU占比,可以达到80%以上。
虽然GPU单核的处理能力弱于CPU,但是数量庞大,非常适合高强度并行计算。同等晶体管规模条件下,它的算力,反而比CPU更强。还是以餐厅为例。GPU就像一个拥有成千上万名初级厨师的单一型餐厅。它只适合做某种指定菜系。但是,因为厨师多,配菜简单,所以大家一起炒,上菜速度反而快。
大家都知道,现在的AI计算,都在抢购GPU。英伟达也因此赚得盆满钵满。为什么会这样呢?原因很简单,因为AI计算和图形计算一样,也包含了大量的高强度并行计算任务。深度学习是目前最主流的人工智能算法。从过程来看,包括训练(training)和推理(inference)两个环节。在训练环节,通过投喂大量的数据,训练出一个复杂的神经网络模型。在推理环节,利用训练好的模型,使用大量数据推理出各种结论。训练环节由于涉及海量的训练数据,以及复杂的深度神经网络结构,所以需要的计算规模非常庞大,对芯片的算力性能要求比较高。而推理环节,对简单指定的重复计算和低延迟的要求很高。它们所采用的具体算法,包括矩阵相乘、卷积、循环层、梯度运算等,分解为大量并行任务,可以有效缩短任务完成的时间。GPU凭借自身强悍的并行计算能力以及内存带宽,可以很好地应对训练和推理任务,已经成为业界在深度学习领域的首选解决方案。目前,大部分企业的AI训练,采用的是英伟达的GPU集群。如果进行合理优化,一块GPU卡,可以提供相当于数十其至上百台CPU服务器的算力。
2012年,神经网络之父杰弗里·辛顿(GeoffreyHinton)的两个学生——亚历克斯·克里切夫斯基(AlexKrizhevsky)、伊利亚·苏茨克沃(IlyaSutskever),利用“深度学习+GPU”的方案,提出了深度神经网络AlexNet,将识别成功率从74%提升到85%,一举赢得ImageNet挑战赛的冠军。这彻底引爆了“AI+GPU”的浪潮。英伟达公司迅速跟进,砸了大量的资源,在三年时间里,将GPU性能提升了65倍。除了硬刚算力之外,他们还积极构建围绕GPU的开发生态。他们建立了基于自家GPU的CUDA(ComputeUnifiedDeviceArchitecture)生态系统,提供完善的开发环境和方案,帮助开发人员更容易地使用GPU进行深度学习开发或高性能运算。这些早期的精心布局,最终帮助英伟达在AIGC爆发时收获了巨大的红利。目前,他们市值高达1.22万亿美元(英特尔的近6倍),是名副其实的“AI无冕之王”。
3.3相关概念
一、算力:
算力是计算机设备或计算/数据中心处理信息的能力,是计算机硬件和软件配合共同执行某种计算需求的能力。
算力的英文名是computility。其中的compu-是计算的词根,表达“算”的含义,-utility是效用、实用的意思。computility用来表达计算的能力,即算力。
2024年4月,工业和信息化部表示,中国算力实现每秒230百亿亿次浮点运算。
二、大模型:
1.什么是大模型?
大模型又可以称为Foundation Model(基石)模型,模型通过亿级的语料或者图像进行知识抽取,学习进而生产了亿级参数的大模型。其实感觉就是自监督学习,利用大量无标签很便宜的数据去做预训练。
比如BERT,怎么做的无监督pre-trained?他会把输入的句子中的token随机遮住,然后去预测这个token经过encoder以后的输出单词的概率(通过softmax),因为我们自己是知道哪个token被遮住了的,loss就是让模型预测的记过越来越接近真实值(有一个词汇表,可以编码GT的one-hot),通过这样来反传播训练。
2.大模型能解决什么问题?
大规模预训练可以有效地从大量标记和未标记的数据中捕获知识,通过将知识存储到大量的参数中并对特定任务进行微调,极大地扩展了模型的泛化能力。在应对不同场景时,不再从0开始,只需要少量的样本进行微调。再比如BERT已经训练好了,我们要做下游任务,做一个句子的情感分析。那么就会在BERT的输入token中加入一个 class token,这个和vit的做法一样,encoder以后用class token的向量做一下linear transoformation 和softmax和gt做损失训练,所以这一步可以直接初始化BERT模型的预训练参数做finetune,效果要更好。收敛的又快,loss又低。
3.知名大模型
GoogleBard、googleGemini、盘古、悟道等
4 赛道、玩家、概念股
4.1赛道及玩家
按照技术成熟度划分,可分为两类:
按照产品形态划分,目前90%+AI应用为软件形态,AI硬件开始层出不穷,但还没迎来“iPhone时刻”。
AI硬件代表品类中,“AI+万物”包括AI手机、AIPC等;AI新物种包括AIPin、RabbitR1等。
按照作用属性以及软硬件形态,厂商及代表产品划分如下。具备生产力属性的产品占比达95%以上。
国内几个主要AIGC大模型独角兽:
月之暗面:KIMI(2024.2.19投资方:红杉中国、小红书、美团、阿里;2023.6.12VC投资:红杉资本、真格基金、励思资本等)
智普AI:2014年1月GLM-4模型(斯坦佛评测亚洲唯一入选模型)、生成式AI助手“智谱清言”
MiniMax:
百川智能:
零一万物:
光年之外:
澜舟科技:
4.2概念股
以下是国内8大AIGC概念股龙头股:
1.万兴科技:万兴科技是一家中国领先的电子产品设计与制造服务提供商。他们致力于为全球客户提供从产品设计、研发到制造的一站式解决方案,涵盖智能手机、平板电脑、智能穿戴设备等多个领域。
2.科大讯飞:科大讯飞是中国领先的人工智能(AI)公司,专注于语音识别、自然语言处理、机器学习等核心技术的研发与应用。他们的产品和服务广泛应用于教育、医疗、交通、安防等各个领域。
3.视觉中国:视觉中国是中国最大的图库图片供应商和版权服务提供商之一。他们拥有庞大的图片资源库,为广告、传媒、出版等行业提供高质量的图片和版权服务。
4.人民网:人民网是中国权威的新闻门户网站,以提供全面、及时、权威的新闻信息为主要特色。他们在新闻报道、资讯分发和互动社区等方面具有较高的影响力。
5.新华网:新华网是中国新华社旗下的新闻门户网站,致力于提供全球最新的新闻和信息。他们拥有广泛的新闻报道网络和全球分支机构,以及多媒体、移动互联网等创新平台。
6.风语筑:风语筑是一家专注于语音技术和智能音频产品的公司。他们提供语音合成、语音识别、智能音箱等相关产品和解决方案,广泛应用于智能家居、车载导航、教育培训等领域。
7.天娱数科:天娱数科是一家专注于数字娱乐产业的综合服务提供商。他们提供音乐制作、音乐版权管理、数字音乐发行等服务,致力于推动数字娱乐产业的发展。
8.鸿博股份:鸿博股份是一家集智能终端设备制造、零售和物流配送为一体的公司。他们主要从事移动通信设备、电脑配件等产品的研发、生产和销售。
股市有风险,投资需谨慎。
5未来发展
5.1发展趋势
AIGC是PGC、UGC之后,全新的内容生产方式。不仅能提升内容生产的效率以满足我们飞速增长的内容需求,也能够丰富内容的多样性。在2022年百度世界大会上,李彦宏提到了:「AIGC将走过三个发展阶段:第一个阶段是『助手阶段』,AIGC用来辅助人类进行内容生产;第二个阶段是『协作阶段』,AIGC以虚实并存的虚拟人形态出现,形成人机共生的局面;第三个阶段是『原创阶段』,AIGC将独立完成内容创作。未来十年,AIGC将颠覆现有内容生产模式,可以实现以十分之一的成本,以百倍千倍的生产速度,去生成AI原创内容。」
从PGC到UGC再到AIGC,AIGC能让人类突破内容生产力枷锁,高效率生成高质量内容,让人类进入到真正的元宇宙之中。若要AIGC能够满足元宇宙的需求,独立完成高质量、高精度的内容,AIGC技术层面还需要一定的发展,我们可以分为软硬件两个维度看,软件层面主要包括自然语言处理技术、AIGC生成算法模型和数据集,硬件层面主要是算力、通信网络。
从业务层面看,结合国内外发展情况,目前在AIGC的知识产权归属方面尚有法律空缺,且创作伦理问题也未得到有效解决,因此无论是技术还是商业层面,高质、干净的数据集对于模型训练及内容生成均有至关重要的影响。同时,随着AIGC逐步落地,其算力需求将大增,未来相关企业除用云计算之外,或组建自有算力集群,考虑到英伟达A100、H100出口受限,相关国产算力芯片将有机会获得增量市场。
5.2面临挑战
技术上来看,虽然当前生成的图片、文字已经可以用以商业用途,但还存在一些问题使得无法满足较高的质量要求。我们可以发现在二次元或抽象的图片生成中,AIGC的表现较好。但对于比较具体和细节的内容,生成的效果不尽如人意。
运用的AIGC生成算法不同也会导致产生的内容的差距;数据集的质量、合规性、风格偏向都会决定生成的内容质量。
以上,我们可以看到若要使得AIGC生成的内容真正高效地被运用在商业层面,那么自然语言处理、翻译模型、生成算法和数据集这些细分赛道都还有很大的进步空间。