《大模型应用开发极简入门》笔记——to do
术语使用加粗表示
术语解释使用
描述 表示
第一章 初始GPT-4和ChatGPT
人工智能(artificial intelligence)
简称AI,是此类技术的统称。
大语言模型(large language model, LLM)
简称LLM,是参数较多的语言处理模型,而GPT-4和其他GPT模型就是LLM。
自然语言处理(natural language processing, NLP)
是人工智能(AI)和语言学领域的分支学科。 现代NLP解决方案基于ML算法。
机器学习(machine learning, ML)
是人工智能领域一个重要的分支
深度学习(deep learning, DL)
是ML的一个分支,专注于受大脑结构启发的算法。
人工神经网络(artificial neural network)
DL和ML等算法被称为人工神经网络。
Transformer(一种特定神经网络架构)
像阅读机一样,只关注句子或段落的不同部分,以理解其上下文并产生连贯的回答。
词频
n-gram模型通过使用词频来根据前面的词预测句子中的下一个词。词频指的是在训练文本中紧随前面的词出现的频率最高的词。
循环神经网络(recurrent neural network, RNN)
是神经网络的一种。
长短期记忆(long short-term memory, LSTM)网络
是一种时间循环神经网络。由于独特的设计结构,LSTM适合于处理和预测时间序列中间隔和延迟非常长的重要事件。
注意力机制
Transformer架构的核心支柱是注意力机制。
交叉注意力、自注意力
交叉注意力和自注意力是基于注意力机制的两个架构模块,他们经常出现在LLM中。Transformer架构广泛使用了这两个模块。
图形处理单元(graphics processing unit, GPU)
是计算设备中的处理单元,用于在硬件设备上实现3D图像、高清视频流、图形等技术概念。
嵌入(embedding)
标准的Transformer架构有两个主要组件:编码器和解码器,两者都十分依赖注意力机制。 编码器的任务是处理输入文本,识别有价值的特征,并生成有意义的文本表示,称为嵌入。 解码器使用这个嵌入来生成一个输出,比如翻译结果或摘要文本。
生成式预训练Transformer(Generative Pre-trained Transformer, GPT)
是一类基于Transformer架构的模型,专门利用原始架构中的解码器部分。
文本补全
GPT接收一段提示词作为输入,然后生成一段文本作为输出。这个过程被称为文本补全。
标记(token)
当GPT模型收到一段提示词之后,它首先讲输入拆分成标记。 这些标记代表单词、单词的一部分、空格或标点符号。
提示工程(prompt engineering)
监督微调(supervised fine-tuning, SFT)
通过人类反馈进行强化学习(reinforcement learning from human feedback, RLHF)
温度(temperature)
基础模型
1.1 LLM概述
GPT-4和ChatGPT基于一种特定的神经网络架构,即Transformer。Transformer像阅读机一样,只关注句子或段落的不同部分,以理解其上下文并产生连贯的回答,此外还可以理解句子中的单词顺序和上下文意思。
人工智能AI 包含 机器学习ML 包含 深度学习DL
Transformer架构使用深度学习技术,而GPT-4和ChatGPT基于此。
NLP的目标是让计算机能够处理自然语言文本。这个目标涉及诸多任务,如下所述
文本分类、自动翻译、问题回答、文本生成
单纯的RNN因为无法处理随着递归,权重指数级爆炸或梯度消失问题,难以捕捉长期时间关联;而结合LSTM可以很好的解决这个问题。时间循环神经网络可以描述动态时间行为,因为和前馈神经网络接受特定结构的输入不同,RNN将状态在自身网络中循环传递,因此可以接受更广泛的时间序列结构输入。
Transformer架构彻底改变了NLP领域,这要是因为它能有效地解决之前NLP存在的一个问题:很难处理长文本序列并记住其上下文。
LLM是试图完成文本生成任务的一类ML模型。
交叉注意力模块会更关注句子中的个别关键部分,有助于模型为句子的这一部分生成准确的翻译结果。
与RNN不同,Transformer架构具有易于并行化的优势,这意味着Transformer架构可以同时处理输入文本的多个部分,而无需顺序处理。
与之前的循环模型不同,带有注意力机制的Transformer架构使得LLM能够将上下文作为一个整体来考虑。
- 收到提示词
- 将输入拆分为标记
- 采用Transformer架构处理标记
- 基于上下文预测下一个标记
- 根据概率分数选择标记
逐个标记地补全文本,整个过程是迭代式的
1.2 GPT模型简史:从GPT-1到GPT-4
Transformer架构诞生于2017年中,一年后,OpenAI发表了一篇介绍GPT-1的论文。
OpenAI发展时间表:
- 2017年:Ashish Vaswani等人发表论文”Attention Is All You Need”
- 2018年:第一个GPT模型诞生,参数量为1.17亿
- 2019年:GPT-2模型发布,参数量为15亿
- 2020年:GPT-3模型发布,参数量为1750亿
- 2022年:GPT-3.5(ChatGPT)模型发布,参数量为1750亿
- 2023年:GPT-4模型发布,但具体的参数量未公开