跳转到主要内容
Chal1ce blog

一文带你了解GPT的发展史

这篇文章我们来讲讲gpt的发展历史

小故事:GPT的发展历史

前言

上一篇深度学习入门系列的文章提到过,我会找个时间来写一些关于LLM的相关的东西,这篇文章我就来介绍一下GPT 系列模型的技术演变。

这篇文章约5000词,阅读大约需要7分钟。单纯介绍历史,没有过多涉及到技术概念。

GPT 的发展

2022 年 11 月底,OpenAI 推出了一个基于大语言模型的在线聊天应用——ChatGPT。由于它在与人对话和解决问题方面表现出色,ChatGPT 一推出就引起了社会各界的广泛关注。随之而来的是许多类似的大语言模型的出现,而且数量还在不断增加。到至今为止涌现出很多优秀的模型,国内的有Qwen、海螺、豆包、文心一言等等,国外的有Llama、Mistral、GPT、Claude等等。

由于 GPT 系列模型在这个领域中具有重要代表性,本部分将介绍 GPT 系列模型的发展的过程,并总结其中的一些重要技术突破。

GPT 系列模型的核心原理是通过训练模型去学习如何恢复原始的文本数据。它将大量的世界知识压缩到一个只包含解码器(Decoder-Only)的 Transformer 模型中(Decoder-only是现在比较流行的一种LLM架构之一),从而让模型具备多种能力。这个过程的两个关键点是:

  • 训练一个能准确预测下一个词的 Transformer 解码器语言模型;
  • 通过增加模型的规模和扩大训练数据的量,来提升模型的能力。

1️⃣ GPT-1:开创性的一步

2017 年,Google 推出了 Transformer 模型。这个模型的出现,彻底改变了自然语言处理领域的格局,成为了后续许多语言模型的基石。Transformer 模型的最大特点是,采用了自注意力机制(self-attention),它能够同时处理输入数据中的所有部分,而不像传统的 RNN 或 LSTM 模型那样逐步处理输入。这使得 Transformer 在处理大规模文本时具备了更高的效率和更强的表达能力。(自注意力机制在这个系列上一篇文章中有讲到)

OpenAI 很快意识到,Transformer 架构可以大大提升神经网络的性能,尤其是在语言模型的训练上。因此,OpenAI 团队决定基于 Transformer 架构开发他们的第一个语言模型——GPT-1(Generative Pre-Training)。2018 年,OpenAI 正式发布了 GPT-1,它被称为“生成式预训练模型”,其核心思想就是通过大量文本的预训练,让模型学会预测文本中下一个词的可能性。

虽然 GPT-1 的规模相对较小,只有大约 1 亿个参数,但它开创了一种新的训练方式,即生成式预训练(Generative Pre-Training)。具体来说,GPT-1 通过在海量文本数据上进行预训练,学习了如何生成下一个词的概率分布,然后通过微调使模型更好地完成特定任务。这个过程中,模型的输入是大量的未标注文本,输出则是对下一个词的预测。

在 GPT-1 之后,另一个重量级的语言模型——BERT(Bidirectional Encoder Representations from Transformers)也发布了。虽然 BERT 和 GPT-1 都使用了 Transformer 架构,但 BERT 主要关注的是自然语言理解任务(NLU),它采用的是双向编码器的架构,重点理解上下文。而 GPT-1 则专注于文本生成任务,采用的是单向解码器。尽管 GPT-1 的规模较小、性能有限,但它的发布标志着大语言模型的时代正式开始。

(Bert的话后面可以找个时间来介绍一下,我本人是非常喜欢bert系列的模型的,在以往的各种NLP任务中经常使用到)

2️⃣ GPT-2:大规模的突破

2020 年,OpenAI 发布了 GPT-2,这标志着 GPT 系列模型进入了一个新的阶段。GPT-2 的规模达到了 15 亿个参数,比 GPT-1 增长了 150 倍!这个突破性的规模提升使得 GPT-2 能够处理更复杂的语言任务,并且显著提高了文本生成的质量。

与 GPT-1 的预训练方式相似,GPT-2 也采用了基于海量未标注文本的无监督学习。然而,GPT-2 的核心创新之一是,它通过增大模型规模来提升性能。OpenAI 的研究人员提出,增加模型的参数量能够显著提升模型的表达能力,从而使其能够更好地理解语言并生成更自然的文本。

GPT-2 还有一个创新之处是,它尝试去去除针对特定任务的微调,这意味着它不再需要额外的数据标注来训练任务专用的模型。GPT-2 的目标是探索通用预训练模型,通过无监督学习使模型可以处理多种不同的任务,而无需在每个任务上都进行专门的训练。这一策略的提出,使得 GPT-2 能够进行许多下游任务,比如文本生成、翻译、摘要和问答等,而不需要再进行任务特定的有监督微调。

OpenAI 在 GPT-2 的论文中解释了无监督学习的优势。他们认为,语言建模任务本质上和许多自然语言处理任务(如问答、翻译等)是相似的,都是在给定一部分文本的情况下,预测接下来最可能的词。所以,GPT-2 通过预训练学习如何预测下一个词,实际上也在学习解决多种语言任务的能力。

在 GPT-2 发布时,OpenAI 并没有立即公开模型的全部参数,部分原因是担心该模型的强大能力可能被用于生成恶意内容。但即使如此,GPT-2 在自然语言处理的能力上已经展示了巨大的潜力,它的成功为后来的 GPT-3 和 GPT-4 奠定了基础。

3️⃣ GPT-3:规模化引领革命

GPT-3 于 2020 年 6 月发布,标志着 GPT 系列模型迈向了更大规模的新时代。GPT-3 的规模达到了1750 亿个参数,是 GPT-2 的 100 倍之多!如此庞大的模型使得 GPT-3 在处理复杂的自然语言任务时展现出了前所未有的能力。它不仅能够生成高质量的文本,还能进行更复杂的任务,比如写诗、创作代码、进行多轮对话,甚至能够模仿特定作家的写作风格。

GPT-3 在训练时使用了多达 570GB 的文本数据,这些数据来源于互联网上的各种内容,如书籍、文章、网页等。

最令人惊叹的是,GPT-3 能够在没有任何任务特定训练的情况下,通过**零样本学习(Zero-shot Learning)**直接完成任务。也就是说,GPT-3 不需要额外的标注数据或者专门的微调,它仅凭借其强大的语言理解和生成能力,便能完成各种任务。举个例子,用户只需给出简单的提示,GPT-3 就能生成符合逻辑、连贯且流畅的段落,完成写作、翻译、代码生成等任务。

GPT-3 的另一个突破性特征是其对上下文的理解能力。它能够在长篇对话或文章中保持上下文一致性,并且生成与上下文相关的回答,表现出了强大的推理能力。这使得 GPT-3 在多轮对话中能够更好地理解用户意图,并给出符合上下文的回答。

虽然 GPT-3 的规模和能力都达到了前所未有的高度,但它也存在一些限制,比如生成的文本可能会包含偏见或不准确的内容(也就是我们所说的LLM的幻觉),或者在处理非常专业的领域时,可能会出现理解偏差。

4️⃣ GPT-3.5:迈向更加智能的未来

GPT-3 到 GPT-3.5:OpenAI 如何改进大语言模型?

尽管 GPT-3 很强,它在一些复杂的推理任务上还是有点力不从心,特别是在编程问题和数学问题上,表现并不好。对于一些复杂的编程任务,GPT-3 的回答经常不太准确,甚至完全错乱。这就是 OpenAI 开始改进 GPT-3 的关键原因。

1、 代码数据训练:让 GPT 更懂编程

为了让 GPT-3 在编程方面变得更强,OpenAI 开始探索通过代码数据训练来增强其能力。具体来说,OpenAI 发布了一个名为Codex的模型,它是基于 GPT-3 微调的,重点在大量的代码数据集上进行训练,特别是GitHub上的代码。这些代码数据不仅涵盖了常见的编程语言,还包括一些特定的开发工具和框架。

Codex 在编程任务上表现出了令人惊讶的能力。它不仅能够解决一些复杂的编程问题,甚至能够编写完整的代码片段,为开发者提供快速的代码生成和修复建议。这使得 Codex 成为了一个非常有用的工具,尤其对于需要快速编程或解决编程问题的开发者来说。

进一步来看,OpenAI 还在 2022 年公开了一种新的训练方法:训练文本和代码的嵌入。简单来说,就是将文本和代码转换为统一的表示方式,使模型能够更好地理解两者之间的关系。经过这种方法的训练,模型在解决各种任务时表现得更加高效,尤其在代码搜索、代码生成等任务中,效果非常明显。

实际上,GPT-3.5 就是建立在这种基于代码训练的 GPT 模型(也叫code-davinci-002)基础上的。这意味着,GPT-3.5 继承了 Codex 强大的编程能力,让它能够更好地解决编程问题和其他与代码相关的任务。

2、 人类对齐:让 GPT 更懂我们

除了通过代码训练提升 GPT 的编程能力,OpenAI 还关注了一个非常重要的方面,那就是人类对齐(Human Alignment)。这个概念听起来可能有点复杂,但其实就是让 GPT 更好地理解和遵循人类的意图,确保模型做出的回应更加符合我们的需求,避免生成有害或不合适的内容。

OpenAI 从 2017 年就开始探索如何使用人类反馈来优化模型。2017 年,他们发布了一篇名为《Learning from Human Preferences》的文章,提出了用强化学习算法(Reinforcement Learning, RL)从人类标注的反馈中学习的方法。简单来说,就是让模型通过观察人类的选择,学会做出更符合人类偏好的决策。

为了实现这一点,OpenAI 还开发了一种PPO(Proximal Policy Optimization)算法,这是一种强化学习方法,专门用于训练模型更好地遵循人类反馈。PPO 算法成为了 OpenAI 后续所有对齐工作中的核心工具。

到了 2020 年,OpenAI 开始将人类对齐算法应用于自然语言处理任务中,尤其是在摘要生成文本生成领域。通过这种方法,GPT 模型能够更好地理解用户的需求和偏好,生成更符合预期的文本,避免出现一些不准确或者不合适的内容。

3、 RLHF:强化学习与人类反馈的结合

在 2022 年,OpenAI 将人类对齐技术提升到了一个新高度,推出了InstructGPT。这是一种基于强化学习的模型,通过从人类的反馈中学习,改进 GPT 的指令遵循能力。

InstructGPT 不仅仅是根据人类的反馈来优化模型的表现,它还通过**RLHF(Reinforcement Learning with Human Feedback)**算法,让模型更好地理解和执行任务。这意味着,GPT 在生成文本时,不仅仅是根据自己的知识库做出判断,而是参考了人类的反馈,确保生成的内容更贴近我们真实的需求。

RLHF 的引入,除了提升了 GPT 模型的任务执行能力外,还大大提高了模型在安全性方面的表现。因为通过强化学习和人类反馈,OpenAI 可以避免模型生成一些有害的内容,比如不准确、带有偏见或令人不适的文本。

最终,OpenAI 将这些改进结合在一起,发布了GPT-3.5。这个版本的 GPT 模型,不仅继承了 GPT-3 强大的自然语言处理能力,还在编程和代码理解方面取得了巨大的进步。同时,通过 RLHF 等技术的加入,GPT-3.5 的生成质量和安全性也得到了显著提升。

简单来说,GPT-3.5 就是一个更强大、更聪明的模型,能够在更广泛的应用场景中为我们提供帮助。无论是编程问题、数学问题,还是日常对话,GPT-3.5 都能给出更精确、更符合人类需求的回答。

🚀 GPT-4 的突破与升级:跨越语言与视觉,迈向多模态智能时代

大家好!今天我们来聊一聊GPT-4,这可是 OpenAI 发布的一款超级强大的模型,它不仅让语言理解更上一层楼,还首次把模型的能力扩展到了图文双模态,也就是它不仅能“看懂”文本,还能理解和处理图像!在这篇推文里,我将为你详细介绍 GPT-4 的突破性进展和它如何改变我们与 AI 的互动方式。

4️⃣ GPT-4 的新突破:图文双模态

我们知道,GPT-3.5已经展现出了非常强的语言处理能力,但有些任务对于语言模型来说还是有一定难度,尤其是涉及到图像处理时。2023 年 3 月,OpenAI 推出了GPT-4,这不仅仅是一个语言模型的升级,它首次实现了图文双模态,也就是说,GPT-4 能够同时处理文本和图像输入。

具体来说,GPT-4 能够理解图像的内容,并基于图像和文字的结合生成合理的输出。这意味着你可以给它一张图片,它不仅能“看懂”图片里的物体,还能根据图片内容生成解释、分析甚至进行任务推理。这项技术的引入,彻底打开了 AI 在跨模态任务中的应用大门,像图像生成、视觉推理、图文对话等任务都能够高效完成。

GPT-4:强大到让人震撼的性能

相比 GPT-3.5,GPT-4 的推理能力更为强大。在解决复杂问题时,GPT-4 展现了令人惊艳的表现,不仅能够通过更精确的推理进行决策,还能在多种标准化考试中取得极高的成绩,例如SAT、GRE、法学院入学考试等。微软的研究团队也进行了大量的性能测试,结果证明,GPT-4 在处理复杂人类生成的问题时,展现出了超乎想象的能力。很多研究人员甚至认为,GPT-4 的发布标志着“通用人工智能”(AGI)的曙光。

更重要的是,GPT-4 采用了全新的训练机制,特别是可预测扩展的训练架构,这种设计能够在计算资源相对较少的情况下,准确预测出模型在训练过程中如何表现,并最大化其性能。这意味着 GPT-4 不仅在推理时更精准,而且它的训练过程也更高效、节能。

安全性:对抗恶意内容和不当行为

虽然 GPT-4 在性能上大大增强,但 OpenAI 依然高度重视其安全性。发布初期,GPT-4 经过了为期六个月的迭代对齐,特别是在人类反馈的强化学习(RLHF)方面做了大量的改进。简而言之,OpenAI 在 GPT-4 中加入了更多的安全奖励信号,这帮助模型减少了在回答恶意或挑衅性查询时的风险,确保它生成的内容更加安全、合适。

为了进一步确保安全性,OpenAI 还引入了红队攻击(Red Teaming)机制。这意味着,团队会模拟恶意攻击,测试模型是否会生成有害、偏见或毒性的内容。这些干预措施对于确保 GPT-4 在实际应用中的伦理性和安全性至关重要,尤其是它在商业和公共场合的广泛应用。

5️⃣ GPT-4V:拓展视觉能力

在 GPT-4 发布的基础上,OpenAI 在 2023 年 9 月推出了 GPT-4 的视觉版本——GPT-4V。这个版本专门加强了模型的视觉理解能力,不仅能够处理文本,还能分析和解读图像。GPT-4V 重点关注图像输入的安全部署,通过多种风险评估手段,确保视觉处理的结果不会导致潜在的风险或误解。

GPT-4V 展现了强大的综合任务解决能力,可以广泛应用于图像识别、图像生成等领域。这项技术的突破,将极大促进AI在医疗、教育、娱乐等多个行业的应用,帮助我们更好地理解和操作图像数据。

6️⃣ GPT-4 Turbo:性能提升与成本优化

然后,在 2023 年 11 月,OpenAI 推出了GPT-4 Turbo,这个新版本不仅继续扩展了 GPT-4 的能力,还进行了很多优化。具体来说,GPT-4 Turbo 在多个方面都有了显著提升:

  • 能力增强:GPT-4 Turbo 比 GPT-4 更强大,能处理更多、更复杂的任务。
  • 更长的上下文窗口:支持最多 128K 字节的上下文,这对于长文本生成和处理非常重要,尤其是在编写长篇报告或复杂对话时。
  • 成本优化:GPT-4 Turbo 进行了性能优化,既提升了模型的能力,又降低了计算成本,使得其更加高效,价格更便宜,这对于大规模应用非常重要。
  • 功能升级:GPT-4 Turbo 引入了函数调用可重复输出等新功能,使开发者能够更加灵活地在应用程序中创建智能助手。

不仅如此,GPT-4 Turbo 还增强了多模态能力,包括与DALL·E-3(图像生成模型)和TTS(Text-to-Speech)(文本转语音)等技术的结合。这些技术的整合使得 GPT-4 Turbo 不仅能处理文本,还能生成语音、图像,甚至能够进行语音识别和生成任务,大大提升了其跨领域应用的能力。