随着 ChatGPT 和其他人工智能驱动技术的出现,人们一直在讨论这项技术将如何引领我们进入一个新时代——一个可能同时摧毁职业生涯并打开新机遇之门的时代。然而,围绕支持 AI 创新的技术:大型语言模型(简称 LLM)的讨论较少。
下面是有关 LLM 如何工作的快速指南。
大型语言模型是什么?
LLM 是使用深度学习算法来处理和理解语言的机器学习模型。他们通过大量数据的训练来掌握语言规律,以便他们能够完成任务。这些任务包括从翻译文本到回答聊天机器人对话——凡是涉及某种语言分析的任务都可以。
LLM 有哪些著名的例子?
ChatGPT 是一个 LLM,用户可以用它来进行对话或请求与语言相关的特定任务。另一个广为人知的例子:BERT(Bidirectional Encoder Representations from Transformers),它是 Google 开发的,可以理解问题并给出有意义的回答。
LLM 是如何工作的?
LLM 由多层神经网络构成,它们共同工作来分析文本和生成输出。他们还经过了从左到右或双向转换器的训练,该转换器可以最大化上下文中前后单词的概率——就像人类可以合理地预测句子中下一个可能出现的内容一样。
LLM 也有一个注意力机制,允许他们有选择地关注文本的某些部分,以便识别与摘要最相关的部分,例如。
如何训练LLM?
LLM 的培训成本非常高。 2020 年的一项研究估计,训练具有 15 亿个参数的模型的成本可能高达 160 万美元。然而,近年来软件和硬件的进步降低了这些成本。
训练 LLM 通常包括以下步骤:选择数据集(可能需要大量的数据集才能让它们像人类一样执行功能)、确定网络层的设置、使用监督学习来学习数据集中的信息,最后进行微调 -根据性能或目标进行特定的调整。
这是一个反复的过程,通过针对特定任务的训练,可以发现哪些内容需要补充,以及如何达到最终目标。然而,训练 LLM 可能相当困难:你需要分布式软件,训练时间长,还需要掌握训练模型所需的技术知识。
评论区