目 录CONTENT

文章目录

什么是大型语言模型,它是如何工作的?

萧瑟
2023-04-22 / 0 评论 / 17 点赞 / 537 阅读 / 809 字 / 正在检测是否收录...
温馨提示:
本文最后更新于 2023-08-04,若内容或图片失效,请留言反馈。部分素材来自网络,若不小心影响到您的利益,请联系我们删除。

随着 ChatGPT 和其他人工智能驱动技术的出现,人们一直在讨论这项技术将如何引领我们进入一个新时代——一个可能同时摧毁职业生涯并打开新机遇之门的时代。然而,围绕支持 AI 创新的技术:大型语言模型(简称 LLM)的讨论较少。

p-1-90884581-what-is-a-large-language-model

下面是有关 LLM 如何工作的快速指南。

大型语言模型是什么?

LLM 是使用深度学习算法来处理和理解语言的机器学习模型。他们通过大量数据的训练来掌握语言规律,以便他们能够完成任务。这些任务包括从翻译文本到回答聊天机器人对话——凡是涉及某种语言分析的任务都可以。

LLM 有哪些著名的例子?

ChatGPT 是一个 LLM,用户可以用它来进行对话或请求与语言相关的特定任务。另一个广为人知的例子:BERT(Bidirectional Encoder Representations from Transformers),它是 Google 开发的,可以理解问题并给出有意义的回答。

LLM 是如何工作的?

LLM 由多层神经网络构成,它们共同工作来分析文本和生成输出。他们还经过了从左到右或双向转换器的训练,该转换器可以最大化上下文中前后单词的概率——就像人类可以合理地预测句子中下一个可能出现的内容一样。

LLM 也有一个注意力机制,允许他们有选择地关注文本的某些部分,以便识别与摘要最相关的部分,例如。

如何训练LLM?

LLM 的培训成本非常高。 2020 年的一项研究估计,训练具有 15 亿个参数的模型的成本可能高达 160 万美元。然而,近年来软件和硬件的进步降低了这些成本。

训练 LLM 通常包括以下步骤:选择数据集(可能需要大量的数据集才能让它们像人类一样执行功能)、确定网络层的设置、使用监督学习来学习数据集中的信息,最后进行微调 -根据性能或目标进行特定的调整。

这是一个反复的过程,通过针对特定任务的训练,可以发现哪些内容需要补充,以及如何达到最终目标。然而,训练 LLM 可能相当困难:你需要分布式软件,训练时间长,还需要掌握训练模型所需的技术知识。

17

评论区