什么是大型语言模型，它是如何工作的？-踏浪而行生活圈 - 前端、H5、资讯、分享、网站开发等资源分享

什么是大型语言模型，它是如何工作的？

萧瑟

2023-04-22 / 0 评论 / 17 点赞 / 850 阅读 / 809 字 / 正在检测是否收录...

04/22

温馨提示：

本文最后更新于 2023-08-04，若内容或图片失效，请留言反馈。部分素材来自网络，若不小心影响到您的利益，请联系我们删除。

随着 ChatGPT 和其他人工智能驱动技术的出现，人们一直在讨论这项技术将如何引领我们进入一个新时代——一个可能同时摧毁职业生涯并打开新机遇之门的时代。然而，围绕支持 AI 创新的技术：大型语言模型（简称 LLM）的讨论较少。

p-1-90884581-what-is-a-large-language-model

下面是有关 LLM 如何工作的快速指南。

LLM 是使用深度学习算法来处理和理解语言的机器学习模型。他们通过大量数据的训练来掌握语言规律，以便他们能够完成任务。这些任务包括从翻译文本到回答聊天机器人对话——凡是涉及某种语言分析的任务都可以。

ChatGPT 是一个 LLM，用户可以用它来进行对话或请求与语言相关的特定任务。另一个广为人知的例子：BERT（Bidirectional Encoder Representations from Transformers），它是 Google 开发的，可以理解问题并给出有意义的回答。

LLM 由多层神经网络构成，它们共同工作来分析文本和生成输出。他们还经过了从左到右或双向转换器的训练，该转换器可以最大化上下文中前后单词的概率——就像人类可以合理地预测句子中下一个可能出现的内容一样。

LLM 也有一个注意力机制，允许他们有选择地关注文本的某些部分，以便识别与摘要最相关的部分，例如。

LLM 的培训成本非常高。 2020 年的一项研究估计，训练具有 15 亿个参数的模型的成本可能高达 160 万美元。然而，近年来软件和硬件的进步降低了这些成本。

训练 LLM 通常包括以下步骤：选择数据集（可能需要大量的数据集才能让它们像人类一样执行功能）、确定网络层的设置、使用监督学习来学习数据集中的信息，最后进行微调 -根据性能或目标进行特定的调整。

这是一个反复的过程，通过针对特定任务的训练，可以发现哪些内容需要补充，以及如何达到最终目标。然而，训练 LLM 可能相当困难：你需要分布式软件，训练时间长，还需要掌握训练模型所需的技术知识。

什么是大型语言模型，它是如何工作的？