
Llama 3 和 GPT-4 是向公众提供的两种最先进的大型语言模型 (LLM)。让我们通过比较这两种模型在多模态、上下文长度、性能和成本方面来了解哪个 LLM 更好。
什么是 GPT-4?

GPT-4 是 OpenAI 开发的最新大型语言模型 (LLM)。它建立在旧 GPT-3 模型的基础之上,同时使用不同的训练技术和优化,使用更大的数据集。这显着增加了 GPT-4 的参数大小,据传 GPT-4 在其较小的专家模型中总共有 1.7 万亿个参数。通过新的训练、优化和更多的参数,GPT-4 在推理、解决问题、上下文理解和更好地处理细微指令方面提供了改进。
该模型目前有三种变体:
- GPT-4 的:从 GPT-3 演变而来的,在速度、准确性和知识库方面有了显着改进。
- GPT-4 涡轮增压器:GPT-4 的优化版本,旨在提供更快的性能,同时降低运营成本。
- GPT-4o (全能):通过集成多模态输入和输出(包括文本、视觉和音频)来扩展 GPT-4 的功能。
您现在可以通过订阅 OpenAI 的 API 服务、与 ChatGPT 交互或通过 Descript、Perplexity AI 和 Microsoft 的各种副驾驶等服务来访问所有三个 GPT-4 模型。
什么是 Llama 3?

Llama 3 是由 Meta AI(Facebook、Instagram 和 WhatsApp 的母公司)开发的开源 LLM,使用监督微调、拒绝抽样和策略优化的组合以及包括数百万个人工注释示例在内的多样化数据集进行训练。它的训练侧重于高质量的提示和偏好排名,旨在创建一个多功能且功能强大的 AI 模型。
目前有两种 Llama 3 型号可供公众使用:Llama 3 8B 和 Llama 3 70B。“B” 代表十亿,表示模型的参数大小。Meta 还在训练 Llama 3 400B 模型,预计将于 2024 年底推出。
您可以通过其生成式 AI 聊天机器人 Meta AI 访问 Llama 3。或者,您可以通过下载 Llama 3 模型并通过 Ollama、Open WebUI 或 LM Studio 加载它们,在计算机上本地运行 LLM。
综合
GPT-4o 的发布终于实现了具有多模式功能的 GPT-4 的初始营销。现在可以通过使用 GPT-4o 模型与 ChatGPT 交互来访问这些多模态功能。截至 2024 年 6 月,GPT-4o 没有任何生成视频和音频的集成方式。但是,它确实具有根据视频和音频输入生成文本和图像的功能。
Llama 3 还计划为即将推出的 Llama 3 400B 提供多模式模型。它很可能会集成与 CLIP (Contrast Language-Imager Pre-Training) 类似的技术,以使用零镜头学习技术生成图像。但由于 Llama 400B 仍在训练中,因此 8B 和 70B 模型生成图像的唯一方法是使用 LLaVa、Visual-LLaMA 和 LLaMA-VID 等扩展。截至目前,Llama 3 纯粹是一个基于语言的模型,可以将文本、图像和音频作为生成文本的输入。
上下文长度
上下文长度是指模型一次可以处理的文本量。在考虑 LLM 的能力时,这是一个重要因素,因为它决定了模型在与用户交互时可以使用的上下文量。一般来说,较高的上下文长度会使 LLM 更好,因为它提供了更高水平的连贯性、连续性,并且可以减少交互过程中的重复错误。
型 | 训练数据描述 | 参数 | 上下文长度 | GQA 认证 | 令牌计数 | 知识截止 |
---|---|---|---|---|---|---|
羊驼 3 | 公开可用的在线数据组合 | 8B | 8 千分 | 是的 | 15吨+ | 2023 年 3 月 |
羊驼 3 | 公开可用的在线数据组合 | 70 字节 | 8 千分 | 是的 | 15吨+ | 12月,2023 |
Llama 3 模型的上下文长度实际上为 8,000 个标记(约 6,400 个单词)。这意味着 Llama 3 模型在您的交互中将具有大约 6,400 个单词的上下文记忆。任何超过 8,000 个令牌限制的单词都将被遗忘,并且在交互过程中不会提供任何进一步的上下文。
型 | 描述 | 上下文窗口 | 训练数据 |
---|---|---|---|
GPT-4o 机器人 | 多模式旗舰车型,比 GPT-4 Turbo 更便宜、更快。 | 128,000 个代币 (API) | 截至 2023 年 10 月 |
GPT-4-涡轮增压 | 具有视觉功能的简化 GPT-4 Turbo 模型。 | 128,000 个代币 (API) | 截至 2023 年 12 月 |
GPT-4 的 | 第一个 GPT-4 模型 | 8,192 个代币 | 截至 2021 年 9 月 |
相比之下,GPT-4 现在支持 ChatGPT 用户 32,000 个令牌(约 25,600 个单词)的上下文长度,以及使用 API 端点的用户 128,000 个令牌(约 102,400 个单词)。这使 GPT-4 模型在管理大量对话以及阅读长文档甚至阅读整本书的能力方面具有优势。
性能
让我们通过查看 Meta AI 的 Llama 3 2024 年 4 月 18 日基准报告和 OpenAI 的 GPT-4 2024 年 5 月 14 日的 GitHub 报告来比较性能。结果如下:
型 | MMLU | GPQA 认证 | 数学 | HumanEval | 落 |
---|---|---|---|---|---|
GPT-4o 机器人 | 88.7 | 53.6 | 76.6 | 90.2 | 83.4 |
GPT-4 涡轮增压器 | 86.5 | 49.1 | 72.2 | 87.6 | 85.4 |
美洲驼3 8B | 68.4 | 34.2 | 30.0 | 62.2 | 58.4 |
美洲驼3 70B | 82.0 | 39.5 | 50.4 | 81.7 | 79.7 |
美洲驼3 400B | 86.1 | 48.0 | 57.8 | 84.1 | 83.5 |
以下是每个标准评估的内容:
- MMLU(大规模多任务语言理解):评估模型理解和回答各种学术科目中问题的能力。
- GPTQA(通用问答):评估模型回答开放域事实问题的技能
- 数学:测试模型解决数学问题的能力。
- HumanEval 评估:衡量模型根据人类给定的编程提示生成正确代码的能力。
- DROP(段落的离散推理):评估模型执行离散推理和根据文本段落回答问题的能力。
最近的基准测试突出了 GPT-4 和 Llama 3 模型之间的性能差异。尽管 Llama 3 8B 模型似乎明显落后,但 70B 和 400B 模型在学术和常识、阅读和理解、推理和逻辑以及编码方面提供的结果与 GPT-4o 和 GPT-4 Turbo 模型相似。然而,在纯数学方面,还没有一个 Llama 3 模型的性能接近 GPT-4。
成本
成本是许多用户的关键因素。OpenAI 的 GPT-4o 模型可供所有 ChatGPT 用户免费使用,每 16 小时限制 3 条消息。如果您需要更多,则必须订阅 ChatGPT Plus,每月花费 20 美元,将 GPT-4o 的消息限制扩展到 80 条,同时还可以使用其他 GPT-4 模型。
另一方面,Llama 3 8B 和 70B 模型都是免费和开源的,这对于寻求经济高效解决方案而不影响性能的开发人员和研究人员来说可能是一个显着优势。
可及性
GPT-4 模型可通过 OpenAI 的 ChatGPT 生成式 AI 聊天机器人及其 API 广泛访问。您还可以在 Microsoft Copilot 上使用 GPT-4,这是免费使用 GPT-4 的一种方式。这种广泛的可用性确保用户可以在不同的使用案例中轻松利用其功能。相比之下,Llama 3 是一个开源项目,它提供模型灵活性并鼓励在 AI 社区内进行更广泛的实验和协作。这种开放获取方法可以使 AI 技术大众化,使其可供更广泛的受众使用。
尽管这两种模型都很容易获得,但 GPT-4 更易于使用,因为它已集成到流行的生产力工具和服务中。另一方面,Llama 3 主要集成到 Amazon Bedrock、Ollama 和 DataBricks 等研究和业务平台中(Meta AI 聊天辅助除外),这对更大的非技术用户市场没有吸引力。
GPT-4 与 Llama 3:哪个更好?
那么,哪个 LLM 更好呢?我不得不说 GPT-4 是更好的 LLM。GPT-4 在多模态方面表现出色,具有处理文本、图像和音频输入的高级功能,而 Llama 3 的类似功能仍在开发中。GPT-4 还提供了更大的上下文长度和更好的性能,并且可以通过流行的工具和服务广泛访问,使其更加用户友好。
但是,重要的是要强调 Llama 3 模型对于免费和开源项目来说表现得非常出色。因此,Llama 3 仍然是一款出色的 LLM,因其免费和开源的性质而受到研究人员和企业的青睐,同时提供令人印象深刻的性能、灵活性和可靠的隐私功能。虽然普通消费者可能不会立即使用 Llama 3,但它仍然是许多研究人员和企业最可行的选择。
总之,尽管 GPT-4 以其先进的多模态功能、更大的上下文长度以及与广泛使用的工具的无缝集成而脱颖而出,但 Llama 3 凭借其开源性质提供了一个有价值的替代方案,允许更大的定制和成本节省。因此,在应用方面,GPT-4 非常适合那些寻求易用性和模型全面功能的人,而 Llama 3 则非常适合寻求灵活性和适应性的开发人员和研究人员。
原创文章,作者:网贝WebBay,如若转载,请注明出处:https://www.webbay.cn/llama-3-vs-gpt-4-which-is-better
相关推荐
-
什么是生成式人工智能?
每个人都听说过 ChatGPT,但底层技术呢? ChatGPT、Bing AI 和 Google Bard 是消费者人工智能领域最知名的一些名字。这三款产品都有一个共同点——都是生…
2023年06月16号402 0 0 -
如何使用 Gmail 的“帮我写”AI 工具撰写专业且有效的电子邮件
在当今的数字世界中,电子邮件通信对于我们的个人和职业生活至关重要。借助 Gmail 突破性的 AI 技术,您现在可以简化电子邮件撰写流程,并通过邮件实现更高的影响力和成功。借助 G…
2023年07月2号558 0 0 -
如何辨别真实图像和人工智能AI生成图像之间的差异
在这篇有关人工智能生成图像的文章中,当这些区别变得越来越重要时,能够区分真实照片和人工智能 (AI) 生成的图像至关重要。本文旨在提供有用的技巧来识别人工智能生成的照片的明显迹象。…
2023年06月28号2.0K 0 1 -
StyleDrop:谷歌可以改变图像风格的全新人工智能工具
谷歌的新人工智能工具 StyleDrop 允许用户立即改变图像的外观。它使用深度学习分析重要属性,并在不更改内容的情况下进行文体修改。您现在可以轻松调整照片,而无需手动编辑它们。这…
2023年06月8号506 0 0 -
2023 年您需要了解的 10 个大型语言模型 (LLM)
语言模型允许机器解释和生成与人类相似的文字,从而改变了自然语言处理 (NLP) 科学。近年来,大型语言模型(LLM)因其出色的功能而受到广泛关注。这些模型由强大的深度学习技术提供支…
2023年07月5号469 0 0 -
Crushon AI – 无需 NSFW 过滤器的最佳角色 AI 替代方案
Crushon AI 是一个新平台,允许用户以比以往更加身临其境且未经过滤的方式与虚构角色互动。该平台使用人工智能来生成真实且引人入胜的聊天对话。 什么是 Crush…
2023年07月8号2.8K 0 0 -
FlagAI:更快更轻松地训练和部署大型模型
FlagAI 是一个快速、简单且适应性强的工具箱,用于训练、微调和部署大规模模型。它现在专注于 NLP 模型和任务,但很快就会支持其他模式。FlagAI 兼容大量预训练模型,包括 …
2023年06月17号586 0 0 -
10 个可以替代Adobe的免费和开源软件
Adobe 是创意软件行业的知名品牌,提供范围广泛的图形设计、图片编辑、视频创作等工具。然而,Adobe 套件可能很昂贵,这使得预算紧张的消费者和小型企业不太容易使用它。幸运的是,…
2023年06月17号1.2K 0 0 -
可以让AI帮你做示文稿的 7 种最佳工具
厌倦了花费数小时做演示?这里有一些最好的 AI 支持的工具,可以毫不费力地为您创建令人惊叹的演示文稿。 进行演示可能是一项漫长而乏味的任务,尤其是当您必须定期进行演示时。幸运的是,…
2023年06月3号641 0 0 -
Character AI NSFW 设置 – 终极指南
Character AI 是创建现实且引人入胜的讨论的最佳平台。然而,Character AI NSFW 过滤器会阻止任何不需要的其他道德上不适当的聊天。 本文总结了Charact…
2023年07月5号3.8K 0 0