Chatbot Arena LLM排名前10大模型盘点，Gemini-Exp-1121登顶！

AI技巧与教程 2024-11-27

来源：小智智驻未来

Chatbot Arena LLM排行榜是一个用于评估和比较不同大型语言模型（LLM）性能的在线平台。它通过众包方式进行匿名、随机的对战测试，让社区成员可以直接参与到模型的评估过程中。

根据最新的Chatbot Arena LLM排行榜数据，以下是排名前10的大型语言模型（LLM）：

首先恭喜谷歌，凭借Gemini-Exp-1121登顶。Gemini-Exp-1121是谷歌于2024年11月21日推出的实验性AI模型.

Gemini-Exp-1121重点提升了代码、推理和视觉理解能力。与GPT-4o相比，其性能有显著提高，在代码能力上更加流畅，解决问题的能力更强，感知技能更为出色，官方称其在编码、数学和视觉理解方面比GPT-4o的性能高出20%。

例如在对同一张漫画的理解上，Gemini-Exp-1121的回答更加全面且详细，会善用小标题、重点加粗等方式来呈现内容；在经典的动物过河逻辑推理题上，Gemini-Exp-1121能够回答完全正确，而新版GPT-4o则出现了失误。

除此之外，还有Gemini-Exp-1114也入选了前10，排名第3。该模型不仅在数学、创意写作和多轮对话等基准测试中表现优异，还在复制 UI 设计、生成 SVG 代码、解决数学问题等方面展现出了高超的技术能力，同时具备情感智力和伦理推理能力。

说完谷歌，再来看看其老对手OpenAI，本次排名OpenAI有4个模型入选，都快占了半壁江山了，只能说佩服。

ChatGPT-4o-latest (2024-11-20) ：

性能提升：改进了创意写作能力，能够提供更自然、更吸引人、更有针对性的写作，且相关性和可读性更强。还能更好地处理上传的文件，给出更深入的见解和更全面的回复

技术参数：该模型的上下文窗口为128000个词元，最大输出词元为16384个，训练数据截至2023年10月
应用意义：此版本的发布标志着OpenAI从之前侧重于逻辑推理的o1系列的转变，体现了其对探索人工智能模型各种能力的重视，也为用户在创意写作、文件处理等多种应用场景中提供了更优质、更强大的语言生成与理解工具.

o1-preview：

o1-preview是OpenAI推出的新系列模型之一，专为处理复杂推理和解决困难问题而设计。相比于GPT-4o，o1-preview花费更多时间进行深度思考，因此在科学、策略制定和编码等领域表现更为出色
o1-preview在编程能力上表现突出，在Codeforces编程竞赛中的排名进入了前11%。

o1-mini：

o1-mini是o1系列的轻量版模型，成本较低，响应速度更快，特别适合需要高效处理代码和基础推理任务的用户
在编程方面，o1-mini性能提升明显，特别是在代码能力、代码优化、解读代码、测试用例及说明、转码和添加注释能力方面表现出色

GPT-4o-2024-05-13：

这是OpenAI在2024年5月13日发布的新一代自然语言处理交互系统——GPT-4o。GPT-4o（“o”代表“omni”）是迈向更自然的人机交互的一步，它接受文本、音频、图像和视频的任意组合作为输入，并生成文本、音频和图像输出的任意组合
GPT-4o在英语文本和代码上的能力与GPT-4 Turbo性能相匹配，在非英语语言的文本上也有显著改进，同时在API中也更快且便宜50%

看完谷歌和OpenAI这两大巨头，再来看看马老板的xAI。

Grok-2-08-13 是马斯克旗下 xAI 于 2024 年 8 月 13 日晚推出的语言模型 Grok-2 的早期预览版。

- 功能特点：该系列模型具有聊天、编码和推理等功能，是在 Grok-1.5 的基础上的重要改进，其推理能力有所提升，在代码生成、写作和新闻等方面表现更出色。

- 版本分类：包括 Grok-2 和 Grok-2 mini 两个版本，其中 Grok-2 mini 相关版本曾以 sus-column-r 的名称出现在 LMSYS 排行榜上。

作为目前唯一上榜的中国大模型，Yi-Lightning 是零一万物于 2024 年 10 月 16 日正式发布的全新旗舰模型。

该模型在训练过程中，采用 MoE 混合专家模型架构，同时改进了单阶段训练，使用多阶段的训练模式，并采用混合注意力机制，在保持模型性能接近最优的同时，尽可能减少激活参数的数量以降低训推成本，提高推理速度。

Claude 3.5 Sonnet 是由 Anthropic 公司推出的一款先进的人工智能模型，它在多个方面展现出了卓越的性能。以下是关于 Claude 3.5 Sonnet 的一些关键特性和性能表现：

1. 性能提升：Claude 3.5 Sonnet 在研究生水平的推理（GPQA）、本科水平的知识（MMLU）和编码能力（HumanEval）方面设立了新的行业基准。它在理解细微差别、幽默和复杂指令方面表现出显著的进步，并且在以自然、亲切的语气撰写高质量内容方面表现出色。

2. 速度优势：Claude 3.5 Sonnet 的运行速度是 Claude 3 Opus 的两倍，这种性能的提升结合成本效益，使 Claude 3.5 Sonnet 成为处理复杂任务（如上下文敏感的客户支持和多步骤工作流程协调）的理想选择。

3. 编程能力：在内部的代理编码评估中，Claude 3.5 Sonnet 解决了 64% 的问题，超越了解决 38% 问题的 Claude 3 Opus。它能够独立编写、编辑和执行代码，具有复杂的推理和故障排除能力。

4. 视觉能力：Claude 3.5 Sonnet 是 Anthropic 的最强视觉模型，在所有标准视觉基准测试中都超越了前代 Claude 3 Opus。

5. 计算机使用功能：Claude 3.5 Sonnet 引入了一项突破性的新功能——计算机使用。通过 API，Claude 能够像人类一样使用计算机，包括查看屏幕、移动光标、点击按钮和输入文本。

6. 多平台支持：Claude 3.5 Sonnet 现已在 Claude.ai 和 Claude iOS 应用程序上免费提供，而 Claude Pro 和 Team 计划订阅者可以在更高的速率限制下访问。此外，它还通过 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 提供。

最后是Athene-v2-Chat-72B，由 Nexusflow 团队开发的一个高级语言模型，具有72亿参数，它在多项基准测试中与 GPT-4o 相当。以下是关于 Athene-v2-Chat-72B 的一些关键信息：

1. 用途与性能：Athene-v2-Chat-72B 被设计用于通用对话用途，包括基于聊天的应用、编码辅助和数学问题解决。它在这些基准测试中直接与 GPT-4o 竞争，证明了其在日常使用案例中的多功能性和可靠性。

2. 训练数据：Athene-v2-Chat-72B 的训练数据包括用于自然语言理解、编程语言和数学逻辑的大量数据集，使其特别擅长处理对话的复杂性、编码查询和解决数学问题。

3. 技术细节：该模型基于 Qwen 2.5 构建，并经过了严格的训练后处理，以放大各自的优势。它保持720亿参数的规模，在可管理的范围内，相比一些更大、计算密集型的模型，仍然提供与 GPT-4o 相当的性能。

4. 适应性和成本效益：通过有针对性的训练后处理，Athene-v2-Chat-72B 模型更具适应性和成本效益，而不会牺牲性能。

5. 基准测试结果：Athene-v2-Chat-72B 在聊天有用性（Arena-Hard）方面胜过 GPT-4o，在代码补全（bigcode-bench-hard）和数学（MATH）方面表现出色，并且在处理长日志提取时具有更高的精度。

6. 模型套件：Athene-v2-Chat-72B 是 Athene-V2 模型套件的一部分，该套件还包括 Athene-V2-Agent-72B，后者在复杂函数调用中优于 GPT-4o。

看了这么多大模型，只能为中国企业加油

。

虽然这个排行榜并不是评价的唯一标准，但还是希望更多的国内大模型可以进去前10 的榜单。

Chatbot Arena LLM排名前10大模型盘点，Gemini-Exp-1121登顶！

25个国内AI 新媒体生产工具大揭秘：超全汇总

Midjourney创作浪漫情人节氛围作品（含提示词）

相关文章

最新文章

热门工具

学而行AIGC工具集

Chatbot Arena LLM排名前10大模型盘点，Gemini-Exp-1121登顶！

25个国内AI 新媒体生产工具大揭秘：超全汇总

Midjourney创作浪漫情人节氛围作品（含提示词）

相关文章

最新文章

热门工具