Chatbot Arena LLM排名前10大模型盘点,Gemini-Exp-1121登顶!

AI技巧与教程 2024-11-27


来源:小智 智驻未来

Chatbot Arena LLM排行榜是一个用于评估和比较不同大型语言模型(LLM)性能的在线平台。它通过众包方式进行匿名、随机的对战测试,让社区成员可以直接参与到模型的评估过程中。

根据最新的Chatbot Arena LLM排行榜数据,以下是排名前10的大型语言模型(LLM):

首先恭喜谷歌,凭借Gemini-Exp-1121登顶Gemini-Exp-1121是谷歌于2024年11月21日推出的实验性AI模型.

Gemini-Exp-1121重点提升了代码、推理和视觉理解能力。与GPT-4o相比,其性能有显著提高,在代码能力上更加流畅,解决问题的能力更强,感知技能更为出色,官方称其在编码、数学和视觉理解方面比GPT-4o的性能高出20%。

例如在对同一张漫画的理解上,Gemini-Exp-1121的回答更加全面且详细,会善用小标题、重点加粗等方式来呈现内容;在经典的动物过河逻辑推理题上,Gemini-Exp-1121能够回答完全正确,而新版GPT-4o则出现了失误。

除此之外,还有Gemini-Exp-1114也入选了前10,排名第3。该模型不仅在数学、创意写作和多轮对话等基准测试中表现优异,还在复制 UI 设计、生成 SVG 代码、解决数学问题等方面展现出了高超的技术能力,同时具备情感智力和伦理推理能力。

说完谷歌,再来看看其老对手OpenAI,本次排名OpenAI有4个模型入选,都快占了半壁江山了,只能说佩服。


  1. ChatGPT-4o-latest (2024-11-20) :

    • 性能提升:改进了创意写作能力,能够提供更自然、更吸引人、更有针对性的写作,且相关性和可读性更强。还能更好地处理上传的文件,给出更深入的见解和更全面的回复

    • 技术参数:该模型的上下文窗口为128000个词元,最大输出词元为16384个,训练数据截至2023年10月

    • 应用意义:此版本的发布标志着OpenAI从之前侧重于逻辑推理的o1系列的转变,体现了其对探索人工智能模型各种能力的重视,也为用户在创意写作、文件处理等多种应用场景中提供了更优质、更强大的语言生成与理解工具.

  2. o1-preview

    • o1-preview是OpenAI推出的新系列模型之一,专为处理复杂推理和解决困难问题而设计。相比于GPT-4o,o1-preview花费更多时间进行深度思考,因此在科学、策略制定和编码等领域表现更为出色

    • o1-preview在编程能力上表现突出,在Codeforces编程竞赛中的排名进入了前11%。

  3. o1-mini

    • o1-mini是o1系列的轻量版模型,成本较低,响应速度更快,特别适合需要高效处理代码和基础推理任务的用户

    • 在编程方面,o1-mini性能提升明显,特别是在代码能力、代码优化、解读代码、测试用例及说明、转码和添加注释能力方面表现出色

  4. GPT-4o-2024-05-13

    • 这是OpenAI在2024年5月13日发布的新一代自然语言处理交互系统——GPT-4o。GPT-4o(“o”代表“omni”)是迈向更自然的人机交互的一步,它接受文本、音频、图像和视频的任意组合作为输入,并生成文本、音频和图像输出的任意组合

    • GPT-4o在英语文本和代码上的能力与GPT-4 Turbo性能相匹配,在非英语语言的文本上也有显著改进,同时在API中也更快且便宜50%


看完谷歌和OpenAI这两大巨头,再来看看马老板的xAI

Grok-2-08-13 是马斯克旗下 xAI 于 2024 年 8 月 13 日晚推出的语言模型 Grok-2 的早期预览版。
 - 功能特点:该系列模型具有聊天、编码和推理等功能,是在 Grok-1.5 的基础上的重要改进,其推理能力有所提升,在代码生成、写作和新闻等方面表现更出色。 
- 版本分类:包括 Grok-2 和 Grok-2 mini 两个版本,其中 Grok-2 mini 相关版本曾以 sus-column-r 的名称出现在 LMSYS 排行榜上。
作为目前唯一上榜的中国大模型,Yi-Lightning 是零一万物于 2024 年 10 月 16 日正式发布的全新旗舰模型。
该模型在训练过程中,采用 MoE 混合专家模型架构,同时改进了单阶段训练,使用多阶段的训练模式,并采用混合注意力机制,在保持模型性能接近最优的同时,尽可能减少激活参数的数量以降低训推成本,提高推理速度。

Claude 3.5 Sonnet 是由 Anthropic 公司推出的一款先进的人工智能模型,它在多个方面展现出了卓越的性能。以下是关于 Claude 3.5 Sonnet 的一些关键特性和性能表现:
1. 性能提升:Claude 3.5 Sonnet 在研究生水平的推理(GPQA)、本科水平的知识(MMLU)和编码能力(HumanEval)方面设立了新的行业基准。它在理解细微差别、幽默和复杂指令方面表现出显著的进步,并且在以自然、亲切的语气撰写高质量内容方面表现出色。
2. 速度优势:Claude 3.5 Sonnet 的运行速度是 Claude 3 Opus 的两倍,这种性能的提升结合成本效益,使 Claude 3.5 Sonnet 成为处理复杂任务(如上下文敏感的客户支持和多步骤工作流程协调)的理想选择。
3. 编程能力:在内部的代理编码评估中,Claude 3.5 Sonnet 解决了 64% 的问题,超越了解决 38% 问题的 Claude 3 Opus。它能够独立编写、编辑和执行代码,具有复杂的推理和故障排除能力。
4. 视觉能力:Claude 3.5 Sonnet 是 Anthropic 的最强视觉模型,在所有标准视觉基准测试中都超越了前代 Claude 3 Opus。
5. 计算机使用功能:Claude 3.5 Sonnet 引入了一项突破性的新功能——计算机使用。通过 API,Claude 能够像人类一样使用计算机,包括查看屏幕、移动光标、点击按钮和输入文本。
6. 多平台支持:Claude 3.5 Sonnet 现已在 Claude.ai 和 Claude iOS 应用程序上免费提供,而 Claude Pro 和 Team 计划订阅者可以在更高的速率限制下访问。此外,它还通过 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 提供。
最后是Athene-v2-Chat-72B, 由 Nexusflow 团队开发的一个高级语言模型,具有72亿参数,它在多项基准测试中与 GPT-4o 相当。以下是关于 Athene-v2-Chat-72B 的一些关键信息:
1. 用途与性能:Athene-v2-Chat-72B 被设计用于通用对话用途,包括基于聊天的应用、编码辅助和数学问题解决。它在这些基准测试中直接与 GPT-4o 竞争,证明了其在日常使用案例中的多功能性和可靠性。
2. 训练数据:Athene-v2-Chat-72B 的训练数据包括用于自然语言理解、编程语言和数学逻辑的大量数据集,使其特别擅长处理对话的复杂性、编码查询和解决数学问题。
3. 技术细节:该模型基于 Qwen 2.5 构建,并经过了严格的训练后处理,以放大各自的优势。它保持720亿参数的规模,在可管理的范围内,相比一些更大、计算密集型的模型,仍然提供与 GPT-4o 相当的性能。
4. 适应性和成本效益:通过有针对性的训练后处理,Athene-v2-Chat-72B 模型更具适应性和成本效益,而不会牺牲性能。
5. 基准测试结果:Athene-v2-Chat-72B 在聊天有用性(Arena-Hard)方面胜过 GPT-4o,在代码补全(bigcode-bench-hard)和数学(MATH)方面表现出色,并且在处理长日志提取时具有更高的精度。
6. 模型套件:Athene-v2-Chat-72B 是 Athene-V2 模型套件的一部分,该套件还包括 Athene-V2-Agent-72B,后者在复杂函数调用中优于 GPT-4o。
看了这么多大模型,只能为中国企业加油
虽然这个排行榜并不是评价的唯一标准,但还是希望更多的国内大模型可以进去前10 的榜单。

相关文章