揭秘Mistral大招:全新124B多模态巨无霸登场

发表时间: 2024-11-19 15:54

编辑:编辑部 HYj

【新智元导读】Mistral AI深夜两弹更新!124B多模态巨无霸大幅超越GPT-4o,还有全新升级的Le Chat完全开放了,Flux图像生成、网络搜索、Canvas强大功能,免费用。


Mistral AI终于放大招了!一连发布两大更新——

Pixtral Large:前沿级124B多模态模型,用于驱动新Le Chat。

全新Le Chat:具备网页搜索、Canvas、图像生成、图像理解等功能——而且所有功能免费提供!

Mistral的CEO兼联创Arthur Mensch宣布道:「此次发布是一个重要的里程碑」!

现已可在官网上体验Le Chat的使用。

体验地址:https://chat.mistral.ai/chat

Pixtral Large:地表最强开源多模态来了?


在官博中,研究人员总结了Pixtral Large的5大亮点:

  • SOTA的多模态性能
  • 在MathVista、DocVQA、VQAv2等任务上达到SOTA水平
  • 在不影响文本处理性能的前提下对Mistral Large 2进行扩展
  • 1230亿参数的多模态解码器,10亿参数的视觉编码器
  • 128K上下文窗口长度:可容纳至少30张高分辨率图像

具体来说,Pixtral Large是Mistral多模态系列的第二个模型,基于Mistral Large 2构建,有1240亿参数。该模型能够理解文档、图表和自然图像,同时保持了Mistral Large 2卓越的纯文本理解能力。

Pixtral Large拥有128K上下文窗口长度,意味着它可以处理多达30张高分辨率图像或约300页书籍的输入,这一能力与OpenAI的GPT系列顶级模型相当。

该模型在Mistral研究许可证(MRL)下可用于研究和教育用途。模型及其权重可在Hugging Face平台上免费下载。

下载地址:https://huggingface.co/mistralai/Pixtral-Large-Instruct-2411/tree/main

性能评测

在评估视觉数据复杂数学推理能力的MathVista测试中,Pixtral Large获得了69.4的高分,超越了所有其他模型。

在评估复杂图表和文档推理能力的ChartQA和DocVQA测试中,Pixtral Large超过了GPT-4o和Gemini-1.5 Pro。

最后,Pixtral Large在反映多模态大语言模型实际使用场景的MM-MT-Bench测试中,表现也十分亮眼——凭借着7.4的得分,一举超越了新版Claude 3.5 Sonnet、Gemini-1.5 Pro和最新的GPT-4o。

定性实验

1. 多语言OCR和推理

提示:

我买了咖啡和香肠。我需要付多少钱?加上18%的小费。

回答:

要计算包含18%小费的总金额,请按以下步骤:

1. 计算咖啡和香肠的费用:

- 2杯拿铁玛奇朵:2 * 4.50 CHF = 9.00 CHF- 1份猪排:22.00 CHF- 咖啡和香肠的总费用:9.00 CHF + 22.00 CHF = 31.00 CHF

2. 计算18%的小费:

- 小费:31.00 CHF * 0.18 = 5.58 CHF

3. 将小费加入总费用:

- 应付总额:31.00 CHF + 5.58 CHF = 36.58 CHF

因此,需要支付总计36.58 CHF。

2. 图表理解

提示:

dark dragon什么时候开始出现问题?

回答:

「dark-dragon-50」模型的训练损失在大约10,000步时开始表现出明显的不稳定性。在这一点上,损失值表现出明显的峰值,这种不稳定性持续到大约20,000步时又有另一个主要峰值。这些峰值意味着,「dark-dragon-50」模型的训练过程在大约10,000步时开始遇到问题。

3. 其他案例

提示:

哪些公司使用Mistral AI开发的模型?

回答:

根据图片显示,使用Mistral AI模型的公司包括:BNP Paribas、Brave、Cloudflare、CMA CGM和Front。

「白嫖版」ChatGPT,图像生成搜索100%免费


全新升级后的Le Chat,能够支持图像生成、网络搜索、Canvas、PDF上传等强大功能。

关键是,完全免费。

你可以将其用作创意伙伴,教它执行特定的任务,并把它作为编码copilot。

基本上,任何日常中的任务,它都能胜任。

官方博文中,简要总结了Le Chat新的能力:

  • 带引用的Web搜索
  • 用于构思、文内编辑、导出的Canvas
  • 最先进的文档和图像理解,由Pixtral Large 2加持
  • 图像生成,直达Flux 1.1 Pro
  • 从模型到输出的全面集成
  • 由推测性编辑(speculative editing)提供更快的响应

那么,Le Chat和当前备受欢迎的聊天机器人/搜索助手区别都有哪些:

接下来,具体看下Le Chat带来的新能力。

网络搜索

Le Chat很大一部分用户是学生和专业人士,将其用于学习、研究和工作。

为了让其发挥更大的效力,Mistral AI团队通过互联网搜索增强了Le Chat的训练知识。

而且,它还得到了Pixtral Large 2加持,能够访问最新知识和事件。

在下面的实例中,一位营销团队的成员,用Le Chat来评估医疗保健AI市场。

AI给出的每个结果末,会附上相应的参考来源,供再次查证。

Canvas(画布)

前段时间,OpenAI曾发布了Canvas,目的是让AI与人类在ChatGPT中可以共同协作。

类似地,Le Chat中的Canvas,也充当着这个功能。

当你不仅仅需要的是对话,开始构思时,它会在聊天窗口中弹出。

如下,Mistral AI的产品团队在为Canvas推出时,创建了一个如何让大家使用新功能的演示。

左边的Canvas中给出了关于用户使用、管理等各种指标。

若是还有另外的要求,直接在右边的聊天界面要求——用 mockdata创建一个 React 仪表盘,显示这些指标。

而且,你还可以针对AI生成的代码进行再编辑,比如添加文本描述。

通过Canvas你可以创建文档、写代码等等,它能为你提供无限创造性思维。

快速准确理解文档

另外,Le Chat还能处理大型、复杂的PDF文档和图像,并对其进行分析和总结。

具体操作,和大家日常用的其他AI流程一样。

值得一提的是,它是由最强大的多模态Pixtral Large加持。

不如看看,Le Chat究竟有多强大?

上传一篇由爱因斯坦、波多尔西和罗森在1935年发表的著名量子纠缠论文,里面包含了很多复杂的公式。

然后让AI对论文进行信息提取、总结,和语义理解。

比如,基本的问题——论文作者是谁,并让它将论文总结成三段话。

甚至,你可以让它列出关键公式,谈谈这篇论文影响力。

图像生成

Mistral与Black Forest Labs合作,将他们的图像生成模型FLUX1.1[pro]引入了Le Chat。

FLUX1.1[pro]生成图像风格案例

智能体自动化重复工作流

如果你发现自己经常重复使用某些提示词,或者发现某些创造性工作的模式可以被自动化,可以将这些工作流程编码为代理。

常见的使用场景包括,扫描收据进行费用报告、为冗长的会议记录创建摘要、发票处理。

Le Chat智能体能够和团队成员共享,推进工作流程。

你可以创建角色扮演对话智能体。比如让智能体模仿单口喜剧演员Ali Wong和Jimmy Yang的风格。

你还可以创建一个只说法语的智能体。你需要为这个智能体设置特定的指令,并使用少量示例学习,确保它理解只用法语进行交流的要求。

你还可以创建一个只输出Python代码的智能体,并要求它不提供任何解释。这在你需要生成可以轻松复制粘贴的代码片段时非常有用,避免了模型通常提供的额外解释性文本。

此外,你可以在工作流中利用多个智能体。以下是一个生成数据分析报告的工作流,工作流共包含数据分析规划、代码生成与执行、分析报告总结三步,每一步都有一个单独的智能体。

数据分析规划:数据分析规划智能体编写一份全面的数据分析计划,概述分析数据所需的步骤。

代码生成与执行:对于分析计划中的每个步骤,Python智能体生成相应的代码。然后,Python智能体执行生成的代码,以执行指定的分析。

分析报告总结:基于已执行代码的结果,总结智能体编写一份分析报告。报告总结了从数据分析中得出的发现和洞察。