今天,全球首个端侧全模态理解开源模型 Megrez-3B-Omni 正式发布!它专为手机、平板等设备设计,体积轻巧、速度飞快,能够处理图片、音频和文本三种模态数据,堪称全能选手。
该模型采用30亿参数的黄金尺寸,主干网络参数仅2.3B,却在精度上超越了14B模型,并在推理速度上领先同级模型300%。不仅性能卓越,还能满足端侧设备的算力限制。
在多种测评基准中,Megrez-3B-Omni表现惊艳:综合性能甚至超越了34B的大模型。在图像、文本、音频三大模态的同尺寸测试中,它始终稳居第一。
作为无问芯穹“端模型+端软件+端IP”战略的重要组成,Megrez-3B-Omni不仅是技术的突破,更是实现端侧AGI不可或缺的一环,将推动智能设备的理解力进入全新高度。
通过 Megrez-3B-Omni,用户能享受更高效的日常交互,比如图像识别、语音提炼或文本处理,均可轻松应对。
Megrez-3B-Omni 在图像理解领域表现卓越,凭借仅3B的体量,在OpenCompass、MME、MMMU、OCRBench等测试集中超越34B模型,成为目前精度最高的图像理解模型之一。
在场景理解任务中,Megrez-3B-Omni能精准洞察任意比例图像的内容,轻松解析复杂场景。这种能力让它可以协助用户高效完成商品选择等实际应用。
OCR任务中,Megrez-3B-Omni不仅能准确识别模糊印刷字体,还能解析复杂手写字,无论内容多样还是格式复杂,都能快速提取关键文本信息。
Megrez-3B-Omni在文本理解方面展现了极高水平,将上一代14B大模型的能力压缩至3B规模,同时显著降低计算成本,提升效率,实现了性能与资源利用的最佳平衡。
在 C-EVAL、MMLU/MMLU Pro、AlignBench 等权威测试集上,Megrez-3B-Omni 稳居榜首,成为端侧模型精度的全球领先者。其表现为设备智能化开辟了新路径。
凭借高效的架构设计,Megrez-3B-Omni 以更少的资源实现更高的性能,为文本理解提供了强大的支持,进一步突破了精度与速度的传统边界,为端侧应用带来更多可能性。
Megrez-3B-Omni 在音频理解上效果卓越,支持中英文语音输入,能够处理复杂的多轮对话场景。同时,用户还能通过语音对图片或文字提问,实现跨模态自由切换。
通过语音指令,Megrez-3B-Omni 可直接生成文本响应,无需额外操作,让交互更加直观自然。无论是提问图片内容还是听口令生成长文,都能轻松应对。
在多模态交互中,用户可随时切换语音与文本输入模式。Megrez-3B-Omni 的设计降低了用户操作门槛,大幅提升了端侧设备在多模态场景下的交互效率和体验感。
Megrez-3B-Omni 的推理效率堪称行业标杆。凭借软硬件协同优化策略,该模型将参数设计与主流硬件深度适配,充分发挥硬件性能,实现速度与精度的完美平衡。
与其他端侧大语言模型相比,单模态版本 Megrez-3B-Instruct 推理速度提升显著,最高可领先同精度模型300%,即使在复杂场景下也能流畅运行。
这表明,模型规模并非速度的唯一决定因素。通过精准优化,Megrez-3B-Omni 打破了体量与性能的限制,为端侧设备的智能化处理树立了全新标杆。
Megrez-3B-Instruct提供了WebSearch功能,能够智能判断何时调用外部网页搜索来辅助回答用户问题。这使用户可以构建属于自己的AI搜索系统,实时获取最新信息,弥补小模型在知识储备上的局限。
模型在回答问题时会根据实际需求智能切换:当内置知识足够时,可直接完成推理;当需要更全面的信息时,自动调用网络搜索。这种动态调整避免了过度依赖搜索影响速度,也解决了完全不搜索带来的回答不准确问题。
WebSearch的引入不仅提升了回答的精准度,还能输出带参考来源的结构化信息,为用户提供可靠的答案。配合强大的上下文理解能力,Megrez-3B-Instruct在复杂场景中表现尤为出色。
此外,用户可通过System Prompt自定义模型行为,灵活切换搜索与对话模式。这种高自由度设计,让端侧设备既保留轻量化特性,又能享受AI搜索带来的智能辅助,满足多元化应用需求。
无问芯穹团队源自清华大学NICS-EFC实验室,在模型压缩、推理加速和硬件优化领域积累了丰富经验。基于软硬件协同的理念,Megrez-3B-Omni 开启了端侧智能的新篇章,为轻量化模型的高效运行树立了标杆。
除了Megrez-3B-Omni,无问芯穹还推出端上推理软件和IP设计方案。这些解决方案支持CPU、GPU和NPU同时推理,通过跨软硬件的优化,性能可提升70%。适配从手机到智能眼镜的多种设备,覆盖丰富的生活和工作场景。
未来,无问芯穹将持续迭代Megrez系列,推动自动化水平进一步提升。通过“端模型+端软件+端IP”一体化设计,降低能耗、提升推理速度,力求在端侧设备上实现 AGI 的早日到来。
目前,Megrez-3B-Omni已在Github、HuggingFace、ModelScope等社区开放下载,并提供在线体验或API接口。无问芯穹正携手智能设备和芯片厂商,共同推进端侧智能迈向新高度。
如果你觉得这篇文章对你有所帮助,欢迎点赞、收藏以及转发分享。同时,请关注我,以获取更多关于人工智能的最新资讯和见解!
Github:https://github.com/infinigence/Infini-Megrez
HuggingFace:https://huggingface.co/Infinigence/Megrez-3B-Omni
Infini-AI异构云:https://cloud.infini-ai.com/genstudio/model/mo-c73owqiotql7lozr
Modelers:https://modelers.cn/models/INFINIGENCE-AI/Megrez-3B-Omni
ModelScope:https://www.modelscope.cn/models/InfiniAI/Megrez-3B-Omni
参考:
https://mp.weixin.qq.com/s/aWtZnw3nf4Fpx_xRGN-REw