首页 大发棋牌官方网站入口 新闻资讯 >校园风采 大发棋牌官网
校园风采
>校区风采
基本的数学问题,大型模型被合在一起!大学院已推出了新的基准VCBENCH
2025-05-24

VCBench Qubits团队贡献了|官方帐户Qbitai Big Models具有强大的数学问题能力,但是他们可以理解数学的基本原理吗?当对小学生的数学问题进行测试时,人的平均得分为93.30%,而大型模型的表现令人惊讶:Gemini2.0-Flash(49.77%),QWEN-VL-MAX(47.03%)(47.03%)和Claude-3.7-Sonnet(46.63%)将在50%中表现出最好的最佳。为什么?因为大型模型可能无法真正理解数学和视觉概念的基本要素。视觉数学的现有基准专注于评估的重点是知识,并且容易预先实现大语模型的知识。因为大型模型可能无法真正理解前序列元素和视觉概念。视觉数学的现有基准专注于评估的重点是知识,并且容易预先实现大语模型的知识。以上结论来自新的基准VCBENCH由Grass Academy推出,这是一个全面的基准,专门针对分析具有明确视觉依赖的多模式多模式多模式多模式多模式活动。该基准主要针对主要学校中有1-6分的数学问题,即与复杂的数学或几何推理无关的问题,但高度依赖于明确的视觉依赖性。论文标题:具有清晰的视觉依赖性vcbench的基准测试多模式数学推理是完全开放的资源,并且可以在文章的末尾看到代码。 强调以视觉为中心而不是以知识为中心 与以前致力于知识评论的基准不同,VCBench强调视觉效果是基本评论。 它是不需要专业知识的问题的主要目标,但依赖于对数学和概念推理的共同理解。 此方法与儿童的学习路径一致 - 他们是第一个主人视觉效果推理技能,然后逐渐获得特定领域的知识。 专注于多部位推理 VCBENCH专注于交叉问题输入形式,每个问题平均包含3.9张图像,高于现有的多刻板标准。 该设计要求该模型可以清楚地结合许多图像中的视觉线索以及有关这些元素如何相互作用的原因,这与现实世界的情况更一致 - 地层通常散布在许多视觉输入中。 全面回顾纯视觉推理的许多功能 VCBENCH正在全面评估纯视觉推理的各种功能,涵盖了六个具有意义的基本领域:时间和日历,空​​间以及位置,几何和形状,对象和动作,推理和观察以及组织和模式。 实验审查的全面结果 vcbenchesa综合实验测试,平均MARk人为93.30%,明显优于所有AI模型,表明当前的任务已为人类解决,但在AI系统中仍然很难。 Gemini2.0-Flash(49.77%),QWEN-VL-MAX(47.03%)和Claude-3.7-Sonnet(46.63%)在封闭源模型上最能执行,但仍然不超过50%的精度; 开放资源模型的一般趋势小于封闭的资源模型,并且性能不均匀,这可能与建筑差异,多模式集成水平或质量培训数据有关; 大型模型在理解和查找政策等问题上表现良好,但很难空间几何形状,表明在基本数学问题的分析的基准中,大型模型的逻辑推理能力过多,但是视觉和几何理解是严肃的。 与单画的实验比较结果 一个主要的目标是评估多图像希望的能力模型希望,但要证明该模型确实具有跨图像组合推理而不是依赖单像优化,则需要将实验性单图像作为控制引入。 如下图所示,在大图中包括文本和图片。 比较单图纸和多画的结果表明,除了专门为多画画设计的模型外,大多数模型还表现出色的单图纸(平均增加42.3%)。 例如,EMU2-CHAT单图的性能增大了281.5%,QWEN-VL-MAX的性能增加了21.3%,这表明正常模型大小更好地在从孤立的图像中获取信息,但缺乏跨图像的基本功能,例如缺乏交叉图像相关性和时机推理。 思维链(COT)对模型性能的影响分析 VCBENCH团队比较了COT在三种封闭源模型中的效果,并在以下内容中进行Lusions: 2。效果取决于任务:它的效果有限,甚至干扰了感知任务(例如日历阅读,判断方向)。此类活动更多地依赖于直接的视觉感知而不是连续的推理,而COT的中间步骤确实可以降低效率。 错误分布类型 有5种类型的错误: 1。视觉感知错误:误读模型或无法准确检测视觉内容; 2。计算误差:算术计算过程中的误差; 3。上下文误读:模型清洁文本的内容; 4。逻辑错误:推理过程中的错误; 5。答案集成错误:无法直接回答问题或提供多个冲突的答案。 1。视觉感知错误:误读模型或无法准确检测视觉内容; 2。计算误差:算术计算过程中的误差; 3.上下文误读:模型清洁文本的内容; 4基因错误:推理过程中的错误; 5。答案集成错误:无法直接回答问题或提供多个冲突的答案。 通过审查,得出以下结论: 1。与所有模型的最高比例是与当前多模型模型的最薄弱链接。所有模型中的视觉感知误差的比例超过50%,其中Gemini2-Flash高达62%。它表明,视觉理解中的基本能力仍然是当前多峰模型中的主要瓶颈。 2。计算误差(4-7%)和误解上下文错误率通常较低(3-6%),Gemini2-Flash(3%)和Claude(4%)的表现最好,而QVQ(6%)略高,这可能反映了他们过度时间的趋势。 3。不同模型之间的逻辑推理能力存在显着差异。克劳德(Claude)具有最高的逻辑错误率(33%),这反映了该基准的不良稳定性。 4。in答案集成的术语,GPT-4O具有最高的响应错误率(23%),这可以牺牲该探索的原因而牺牲主动响应。 纸张链接:http://arxiv.org/abs/2504.18589 数据仓库:https://huggingface.co/datasets/cloudcatcher2/vcbench 代码:https://github.com/alibaba-bama-academy/vcbench 网页:https://alibaba-mamo-academy.github.io/vcbench/return到sohu查看更多信息

Copyright © 2024-2026 大发棋牌官方网站入口_大发棋牌官网 版权所有

网站地图

鄂ICP备36659856号

友情链接: