近日,美国国家标准与技术研究院(NIST)人工智能与创新标准中心(CAISI)今天发布了《Deepseek和美国AI模型综合评估报告》。这一评估得到了特朗普总统的“人工智能行动计划”的授权。报告对中国DeepSeek人工智能模型与美国前沿人工智能模型的性能、成本和安全性三个主要指标进行了全面的对比测试。从多维度分析来看,美国模式总体更胜一筹。财思研究团队对三个DeepSeek模型(Deepseek-R1、Deepseek-R1-0528和Deepseek-V3.1)和四个美国模型(包括GPT-5、GPT-5-Mini、GPT-Oss和Anthropicopus 4)进行了19次基准测试。测试涵盖七个主要领域:软件工程、网络安全、科学知识、数学推理、合规性、成本效率和意识形态一致性。测试结果清楚地表明,American 模型在整体性能上优于 DeepSeek 模型。特别是在工程和网络安全任务中,间距至关重要。以网络安全任务为例,表现最好的美国模型GPT-5的准确率达到了68.9%,而最好的Deepseek模型(Deepseek-V3.1)仅达到了36.7%,差距达32.2个百分点。在软件工程领域,GPT-5再次领先,准确率达到75.8%,而Deepseek-V3.1为54.8%,差距达21个百分点。这些数据表明,美国模式相对于代码审查、漏洞发现和安全策略制定等主要工作仍然具有明显的技术优势。在成本效率对比测试中,Deepseek表现不佳。值得注意的是,评估报告在成本效率方面得出了意想不到的结论。与Deepseek-V3.1相比,GPT-5-Mini不仅性能更好,而且单个代币成本降低了35%。这一发现挑战了人们普遍认为美国车型更贵的看法。财思董事 Lynne Parker 在一份新闻稿中表示:“这一发现对于市场理解具有重要意义。许多企业在选择特定人工智能模型时往往只考虑 API 价格,但我们的测试表明,当与性能和成本效率相结合时,美国模型实际上优于提供更好的价值主张。”安全评估:Deepseek 在最受关注的安全报告调查结果中存在严重漏洞。测试表明,DeepSeek-R1-0528模型在代理安全测试中的劫持概率为37%-49%,比美国黑客模型高12倍。在越狱攻击测试中,DeepSeek-R1-0528的合格率仅为8%,而美国型号的合格率为94%。数据显示,被劫持的deepseek代理在模拟环境中成功执行了多项高危操作,包括发送钓鱼邮件、下载恶意软件等。软件,并窃取用户凭据。对意识形态一致性问题的分析还发现,Deepseek模型更有可能传播与意识形态相关的训练数据内容。在测试中,Deepseek 模型重复特定叙述的次数是美国模型的两到四倍,数据会根据地点和特定主题而变化。 Deepseek 的使用正在增长 尽管存在这些明显的缺点,Deepseek 的使用在全球范围内仍在显着增长。报告显示,自 2025 年 1 月以来,DeepSeek 模型的下载量增长了近 1,000%,某些平台上的 API 请求量增长了 5,900%。 NIST CAISI 是世界领先的测量科学中心。旨在加速美国在人工智能领域的发展。它开发和评估测试、评估和提高人工智能系统的能力、安全性和可靠性的技术基础,促进美国人工智能生态系统的竞争力和创新米。 (文|老马商业评论,作者|马金南) 特别声明:以上内容(如有则包括照片或视频)由自媒体平台“网易号”用户上传发布。本平台仅提供信息存储服务。 注:以上内容(包括图片和视频,如有)由网易HAO用户上传发布,网易HAO为社交媒体平台,仅提供信息存储服务。
校园风采
>校区风采 美国发布重大模型评测报告:Deepseek性能差且不安全
2025-11-23
