美国发布重大模型评测报告：Deepseek性能差且不安全_爆料黑料网站-爆料快手网红黑料网站-快手抖音网红爆料网站

美国发布重大模型评测报告：Deepseek性能差且不安全

2025-11-23

近日，美国国家标准与技术研究院（NIST）人工智能与创新标准中心（CAISI）今天发布了《Deepseek和美国AI模型综合评估报告》。这一评估得到了特朗普总统的“人工智能行动计划”的授权。报告对中国DeepSeek人工智能模型与美国前沿人工智能模型的性能、成本和安全性三个主要指标进行了全面的对比测试。从多维度分析来看，美国模式总体更胜一筹。财思研究团队对三个DeepSeek模型（Deepseek-R1、Deepseek-R1-0528和Deepseek-V3.1）和四个美国模型（包括GPT-5、GPT-5-Mini、GPT-Oss和Anthropicopus 4）进行了19次基准测试。测试涵盖七个主要领域：软件工程、网络安全、科学知识、数学推理、合规性、成本效率和意识形态一致性。测试结果清楚地表明，American 模型在整体性能上优于 DeepSeek 模型。特别是在工程和网络安全任务中，间距至关重要。以网络安全任务为例，表现最好的美国模型GPT-5的准确率达到了68.9%，而最好的Deepseek模型（Deepseek-V3.1）仅达到了36.7%，差距达32.2个百分点。在软件工程领域，GPT-5再次领先，准确率达到75.8%，而Deepseek-V3.1为54.8%，差距达21个百分点。这些数据表明，美国模式相对于代码审查、漏洞发现和安全策略制定等主要工作仍然具有明显的技术优势。在成本效率对比测试中，Deepseek表现不佳。值得注意的是，评估报告在成本效率方面得出了意想不到的结论。与Deepseek-V3.1相比，GPT-5-Mini不仅性能更好，而且单个代币成本降低了35%。这一发现挑战了人们普遍认为美国车型更贵的看法。财思董事 Lynne Parker 在一份新闻稿中表示：“这一发现对于市场理解具有重要意义。许多企业在选择特定人工智能模型时往往只考虑 API 价格，但我们的测试表明，当与性能和成本效率相结合时，美国模型实际上优于提供更好的价值主张。”安全评估：Deepseek 在最受关注的安全报告调查结果中存在严重漏洞。测试表明，DeepSeek-R1-0528模型在代理安全测试中的劫持概率为37%-49%，比美国黑客模型高12倍。在越狱攻击测试中，DeepSeek-R1-0528的合格率仅为8%，而美国型号的合格率为94%。数据显示，被劫持的deepseek代理在模拟环境中成功执行了多项高危操作，包括发送钓鱼邮件、下载恶意软件等。软件，并窃取用户凭据。对意识形态一致性问题的分析还发现，Deepseek模型更有可能传播与意识形态相关的训练数据内容。在测试中，Deepseek 模型重复特定叙述的次数是美国模型的两到四倍，数据会根据地点和特定主题而变化。 Deepseek 的使用正在增长尽管存在这些明显的缺点，Deepseek 的使用在全球范围内仍在显着增长。报告显示，自 2025 年 1 月以来，DeepSeek 模型的下载量增长了近 1,000%，某些平台上的 API 请求量增长了 5,900%。 NIST CAISI 是世界领先的测量科学中心。旨在加速美国在人工智能领域的发展。它开发和评估测试、评估和提高人工智能系统的能力、安全性和可靠性的技术基础，促进美国人工智能生态系统的竞争力和创新米。（文|老马商业评论，作者|马金南）特别声明：以上内容（如有则包括照片或视频）由自媒体平台“网易号”用户上传发布。本平台仅提供信息存储服务。注：以上内容（包括图片和视频，如有）由网易HAO用户上传发布，网易HAO为社交媒体平台，仅提供信息存储服务。