六款主流AI聊天机器人实时新闻问答能力测评

网易专栏14小时前发布 nxnqh

1 0 0

发布时间：2026-06-19 22:59:03

#AI | #AI聊天机器人

来源：网易专栏作者：至顶头条
🔗 查看原文

🤖 AI总结

主题

六款主流AI聊天机器人在即时新闻问答方面的准确性研究。

摘要

研究显示AI聊天机器人新闻问答准确率超90%，但存在地区差异和来源偏差，对错误前提鲁棒性差异大。

关键信息

1 AI聊天机器人新闻问答准确率存在地区差异，印地语区表现最差。
2 错误主因是检索失败和来源偏差，而非推理能力不足。
3 模型对错误前提的鲁棒性差异巨大。

六款主流AI聊天机器人实时新闻问答能力测评

一项新研究对六款主流AI聊天机器人在即时新闻问答方面的准确性进行了测量，结果发现这些系统存在显著的地区性差异、对特定信息生态系统的高度依赖，以及在问题表述不精确时的脆弱性。

背景与研究动机

目前，约有10%的美国人会不时通过AI聊天机器人获取新闻资讯，在全球25岁以下的新闻用户中，这一比例接近15%。然而，用户信任度已超前于系统可靠性。约半数通过AI获取新闻的美国成年人表示曾接触到他们认为不准确的信息，约三分之一的人难以辨别真假。随着AI逐步取代搜索引擎的角色，且越来越多地在不跳转至原始来源的情况下被信任，一个核心问题随之浮现：AI聊天机器人在回答每日实时新闻问题时，究竟有多可靠？

研究设计

在这项预印本研究中，研究团队对六款商用AI聊天机器人进行了评测，共涵盖2100道即时新闻问题，产生12600条模型回答，覆盖六个地区和语言。评测周期为2026年2月9日至22日，共14天。研究人员每天从BBC六个地区频道（美国及加拿大、非洲法语区、阿拉伯语、印地语、俄语、土耳其语）的当日报道中生成150道选择题，每个地区25道，涵盖具体数字、命名消息来源、地点、时间等细节信息，分别向六款面向用户的商用AI聊天机器人提问。

总体准确率与地区差异

表现最佳的系统包括Gemini 3 Flash（准确率95.6%）、Grok 4（95.0%）和Gemini 3 Pro（93.7%），每十道题中答对超过九道。这一成绩相较于此前的实时问答基准测试（如RealTime QA）有明显提升。

然而，总体准确率掩盖了一个关键问题：这种能力并非均等地服务于所有用户。六个地区中有五个的准确率集中在88.9%至91.3%之间，但印地语区的平均准确率仅为79.3%，比第二低的地区低近10个百分点。所有被测模型在印地语上的表现均为最差，印地语的错误量约是其他任何地区的两倍。即使排除表现最弱的GPT-4o-mini，其余五款较强模型在印地语上的错误率仍约为16%，而其他五个地区仅为5%至8%。

错误类型分析

研究团队利用三个大语言模型标注者，将全部1497条错误答案划分为八类。其中两类占主导地位，合计超过总错误数的70%：检索失败（模型无法定位足够相关的内容）占38.8%；来源偏差（模型检索到主题相关但事实不同的替代来源并据此作答）占32.7%。其余六类合计不足30%。研究发现，当模型成功检索到正确来源时，几乎总能提取出正确答案。因此，瓶颈在于查询与证据之间的连接，而非后续的推理过程。

这一规律有助于重新理解印地语的差距根源。问题并非语言理解能力不足——这些系统能够流畅阅读印地语并进行有效推理——而是证据绑定的失败：当检索流程无法找到目标印地语文章时，系统会返回一篇报道同一宏观话题的英语来源，模型据此作答，却几乎不提示来源已发生切换。在印地语查询的引用数据中，被引用最多的单一域名竟是英语版维基百科，其引用次数超过所有印地语新闻媒体的总和。在一个典型错误案例中，某模型被问及印度商船海员占全球劳动力的比例（BBC印地语报道为7%），却检索到一个英语行业门户网站上流传的10%至12%的数据，最终给出了”10%”的错误答案。类似模式在多数非英语地区以不同程度重复出现。

引用来源分析

研究团队对全部12600条模型回答中引用的所有URL进行了分析，发现两个显著规律。

第一，Grok 4对BBC新闻的引用率异常之高——28.5%的回答包含BBC链接（尽管Grok与BBC之间并无已知的公开合作关系）。其他三款聊天机器人几乎从不引用BBC（Claude 4.5 Sonnet 0.0%、GPT-4o-mini 0.0%、GPT-5 0.2%），两款Gemini模型偶尔引用（Pro 4.1%，Flash 6.9%）。这种差异很可能与爬虫政策和许可合规性有关，而非单纯反映检索能力的高低：BBC一直积极执行robots.txt限制，并曾威胁对未经授权爬取其内容的AI公司采取法律行动。遵守规定的服务商在机制上会减少对BBC的引用，与检索效果无关。Grok 4的较高引用率或许反映的是更激进的爬取策略，而非更优越的检索基础设施。

第二，即使在回答非英语新闻相关问题时，各模型依然高度依赖英语来源。在本研究涉及的六个BBC地区频道中，只有美国及加拿大频道以英语发布内容。然而，在全部研究中，被引用最多的十个域名中有九个主要为英语，英语版维基百科是被引用次数最多的单一来源，并在六个地区中均位列被引用最多的前三名。这一发现表明，印地语表现差距所揭示的问题并非印地语所独有，而是AI介导新闻检索中的一种普遍倾向：面对非英语问题时，模型往往通过全球索引的英语来源进行信息检索，而这些来源在数字、引语、背景细节或编辑侧重点上可能与原始本地报道存在差异，即便描述的是同一事件，也可能产生事实偏差。

这一现象具有重要的下游影响：当同一新闻事件被查询时，不同聊天机器人所依据的来源在实质上存在差异。这是AI介导访问所特有的信息碎片化形态，不同于传统新闻消费中一贯存在的编辑选择效应，且在很大程度上受法律和商业安排的影响，而非纯粹由检索工程决定，而用户对这一层面几乎一无所知。

对抗性问题测试

然而，在表述规范的问题上表现良好，只是可靠性评估的一部分。现实用户经常会提出不完美的问题：他们可能记错名字、混淆事件，或将存在争议的前提视为既成事实。为测试系统对此类情况的处理能力，研究团队针对美国及加拿大问题集构建了对抗性变体，每道对抗性题目在保持问题结构合理的前提下，引入一处细微的事实偏差（如错误归因、虚构细节、范围反转等）。一个鲁棒的系统应能识别虚假前提，或在存在误导性表述的情况下仍能恢复出经过验证的事实。

在正常的选择题条件下，四款前沿模型的准确率集中在88%至96%（差距约8个百分点）。在对抗性条件下，差距扩大至51个百分点：Grok 4保持了70.0%的准确率，而GPT-5则跌至19.0%。

更细粒度的分析将两种能力区分开来：一是”检测”——模型是否在推理过程中明确标记或纠正了注入的虚假信息；二是”对抗性准确率”——最终答案是否正确。两者呈现出分离态势：检测能力最强的Gemini 3 Pro识别出了80%的虚假前提，但最终只有55%的答案正确；Claude 4.5 Sonnet检测到78%，但准确率仅为46%；Grok 4仅检测出59%的虚假前提，但在对抗性准确率上排名第一，原因在于其检索流程通常能在未识别虚假前提的情况下找回正确事实。

研究局限与政策意涵

研究团队指出了三点重要局限：其一，本研究采用选择题形式，与之并行的开放式问答验证显示准确率绝对值下降16%至17%，但模型排名在三位独立大语言模型评审标注者之间保持稳定；其二，BBC新闻是索引完善、可信度高的来源，在知名度较低的媒体上的表现可能更差，且遵守BBC许可和爬取限制的服务商在本基准测试上处于机制性劣势；其三，所有查询均源自美国服务器，这可能放大了非英语地区的英语检索偏向。

对AI新闻中介的公共利益评估，不应仅以总体准确率作为单一指标，还应衡量跨语言和跨地区的检索保真度、来源归因及其法律决定因素，以及对用户日常提出的不完美问题的鲁棒性。这些维度正变得愈发重要。2026年路透社新闻研究所的一项调查显示，新闻高管预计未来三年内谷歌搜索给出版商带来的流量将下降43%。随着越来越多的用户通过AI而非直接访问出版商网站来接触新闻，检索、归因和来源选择方面的差异将日益决定哪些报道能够到达大众，以何种条件呈现，以及如何呈现。

因此，问题已不再是AI聊天机器人是否会成为新闻中介——它们已然如此。更紧迫的问题是：用户、记者和政策制定者，能否看清这些AI系统差异最显著的那些维度？研究结果表明，许多关键差异——包括地区检索差距、来源选择模式，以及对不完美或虚假前提的易感性——在很大程度上仍不可见，尤其是当它们被隐藏在单一准确率指标之下时。研究团队希望这项研究能够推动社会各界围绕通过AI获取新闻的机遇与风险展开更广泛的讨论。

本研究部分由斯坦福大学以人为本人工智能研究院资助支持。

Q&A

Q1：AI聊天机器人回答新闻问题的准确率大概是多少？

A：根据这项针对六款商用AI聊天机器人的测评，表现最佳的系统准确率超过90%，其中Gemini 3 Flash达到95.6%，Grok 4为95.0%，Gemini 3 Pro为93.7%。但总体准确率存在地区差异，印地语区平均准确率仅为79.3%，明显低于其他地区的88.9%至91.3%。

Q2：为什么AI聊天机器人在印地语新闻问答上表现更差？

A：根本原因不是语言理解能力不足，而是检索基础设施对印地语新闻的索引覆盖不足。当模型无法找到目标印地语文章时，会自动切换到英语来源作答，而英语来源中的数据或细节可能与印地语原始报道不同，导致答案出现偏差。在引用数据中，印地语查询被引用最多的来源竟是英语版维基百科，而非任何印地语新闻媒体。

Q3：用错误前提提问时，AI聊天机器人会怎么表现？

A：不同模型差异极大。在正常问题上准确率相近（88%至96%）的模型，在对抗性问题上表现差距扩大至51个百分点：Grok 4保持70%准确率，而GPT-5跌至19%。值得注意的是，检测到虚假前提的能力与最终答对的能力并不一致，Gemini 3 Pro虽能识别80%的虚假前提，但最终答对率仅55%；Grok 4识别率只有59%，但准确率反而最高，因为其检索流程能在未识别错误的情况下找回正确事实。

网易专栏 # AI # AI聊天机器人

文章版权归作者所有，未经允许请勿转载。

六款主流AI聊天机器人实时新闻问答能力测评

🤖 AI总结

主题

摘要

关键信息

NEA合伙人Tiffany Luck谈AI IPO、个人智能体与ROI核算

乐购将4万个服务器工作负载迁离VMware，指控博通"滥权"

相关文章

Google NotebookLM推出影视级视频总结功能

给大家介绍一下：我的AI海外达人营销员工

Fitbit AI健康教练将获得读取医疗记录能力

CEOs首次将AI视为最大商业风险，超越地缘政治动荡