AI导读:

DeepSeek大模型发布后,受到中文大模型用户广泛关注。但其存在响应率不高和AI幻觉明显的问题,幻觉率高达14.3%。大模型产品若作为高效劳动工具和严肃信息来源,AI幻觉问题处理不当将带来严重风险。文心一言在遏制幻觉问题上表现优异。

  2025年春节以来,Deepseek(以下简称DS)的发布在全球范围内掀起了一波大模型应用的新热潮。凭借其在中文问答方面的卓越表现,DS受到了中文大模型用户的广泛关注,并带动了其他中文大模型产品如下载量的增长,包括文小言、豆包、Kimi、腾讯元宝等。

  无需专业技术测评,用户即可直观感受到DS强大的推理能力。在深度思考功能中,DS的“思考”过程,即一段详细的推理过程或方法论描述,以灰色字体呈现;正式回答则以黑色字体显示,往往呈现出完整的框架性结构和逻辑链条。DS的推理能力甚至超越了许多忽视逻辑推理训练的普通人。

  DS不仅在推理能力上令人惊艳,其中文表述也极具文采,被众多用户评价为“辞藻华丽”“情绪表达到位”。作为学术用户,笔者能深刻感受到DS在标题拟定上的用心,善于运用大词、术语,行文工整,透露出自信和专业的气质。若对文本风格有特定要求,DS对语词的褒贬义、情绪和细节的选取也极为讲究,非常适合用于创作原创性不高的广告、文案、公文等。

  然而,随着DS用户数量的爆炸式增长,用户对其的期望也越来越高。普通用户普遍反映的问题主要有两点:一是响应率不高,经常出现“服务器繁忙,请稍后再试”的提示。这对于日常娱乐搜索或许影响不大,但在正式工作场合使用则可能耽误事务。二是AI幻觉问题明显,存在大量编造事实的情况。据报道,行业权威Vectara HHEM人工智能幻觉测试显示,DeepSeek-R1的幻觉率高达14.3%,远高于行业平均水平。

  从原理上讲,AI幻觉源于统计学上的“随机鹦鹉”现象,所有大模型都无法完全避免,但可以尽力减少。在遏制幻觉问题上,国产大模型产品表现各异,其中文心一言表现尤为突出,这与其研发团队从一开始就将AI幻觉作为核心研究问题密切相关。

  如果大模型产品仅作为娱乐工具,用于写写“小作文”、调节情绪,那么AI幻觉问题或许不大。但若想将其作为高效劳动工具和严肃的信息来源,AI幻觉问题处理不当将带来严重风险,甚至危及信息安全。克服AI幻觉问题是大模型发展的基础性和前提性问题,任何大模型应用都无法回避。

  笔者尝试使用DS辅助收集学术资料,发现DS存在将作者与作品混淆、杜撰文献和作者以及内容胡编乱造的情况。若完全依赖DS的回答,不仅无法提高工作效率,反而可能制造混乱和错误。当然,若仅将其作为框架性的参考和提示,DS仍能在一定程度上发挥辅助作用。

  在AI时代,许多人数字素养不高,容易迷信大模型产品。在学界,有人用DS评价学者、著作、论文和研究的水平,认为DS客观公正,可以排除人情、关系和权力等因素的干扰。这是典型的技术迷信行为,将大模型凌驾于人的判断之上。国际通行的学术评议方式是同行评议(peer review),即由专业同行进行学术评价。大模型根本不理解人类作品的含义,只是通过搜索、学习和上下文概率排序等技术手段生成文本,本质上是网上内容的“镜子”或“平均值”。因此,大模型无法取代同行评议。

  在社会传播方面,若AI幻觉严重的大模型产品接入新闻、自媒体等平台,将迅速生成大量假消息和假信息。再加上互联网的开放性和便捷性,以及社交媒体的去中心化和反权威性,将大大加剧后真相时代虚假信息的泛滥。长期使用AI幻觉严重的大模型产品的学生、文员和策划人员,会逐渐丧失区别真实与虚假的判断力,甚至认为只要形式精致、表述华丽即可,而不在乎内容的真假。

  当事实性输出存在问题时,无论推理能力多么强大,基于错误事实做出的决策都将非常危险。虽然偶尔可能出现“瞎猫碰到死耗子”的情况,但此类概率极低。科学决策以准确而完善的信息收集为前提。只有掌握了关于决策对象各个方面的信息,才能提出有针对性的备选方案,并从中挑选适合国情社情的决策方案。因此,在政务活动中使用大模型产品时,首先应对其除幻性能进行认真评估。

  如何防范大模型幻觉可能导致的信息安全问题?现阶段,大模型企业首当其冲,必须投入人力、物力和财力降低幻觉率,使之达到安全标准。其次,大模型产品的使用人员应提高数字素养,不可迷信AI,牢记AI的辅助作用,让AI为人所用,严防AI反客为主。再次,对于专业领域的大模型运用,文本生成精度应有特殊标准,在接入前要进行严格而有针对性的幻觉率评估,切不可急于求成。最后,从长远来看,大模型信息安全问题值得各方合作进行跨学科深入研究,形成系统化的防范方案,有步骤、有预案、有章法地推进大模型产品在各行各业的深度应用。

  我们以“请推荐十本国内技术哲学著作”为题,分别对DS、豆包和文心一言进行了评测,以测试这三个平台的学术信息收集整理能力。结果显示,DS在形式上较为丰富,但存在明显的“幻觉”错误;豆包回答简洁明了,但资料显得陈旧;文心一言在准确性上表现良好,但书单缺乏前沿性。总体而言,大模型在学术资料检索方面的功能仍有待提升。

(关键词:AI幻觉、大模型、DeepSeek、文心一言)

本文作者系中国人民大学吴玉章讲席教授刘永谋

(文章来源:上游新闻)