2025年5月15日 ,中国数据通信研究院人工智慧研究所公布了大模型幻觉测试的第一期结论:包括DeepSeek R1在内的15个主流模型,无一例外都存在不同程度的“幻觉” 。
“幻觉”一词源于生物学,运用在人工智慧领域,始于谷歌2017年的众汇wetrade官网一项研究。当时研究员们模仿人类的神经网络 ,设计了一个机器翻译平台 。
结论发现这个网络翻译平台哪怕“不会”,仍能输出一段流畅的素材。过去,谷歌旧有的翻译平台遇到不会的单词,很多时候会保留原文 。于是,研究人员把神经翻译平台这种更有“迷惑性”的错误命名为“幻觉” 。
一个著名的幻觉案例是,2024年7月,Scale AI的高级提示工程师莱利·古德赛德向当时世界最强三大模型(GPT-4o、Gemini Advanced 、Claude 3.5 Sonnet)询问 ,“9.11和9.9哪个更大 ?众汇外汇平台”它们异口同声回答 :“9.11更大 。”
ChatGPT并非全球首个大模型,Meta和谷歌此前也推出过类似产品。其中 ,Meta的Galactica AI因幻觉严峻,上线仅三天便被撤回。
ChatGPT之所以被视为划时代产品,正是因其第一次将幻觉率压低到可接受规模 。从ChatGPT-3.5到o3,两年来模型性能连续提高 ,人们逐渐形成一种假设:模型越聪明,越不会出错。
直到2025年4月,OpenAI在一篇论文中泼了冷水 :在其内部测试中,新近的TMGM外汇推理模型o3比前一代推理模型o1的幻觉率更高