首页文章详情

谷歌Gemini 3发布预期拉满,历史学者称其解决了AI领域两个最古老难题

36氪的朋友们2025-11-13 11:16
谷歌AI模型展现手写识别与符号推理突破,或为Gemini-3。

11月12日消息,日前,一篇名为《谷歌是否悄然解决了人工智能领域最古老的两个难题?》(Has Google Quietly Solved Two of AI’s Oldest Problems?)的文章在人工智能圈内迅速传播。

作者是加拿大滑铁卢劳里埃大学历史学副教授马克·汉弗莱斯(Mark Humphries),这位研究20世纪北美史的学者近年转向数字人文与人工智能应用研究。他在Substack平台的专栏《Generative History》中披露:他在谷歌AI Studio中试验的一款神秘模型,展现出“几乎完美”的手写识别能力,以及“自发的、抽象的、符号化推理”现象。

注:AI Studio界面显示A/B测试

谷歌的AI Studio是一个开放实验平台,用户可在其中测试提示词、比较模型表现。最近一周,一部分用户发现系统会随机生成两份答案,要求他们选择较优者。这是大型AI实验室在模型上线前常用的A/B测试(用于比较两种或多种方案的效果,从而判断哪一个更优)方式。由此外界推测,这款正在试验的模型可能是即将发布的Gemini-3。

汉弗莱斯的实验原本只是想验证这款模型在“手写历史文档转录”任务上的表现,却意外观察到更深层的现象:模型不仅在转录精度上达到专家人类的水准,还能在面对模糊或不完整信息时,自行推理、纠正与解释,仿佛它在“理解”历史材料,而不仅仅在识别文字。

他写道:“我原以为AI在历史文档领域的突破还需数年,但这一模型展示的能力,已接近真正的人类专家,甚至在逻辑判断与语境还原上超出预期。”

若这些结果被证实,这将标志着AI历史上的一个关键时刻:机器不仅能“看懂”手写符号,还能像学者一样“思考”其背后的逻辑。这意味着,AI可能已同时跨越人工智能研究中两个最古老的难题——手写文本识别与符号推理。

01.从“预测机器”到“理解者”

手写文本识别(Handwritten Text Recognition, HTR)是AI研究史上最早的课题之一。早在上世纪40年代,研究者便尝试让计算机识别人类笔迹。1966年,IBM发布IBM 1287机器,它能读取数字和部分拉丁字母,被视为AI手写识别的开端。几十年来,研究者不断改进算法与视觉模型,却始终受限于一个难题:机器只能识别模式,无法理解语义。

注:识别历史文稿

汉弗莱斯指出,识别历史文稿比普通文本复杂得多。因为这不仅是视觉问题,更是语言与文化理解的难题。18、19世纪的手稿充满拼写混乱、语法不统一、符号含糊与语义歧义。理解这些内容,需要同时调动语言学、历史背景、社会常识与逻辑推理。

他解释说:“人们以为古文档的难点在笔迹辨认,其实真正的挑战在于推断作者意图——那是视觉识别与逻辑推理的结合。”

在他的研究中,手写识别成为测试LLM(大语言模型)能力极限的理想场景。因为它要求模型将感知(Vision)与语言(Language)、世界知识(World Knowledge)与逻辑(Reasoning)整合到同一任务中。如果模型能在这种复杂任务中实现突破,就可能预示着更广泛的智能能力的涌现。

注:Transkribus、人类和谷歌模型在手写文本识别 (HTR) 上的性能随时间演变

从GPT-4到Gemini-2.5-Pro,AI在HTR领域的准确率持续提升。2024年底,Gemini-2.5-Pro已能在复杂手稿上实现4%的字符错误率(CER)与11%的词错误率(WER),已进入专业人工水准。而汉弗莱斯此次测试的新模型,则进一步将CER降至0.56%,WER降至1.22%——这意味着每200个字符仅错1个字母或标点。

他指出,这种跨代提升高度符合“规模法则”(Scaling Laws):模型参数规模每扩大一个数量级,其在复杂任务上的能力提升呈可预测的指数级增长。若规律持续成立,模型或许能自动跨越过去被视为“人类独有”的逻辑推理边界。

02.从转录到推理:实验的意外发现

为验证模型性能,汉弗莱斯上传了一组18世纪的手写账簿与信件。这些资料常常充满错别字、笔迹潦草、格式不一。测试流程极其繁琐——他必须反复刷新界面、等待系统出现A/B比较机会,有时需尝试三十多次。

结果出乎意料。模型不仅在字词识别上几乎完美,还展现出一种“超出任务要求的主动推理”。

注:奥尔巴尼商人的日记账页

最具代表性的一例,来自1758年纽约奥尔巴尼一位商人的日记账。账簿中记录道:“To 1 loaf Sugar 145 @1/4 0 19 1”。人类学者知道,这表示“购买一块糖锥,每磅1先令4便士,总价0镑19先令1便士”。但手稿极其模糊,数字“145”是否为“14.5”或“1.45”并不清晰。

注:转录的特写

注:原始文档的特写

几乎所有AI模型在此都会出错——它们或将“145”误读为145磅,或将数字和单位错乱排列。然而,新的Gemini模型却自行推理出正确答案:“14 lb 5 oz”。

它并非盲目猜测,而是通过逻辑计算得出:

注:测试的结果

1先令4便士=16便士,总价0镑19先令1便士=229便士,229 ÷ 16 = 14.3125,即14磅5盎司。模型不仅推算正确,还自动规范化写法,在输出中补足“lb”“oz”单位。

汉弗莱斯惊讶地发现:“它似乎知道账目不平,主动进行逆向计算并修正单位。这不是预测,这是推理。”

这意味着,模型在面对模糊或歧义输入时,能够建立“内部问题表示”,通过多步逻辑计算得出合理结论。这正是AI长期被认为无法实现的“符号推理”核心特征。

过去的GPT或Gemini系列在类似任务中,常出现幻觉或数值错误。而此次模型不仅正确计算,还展示了上下文一致性与语义稳定性。它没有被要求进行数学验证,却在“理解文本”的过程中自发完成了推理——这一现象令研究者震惊。

03.从涌现智能到理论震荡

符号推理(Symbolic Reasoning)被认为是人类认知的核心。它意味着个体能够在心智中操纵抽象符号、执行逻辑规则,而不仅依赖模式匹配。自上世纪五十年代以来,人工智能一直试图让机器掌握这一能力,但在深度学习的时代,符号推理被认为是神经网络难以触及的领域。汉弗莱斯的发现打破了这一假设。

他指出:“严格来说,这个模型并未被设计为符号系统,它没有显式的逻辑模块。但它的行为结果却与符号推理一致——它能发现歧义、提出假设、进行验证并输出正确解释。”

换言之,这是一种隐式推理的涌现(Emergent Implicit Reasoning)。模型并不真正“知道”自己在做什么,但其内部高维表示足以形成等价于推理的结构。它并未显式操作规则,却能在足够复杂的统计网络中自然涌现逻辑模式。

这一现象对AI理论影响深远。过去,人们区分“统计学习”(Pattern recognition)与“符号推理”(Symbolic Manipulation)为两种截然不同的智能形式。而此刻,它们似乎开始融合,机器或许无需显式规则,也能在足够规模下“学会推理”。

更引人注目的是,这种能力不是特例。多个AI社区用户报告类似体验:新模型在化学式推导、手稿日期推断、古代货币换算等任务上,都能自发展示出多步逻辑思维。

这迫使研究者重新审视“理解”的定义:当AI能在没有外部指令的情况下,自行提出并解决问题,它是否仍是“预测模型”?抑或已开始形成原始的“认知结构”?

学界讨论迅速蔓延。部分AI理论家认为,这证明规模法则确实能带来“类符号智能”,即推理能力可能源于统计复杂度本身。另一些人则持谨慎态度,认为这些现象或许只是巧合性的上下文关联,而非真正理解。

无论如何,这一实验揭示了一个事实:AI的理解力,可能正在从“概率”迈向“概念”。

04.历史的回声与未来的门槛

对历史学界而言,这一突破具有革命意义。若AI能在专家级精度下转录并理解手写史料,它将彻底改变档案研究的方式。数以亿计的历史信件、账簿、日记和手稿将被快速数字化,并自动结构化分析。

这意味着,历史研究从此可能不再依赖人工逐页录入,而是进入“机器共读时代”。未来,AI不仅帮你阅读,还能帮你解释。

但这也带来新的伦理与方法论挑战:当AI以概率推理取代人类理解,历史的“解释权”是否也在被重塑?它的“修正”会不会反而制造偏差?模型的推理基础若不透明,其“历史重构”可能掺入机器偏见。

汉弗莱斯在文末写道:“AI若能像人一样读懂历史,它也将像人一样犯错。我们必须学会与它共读、共思,而非完全依赖它。”

从技术角度看,这一成果同样震撼。手写识别与符号推理,曾是AI研究中最难的两个问题:一个属于视觉领域,一个属于认知逻辑。如今它们在同一模型中被同时攻克,或许意味着通用智能的曙光。

Gemini的实验还显示出另一种趋势:通用大模型正逐步超越专用系统。过去几十年,AI研究者倾向于为特定任务(如OCR、语音识别)设计专门架构,如今的多模态LLM却以更少训练、更强泛化实现更高准确率。这预示着AI研究正在从“专用化”转向“统一化”。

汉弗莱斯将其总结为一句话:“手写识别也许只是借口,我们真正见证的,是AI开始理解世界的那一刻。”或许正如他所言:“人类花了八十年让机器看懂手写,如今机器开始看懂人类。”

本文来自“腾讯科技”,作者:无忌,36氪经授权发布。