玩这些有趣的东西。通常情况下什么也得不到，你必须学会说：“好吧，再试一次，什么都没发生，我会继续前进。”

DeepMind的AlphaProof系统

Q：DeepMind的AlphaProof系统是通过强化学习训练的，使用的数据包括国际数学奥林匹克(IMO)问题在Lean中成功和失败的形式化证明，这属于较高水平的高中数学问题。

这个系统怎么样？证明高中级别问题的系统与研究生级别问题之间存在着怎样的差距？

陶哲轩：随着证明中步骤数量的增加，难度会呈指数级增长，这是一次组合式爆炸。

大型语言模型的问题在于它们会犯错误：如果一个证明有20个步骤，而你的模型在每个步骤中有10%的失败率去走向错误的方向，真正到达终点的可能性很小。

图片来源于AlphaProof项目页

Lex Fridman：稍微扯一下题外话——从自然语言映射到形式程序的问题有多难？

陶哲轩：是的这实际上非常难，自然语言有很强的容错能力，你可以犯一些小的语法错误，第二语言的说话者还是能大致理解你在说什么；但是形式语言，如果你有一个小地方出错，整个事情就都成了无稽之谈。甚至形式到形式都非常困难，不同语言中存在不同的、互不相容的序言，有Lean、Coq和Isabelle等等，即使从形式语言转换到形式语言，依然是一个基本尚未解决的问题。

Lex Fridman：但是一旦你有了他们使用的非正式语言，他们就会用 RL 训练模型，用类似于AlphaZero的模型去尝试提出证据。他们还有一个模型，我相信是用于几何问题的独立模型。那么这个系统给你留下什么样的印象呢？你怎么看待这些差距？

陶哲轩：我们之前讨论过，随着时间的推移，一些令人惊叹的事情会变得有些常态化。当然，几何是一个可以解决的问题，这些都是很伟大的作品，展示了什么是可能的。但这个方法目前还不具备可扩展性，Google服务器时间要用三天时间去解决一道高中数学题。随着复杂性的指数级增加，这并不是一个可拓展的前景。

Lex Fridman：我们需要提一下他们获得了银牌。

陶哲轩：只是相当于银牌表现。首先，他们花费的时间远超规定时限，而且是在人类协助下完成形式化验证的。但既然解决方案获得了满分评定——我想这是因为通过了形式化验证——所以这种评判应该算是公平的。

事实上已经有人提议要举办一场”AI数学奥林匹克竞赛”。具体设想是：在人类选手参加正式奥林匹克竞赛的同时，AI系统也将同步获得相同的赛题，并在相同的时间限制内作答，所有解答结果都将由同一批评委进行评分。这意味着AI必须使用自然语言而不是形式化语言来完成证明。

但我希望下一届IMO比赛不会出现这种情况——这次IMO的表现确实在时间限制内不够理想。不过，在一些规模较小的竞赛中，比如那些只需要给出具体数字答案而非完整证明过程的比赛，AI的表现其实要好得多。因为对于这类有明确数值答案的问题，强化学习会更容易一些：你得到了正确答案、你得到了错误答案，这是非常明确的信号。

但长篇证明要么必须正式，这样Lean系统才能给出赞同或反对的反馈；要么就是非正式的，需要人类来评分。

如果你试图进行数十亿次的强化学习运行，你知道，你无法雇佣足够多的人来对这些进行评分。实际上，光是基于常规文本进行强化学习对当前的语言模型来说已经很有挑战性了，而现在如果不仅要雇佣人工审核员给出好评或差评，还要对输出结果进行严格的数学验证……这样做的成本实在太高了。

“嗅觉”是人类特有的优势

Q：人类在数学领域最独特的能力是什么？哪些方面是AI短期内难以突破的？

陶哲轩：我认为数学家们所做的工作的性质随着时间的推移发生了很大的变化。

一千年前，数学家需要计算复活节的日期——那涉及极其复杂的运算，但这些计算早在一个世纪前就被自动化取代了。他们过去还要运用球面三角学进行航海导航，完成从旧大陆到新大陆的复杂计算，这些也都实现了自动化。

即使在AI出现之前，像Wolfram Alpha这样的工具（虽然它不是语言模型）已经能解决许多本科阶段的数学问题。在计算层面，验证常规问题——比如给出一个偏微分方程题目，要求AI用20种标准解法的其中一种求解——AI可以回答：”我已尝试全部20种方法，这里有100种不同的排列，这是我的结果。”这类任务AI将表现得非常出色。一旦你解决了其中一个问题，就可以让AI攻击100个相似的变体。

但人类仍然保有独特的优势：当前AI最大的短板在于，当它走错路时它可能会说：”我要把问题拆分为两种情况，尝试这个技巧。”对于简单问题，运气好时这个方法有效；但有时它提出的解题思路完全是胡说八道，即使看上去像模像样。这是语言模型生成数学内容很让人头疼的地方。

确实，人类撰写的低质量数学内容我们也见过不少，比如缺乏正规训练者的投稿。但糟糕的人类证明通常能快速识别，它会犯一些非常基本的错误；而AI生成的证明却可能表面完美无瑕，因为强化学习实际上就是训练它们去生成看起来像是正确的文本，这对许多应用场景来说这就已经够了。所以错误往往非常隐蔽，等你找到它们时，又会发现它们真的很愚蠢，因为没有人会真的犯这种错误。

Lex Fridman：是的，这在编程环境下非常令人沮丧，因为我自己也经常编程。当人类写低质量代码时，有一种叫做代码异味（code smell）的东西，你可以立刻看出来异常迹象。

但AI生成的代码从表面看起来完美规范，直到最后你才发现其中隐藏着极其明显的愚蠢错误，偏偏这些错误还藏在看似良好的代码结构里。

陶哲轩：嗅觉是人类特有的一种东西，嗯，还有一种比喻性的数学嗅觉，但这个我们不清楚如何让 AI 复制它。Alpha Zero等程序在围棋和国际象棋等领域取得了一定的进展，在某种程度上，它们已经发展出了一种对围棋和国际象棋局势的嗅觉，它们知道这个局势对白方有利，对黑方有利。即使无法阐明原因，仅仅拥有这种“嗅觉”就让它们能够制定策略。

所以如果人工智能获得某种评估特定证明策略可行性的能力，你可以说：“我打算把这个问题分解成两个小子任务”，它们可以说：“嗯，这个看起来不错，这两个子任务看起来比你的主要任务更简单，而且它们仍然有很好的机会实现，值得一试。”或者“哦不，你让问题变得更糟糕了，因为这两个子问题实际上比你原本的问题还要难。”

这种情况实际上经常发生，当你尝试一些随机的方法，很容易把问题变得更加复杂而不是变得简单。所以，如果AI能够拥有“嗅觉”，那它们也许可以开始和人类水平的数学家媲美。

Lex Fridman：这是一个难题，但不是竞争，而是合作。我们假设一下，如果我给你一个能够做到你某些方面的能力的预言机，你可以与之合作，你希望那个预言机能做什么？你是否会希望它成为一种验证器，去检查代码异味，就像你本人那样？陶教授，这是一个充满希望、富有成果的方向。或者你想让它生成可能的证明，然后由你来看哪一个是正确的？你喜欢的话，或许还可以生成不同的表现形式，用完全不同的方式去看待同一个问题？

陶哲轩：是的，我认为以上选项都有可能，很多时候我们不知道如何使用这些工具，因为这是一种范式。过去我们从未遇到过如此矛盾的AI系统——它们既能理解复杂指令并处理海量任务，又会在细微处表现出令人不安的不稳定性，同时却仍能产出相当优质的结果。这种既强大又不可靠的特性组合确实耐人寻味。

这就像同时具备了两种特质的混合体：一方面如同可以深入交流的研究助手，另一方面又像传统软件工具那样具备规模化运行能力，只不过前者无法规模化，后者又太过局限。

Tim Gowers早在2000年就预见到了这种数学协作场景，说来有趣，距今正好二十多年。他在文章中设想了一个未来数学助手与人类数学家的对话场景：人类提出创意构想，AI负责评估可行性；AI也会主动建议”需要验证100个特例吗”；或是实时反馈”你说命题对所有n成立，但我发现n=46时出现反例”。这种自由流动的协作模式正是我们所期待的：人类和AI双方随机提出想法或计算需求，没有预设路径。（流动性的协作可以联想到之前提到的自主性滑块

我测试过这种协作方式，故意用已知答案的问题与AI合作。但当我建议使用某种方法时，AI往往会另辟蹊径。有时它能发现精妙的论证思路，有时却会完全偏离正轨，这时就不得不打断：”不对不对，这个方向错了，使用这个方法。”好的，它可能就会开始使用我提出的方法，然后回到我们期望看到的路径。但你必须一直去引导它，才能让它走上你想要的路径，让它更像你，最终才能强迫它给出你想要的证明。

就像是要赶一只猫一样，嗯，我需要付出的个人努力，不仅在于引导它，还要去检查它的输出，因为它看上去能成功但实际上并不可以。这比自己做还要累得多，但这就是当前最先进的水平。

Lex Fridman：我想知道是否会发生一个阶段性的转变，以至于不再感觉像是在赶猫，也许它的发展速度会让我们感到惊讶。

陶哲轩：我相信会。在形式化方面，我之前提到过，形式化一个证明比用手写要花费 10 倍的时间。但用这些现代 AI 以及更好的工具，Lean的开发者们正在做得更加出色，他们不断增加更多功能并使其更用户友好，这个时间正在从9倍降到8倍再降到7倍……好的，这没什么大不了，但终有一天它会低于1。这就是一个阶段性的转变。

因为当你写论文的时候，它忽然就有意义了。先用Lean语言完成证明，或是通过与AI实时协作完成内容，这个流程将变得理所当然，而期刊审稿流程也将随之革新：对于已经通过Lean形式化验证的论文，审稿人只需要评估研究成果的重要性和它与现有文献的关联性，而不需要过度担心证明过程的正确性，因为这些都是已被系统认证过的。

数学领域的论文正在变得越来越长，实际上，除非它们非常重要，否则为那些真正长的论文找到好的审稿人越来越难。这确实是一个问题，而形式化恰好在合适的时间出现，使得这种情况变得更容易猜测。

Lex Fridman：随着工具链的完善和其他相关因素的发展，我们可以预见Mathlib这类数学知识库很可能呈现指数级增长，这是一种良性循环。

陶哲轩：是的，我的意思是，LaTeX 如今已成为所有数学家使用的标准排版语言。过去人们使用各种文字处理器和打字机，但在某个时间点，LaTeX比其他所有的竞争对手都更容易使用，短短几年内就完成了整个学术界的彻底转换，这种转变堪称戏剧性。

AI和菲尔兹奖的距离：差一个研究生

Q：距离 AI 系统作为合作者参与获得菲尔兹奖级别证明的研究，我们还有多少年？换句话说，AI 何时能达到这种顶尖协作水平？

陶哲轩：这取决于AI和人类协作的水平。

Lex Fridman：我的意思是，它是否值得获得菲尔兹奖。

陶哲轩：各占一半吧，如果这是一篇获奖论文，其中包含一些 AI 系统协助写作的话，你知道，就比如说，仅是完成顺序就已经…我使用它来加速我自己的写作。比如说，你可以有一个定理，有一个证明，证明分为三个情况，我写下第一个情况的证明，而自动补全建议：“现在，这里是第二个情况证明该如何进行”，并且它完全正确，太棒了，节省了我大约5到10分钟的打字时间。

Lex Fridman：但在那种情况下，AI系统并不会获得菲尔兹奖。我们是谈论20年、50年还是100年？你觉得呢？好吧。

陶哲轩：我曾经发表过一个预测，到2026年——也就是明年——将会出现AI和数学的合作，不是获得菲尔兹奖的那种，而是实际研究水平的数学，比如一些由 AI 部分生成的、已发表的想法。也可能不是想法本身，但至少是一些计算或者验证工作。

Lex Fridman：这种情况已经发生了吗？

陶哲轩：已经发生过了，是的。有些问题是通过复杂的流程解决的，即与 AI 对话来提出想法，然后人类去尝试，尽管它有可能不适用。

Lex Fridman：但它会提出一个不同的想法。

陶哲轩：确实有一些数学成果，只有在人类数学家和AI的共同参与下才得以完成，但他们的功劳很难理清。我的意思是，尽管这些AI工具并不能复制数学运算所需要的所有技能，但它们可以复制其中的相当一部分，大概30%到40%，它们可以填补某些方面的空白。

编程就是一个很好的例子：用Python编程对我来讲是一件很麻烦的事，毕竟我不是一个专业的程序员，但是AI大大降低了做这件事情的摩擦成本，它为我填补了这个空白。

现在AI在文献综述方面已经做得相当不错了，但仍然存在一个幻觉的问题，你知道，有些时候它会给出一些完全不存在的参考文献。但我认为这是一个能够解决的问题，通过用正确的方式进行训练等等，或者可以使用互联网进行验证，在几年之内应该就可以到达这样的水平：当你需要一个引理时，你可以问AI，之前是否有人证明过这个引理？AI就会进行一次高级的网络搜索，然后告诉你，这里有6篇论文提到了类似的情况。

我的意思是你现在就可以问它，它会给你6篇论文，但其中可能只有一篇是真实且与问题相关的、一篇真实但与问题无关，剩下4篇完全是凭空捏造出来的。AI现在确实有非零的成功率，但存在太多的垃圾信息，信号与噪声的比率太差了，以至于它只有在你已经大致了解需要的关系时才最有帮助。

嗯，你只需要被提示、被提醒一篇已经潜藏在你记忆中的论文，而不是帮助你发现那些你甚至没有意识到但却是正确引用的新内容。但是当它做到时，那个正确的选项会被埋没在其他一系列的糟糕选项中。

（所以说 AI 目前还是有很多幻觉的，人类的快速学习和涉猎，还是很重要的，这样才可以引导和判断 AI 生成好的内容）

Lex Fridman：AI能够自动生成一个靠谱的相关工作部分是一件很美妙的事情，它可能会带来另一个阶段的变化，因为它能正确地归功于人，并帮人类跳出“是的”这个思维定式。

陶哲轩：现在有一个很大的障碍需要克服：这就像自动驾驶汽车，你知道，它的安全边际必须非常高才行。所以，是的，所有AI应用都存在“最后一公里”问题，它们可以开发出20%到80%的时间里都有效的工具，但这仍然不够，事实上，在某些方面甚至更加糟糕。

Lex Fridman：换个方式来问菲尔兹奖的问题，你认为在哪一天它会让你真正地感到惊讶？当你读到头条新闻关于AI做了某件事的报道，一种真正的突破，让人惊呼”这是菲尔兹奖级别”，就像当年AlphaZero在围棋领域的突破那样。

陶哲轩：大概是十年，我能看到它做出两个人们认为无关的事情之间的猜想，并且实际上很有可能正确并且有意义。目前的模型面临着很多困难，我的意思是，举个例子，物理学家梦想让AI发现新的物理学定律，你知道，他们的梦想就是你只管将所有的数据喂给AI，它就能够给出我们以前从未见过的新的规律。但实际上，目前的尖端技术甚至难以从数据里发现旧的物理规律，即使它发现了，也存在很严重的污染，也就是说它之所以能够做到，只是因为它已经在某个训练数据中得到了这个旧规律，比如说玻意耳定律，或者任何你试图重构的规律。

部分原因在于，我们并没有针对于此的正确类型的训练数据，对于物理定律来说，我们并没有一百万个不同的宇宙，每个宇宙包含一百万条自然定律。

虽然我们已经发表了很多人们能够证明的东西，以及最终被验证的猜想，或者产生的反例，但是我们没有关于那些被提出但很快被意识到是错误猜想的数据，然后人们说，哦，我们应该实际上改变我们的主张，以这种方式修改它，使其更具合理性。一个像这样的试错过程是人类数学发现中真正不可或缺的一部分，但我们不记录它，因为它很尴尬。

呃，我们会犯错，但我们只愿意发表我们的成功，所以人工智能没有办法访问这些数据来训练。我有时候开玩笑说，AI得去读个研究生，真的，你知道得去上研究生课程、做作业、去办公室、犯错，嗯，得到关于如何改正错误的建议并从中学习。

庞加莱猜想：想象一个被揉皱并扭曲的球

Q：Grigori Perelman在七年时间里几乎不与外界接触，独自解决了庞加莱猜想，这是个什么问题？也许再谈谈Grigori Perelman的这段经历？

陶哲轩：好的，这是一个关于弯曲空间的问题，地球就是一个很好的例子。你可以想象一个二维曲面，它可能是一个带洞的环面，也可能有很多洞，而且表面可能有多种先验拓扑结构，即使你假设它是有界的、光滑的等等。我们已经弄清楚了如何对曲面进行分类，初步近似地看，一切都由一种被称为亏格的属性决定，即这个曲面上有多少个洞：球体的亏格为0，环面的亏格为1，以此类推。

区分这些二维曲面的一种方法是，球体具有一种被称为单连通性的特性，意味着如果你在球体上取任何闭合环路，它都可以被收缩成一个点，同时保持在曲面上，而环面并不具备这种性质。如果你在一个环面的外部取一根绕着环面的绳索，它无法通过环面的那个洞，也就没有办法闭合并收缩成一个点。球体是唯一具有这种可收缩性性质的曲面，直到球面经过连续变形。这就是我想称之为与球面拓扑等价的物体。

庞加莱在更高的维度上提出了相同的问题，但这变得难以可视化，因为你可以在三维空间中想象一个曲面，但作为一个弯曲的自由空间，我们对四维空间没有很好的直观理解，无法将三维空间嵌入到四维空间中，我们需要五个、六个甚至更高维度的空间。但无论如何，从数学上讲，你仍然可以提出这个问题：如果你有一个有界的三维空间，它还具有这个单连通的性质，即每一个闭合曲线都可以收缩，你能把它变成一个三维球体的版本吗？这就是庞加莱猜想。

奇怪的是，在四维、五维甚至更高维度上，这个问题反而更容易解决——它首先在更高的维度上得到了解决——可能是因为某种程度上，它有更多的空间来变形，更容易把事物变成一个球体。但三维情况下真的很难，人们尝试了多种方法，比如说某种剖分方法，把曲面分割成小三角形或四面体，然后根据这些面面如何相互作用来进行推导；或者也有代数方法，使用各种代数对象，比如所谓的“基本群”，你可以将它们附加到同调、上同调、以及所有这些非常高级的工具上。它们也没能完全奏效。

但是Richard Hamilton提出了一个微偏分方程（PDE）的方法，问题是这样的，你有一个球体，但它的呈现方式非常的奇怪：想象一个被揉皱并扭曲的球，让人看不出来那是个球。如果你有一个某种意义上是变形球体的曲面，你可以将它想象成一个气球，试着给它充气，随着空气的注入，它的皱纹会被抚平，就变成了一个漂亮的球体；但如果它是个环面或者类似的东西，它就会在某个点卡住。当内环收缩到零时，中间会得到一个奇点，并且无法再继续膨胀或者流动了。Richard Hamilton创造了这个流程，现在被称为里奇流（Ricci flow），这是一种把任意曲面或空间平滑化、变得越来越圆的方法，让它看起来像个球体。这个过程要么会形成一个球体，要么就产生一个奇点。就像是偏微分方程，它们要么具有全局规划性，要么就具有有限时间爆炸性，基本上这几乎是完全相同的事情。一切都是相互关联的。

Richard Hamilton指出，对于二维曲面，如果能保持永不形成奇点，就永远不会遇到麻烦，它会一直流动，并且形成一个球体，于是他得到了二维结果的一个新的证明。

Lex Fridman：这是一个很棒的解释，对于里奇流及其在此背景下的应用。对于2D情况来说，这里的数学有多难？

陶哲轩：这些是非常复杂的方程，与爱因斯坦方程不相上下，额，略微简单一些，但它们被认为是难以求解的非线性方程。2D中有很多特殊技巧可以提供帮助，但问题在于，在3D中这个方程实际上是超临界（supercritical ）的。与纳维-斯托克斯方程相同的问题，随着爆发性增长，曲率可能会集中在越来越小的区域，并且看起来越来越非线性，情况变得越来越糟。

△纳维-斯托克斯方程的一般形式

可能会出现各种各样的奇点，其中一些可能存在于那些被称为“脖子夹”（neck pinchers）的、表面像杠铃一样的地方，并且在某一点收缩；有些奇点足够简单，你可以从中间剪开，然后就能把一个表面变成两个，并分别演化它们；但也存在这样的可能性：会出现一种非常棘手的像打了结一样的奇点，没办法对它进行任何“手术”。所以就需要对所有的奇点进行分类，比如知道事情可能会出错的所有方法是什么。

Perelman首先做的是把问题从超临界问题过渡到临界问题，像我之前说过能源的发明，哈密顿量阐明了牛顿力学。他介绍了一些概念，现在称为佩雷尔曼减少体积（Perelman’s reduced volume）以及佩雷尔曼的熵（Perelman’s entropy），并引入了新的量，比如能量，这些量在每个尺度上都保持一致。非线性实际上突然看起来不再像以前那么可怕了。

△Grisha Perelman证明庞加莱猜想的论文

他仍然需要分析奇点这一关键问题——这本身也是一个类似的问题——就难度上，和我所研究的波映射问题相当。所以Perelman设法对所有奇点进行了分类，并展示如何对每种情况进行处理。通过这种方式，他解决了庞加莱猜想。这包含了很多雄心勃勃的举措，今天的大语言模型都没办法做到。我的意思是，我充其量只能想象一个模型会将这个想法在数百种尝试方案中提出，但除此之外的99个将会是彻底的死路一条，而你只有在经过几个月的工作之后才能发现。Perelman肯定感觉到这是正确的道路才会去追求，因为从A到B要花费好几年的时间。

Lex Fridman：严格从数学角度来说，或者更广泛地，从流程上来说，你也做过类似困难的事情。你能从Perelman经历的过程中推断出什么？因为他是独自一人去完成这件事的。在这样的过程中会遇到哪些低谷？就像人工智能不知道自己什么时候会失败一样，当你坐在办公室里，意识到过去的几天甚至几周所做的事情是个失败的时候，你会作何反应？

陶哲轩：嗯，对我来说，我会换个问题。就像我说的，我是一只狐狸而不是一只刺猬。

Lex Fridman：但这是合理的，你可以休息一下，离开，去研究不同的问题。

陶哲轩：是的，你也可以修改这个问题，我的意思是，你可以去“作弊”，如果有什么东西阻碍了你，一些不好的情况不断出现，你的工具不起作用什么的……你可以假设按理来讲这种糟糕的情况不会发生，进行一些神奇的思考，从战略上来讲看看其它的论点是否成立。如果你的方法存在多个问题，那么你有可能就会放弃，但如果这是唯一的问题，其他的一切都顺利的话——那么它仍然值得挑战，你可以进行一些前方侦查什么的。

有时候犯错误甚至是有益的，我有一个项目确实因此赢得了一些奖项。和其他四个人一起，我们再次研究了这个PDE问题，实际上这又是一个爆破正则的问题，这种问题被认为非常困难。另一位菲尔兹奖得主Jean Bourgain曾经研究过这种问题的特殊情况，但他没能解决一般情况，而我们研究这个问题两个月，以为我们解决了它。我们作出了一个可爱的论证认为一切都吻合，为此我们很兴奋，我们计划举行庆祝活动，让大家聚在一起喝点香槟什么的。我们开始写它，然后我们中的其中一个人——不是我——另一位合著者说：“哦！在这个引理中，我们必须估算这个展开式中出现的13项，我们估算了其中的12项，但我们的笔记里却找不到第13项，有人能找到它吗？”然后我说：“好的，我会看看这个。”结果，好吧，我们完全忽略了这一项，并且这一项变得更糟糕了，比其他12项加起来还要糟糕。

事实上，我们没办法估算这个第13项，我们又尝试了几个月，尝试了几乎所有不同的排列组合，总有一个东西让我们无法控制。这非常让人沮丧。但因为我们已经投入了好几个月，并为此付出了好几个月的努力，我们依然在坚持。我们尝试了越来越绝望的、疯狂的事情，两年以后，我们找到了另外的一种方法，和我们最初的设想有些不同，这种方法并没有产生这些有问题的项，而是确实解决了这个问题。所以我们用了两年的时间解决了这个问题。但如果我们没有那个看似即将解决问题的虚假希望，我们可能在第二个月左右就放弃，并着手去解决一个更简单的问题了。如果我们知道要用2年的时间，我也不确定我们还会不会启动这个项目。

有时候这些不正确的——就像哥伦布在新大陆航行一样——这是一个测量地球大小的错误版本，他以为他会找到一条通往印度的新的贸易曲线，至少他在招股说明书上是这样宣传的，我的意思是，它实际上可能对此心知肚明。

Q：仅从心理因素来看，你有没有产生过最让你感到无措的自我怀疑？

Lex Fridman：感觉数学实在是太令人着迷了，当你在某个问题上投入太多精力但结果却是错误的时候，它可能会击溃你。就像是，国际象棋也击溃了一些人。

陶哲轩：我认为不同的数学家对数学有着不同的情感投入程度，有些人认为这只是个工作，你遇到了问题，你可以不解决，而是继续下一个，所以你总是可以继续投入另一个问题，这减少了情感上的联系。还有一些情况会产生一些被称为数学病的问题，就是他们会只抓住那个问题不放，花费数年只思考那个问题，即使他们的职业生涯会因此受损。但他们说：“好吧，但这是个大突破，一旦我解决了这个问题，它将弥补所有失去机会的岁月。”这种心态偶尔确实有效，但我讲真不推荐给没有毅力的人。

我从来没有对任何一个问题投入过多精力，一个帮助我们的点是，我们不需要提前明确我们的问题。当我们提交研究提案时，我们会说我们将研究这一系列问题，但即使我们不确定五年内我肯定会提供所有这些问题的证明，而是承诺取得一些进展或发现一些有趣的现象。也许你没能解决那个问题，但你发现了一个相关的、你可以对其说些新东西的问题，而那是一个更可行的任务。

（不用在一棵树上吊死）

加法和乘法都简单，但是合在一起……

Q：有没有一个一直困扰着你们的问题？像孪生素数猜想、黎曼猜想、克拉兹猜想？

陶哲轩：孪生素数，听起来……好吧，再说，我的意思是，像黎曼猜想一样，那真是遥不可及，甚至完全没有可行的途径。即使我使用了所有我知道的作弊手段，在这个问题里也依然无法从A到B。我认为首先需要在数学的其他领域取得突破，然后有人要认识到那个突破是可以运用于这个问题的。

Lex Fridman：所以我们应该后退一步，只讨论素数。它们通常被称为数学的原子。你能谈谈这些原子提供的结构吗？

陶哲轩：自然数有两种基本运算：加法和乘法。所以如果你想生成自然数，你可以做两件事之一：你可以从1开始，一次次地加1，这样就生成了自然数，所以从加法角度看，它们很容易生成1、2、3、4、5；或者你可以取质数，如果你想从乘法角度生成，你可以取所有质数，2、3、5、7，然后把它们全部乘在一起。这样你就得到可能除了1以外所有自然数。所以从加法和乘法角度看，自然数有两种不同的思考方式。单独来看，它们都不算太难，关于自然数的任何问题，如果是只涉及加法或乘法的，都相对容易解决。

令人沮丧的是，当你把这两者结合起来，问题忽然就变得极其丰富……我的意思是，我们知道数论中有一些命题实际上是不可判定的。像是某些多元多项式方程是否存在自然数解的问题，它们的答案取决于数学基础命题的不可判定性——比如数学公理本身的一致性。

但即使是最简单的问题，把一些乘法和加法运算结合起来，比如在素数上做一些附加操作，像是移动2位。分别来说我们都很了解，但如果你问当你平移一个素数两位时，能否得到一个另素数？或者你能多久得到另一个素数？将两者联系起来竟然变得如此困难。

Lex Fridman：孪生素数猜想就是这样的，它假设存在无限多对相差为2的素数。有趣的是，你在回答这些种类繁多的复杂问题时取得了非常成功的进展，比如你提到的格林-陶定理，它证明了素数序列包含任意长的等差数列。你能证明出这样的定理，真是令人难以置信。

陶哲轩：是的。所以我们意识到，这种类型研究的重点是不同的模式具有不同级别的不可摧毁性。

孪生素数问题的难点在于，如果你把世界上所有的素数都列出来，3、5、7、11 等等，其中有一些是成对的，比如 11 和 13 是一对孪生素数，还有其他孪生素数等等。如果你愿意的话，你可以轻松地编辑素数以摆脱这些孪生素数。虽然孪生素数是无穷多的，但它们在素数里实际上相当稀疏，一开始确实有不少，但一旦到了数百万、数万亿级别，它们就变得越来越稀少。

实际上，如果有人能够访问素数数据库，他们只需在这里或那里删除几个素数，就可以让孪生素数猜想成为错误。只需要删除0.01%的素数或者类似的什么，真是明智之举。

因此，你可以提供一个经过审查的素数数据库，它通过所有关于素数的统计测试、遵循多项式定理和其他质数效应，但不再包含任何孪生素数。这对于孪生素数猜想来说是一个真正的障碍，意味着任何旨在在实际素数中找到孪生素数的证明策略，在应用于这些稍作修改的素数时都必须失败。因此，这必定是素数中某种非常微妙、精细的特征，而不仅仅是通过整体统计分析就能得到的。

另一方面，算术级数被证明要稳健得多。你可以取素数，实际上可以排除 99%的素数，你可以选择任意90个参与者。结果发现，我们另一个证明是，你仍然可以得到算术级数。算术级数非常多，它们就像蟑螂一样。

Lex Fridman：对于不了解的人来说，算术级数是一系列相差某个固定值的数。

陶哲轩：是的。但它又像是那种无限猴子现象（一只猴子在无限时间内随机独立地敲击打字机键盘上的按键，几乎肯定会打出任何给定的文本），对于任何固定长度的集合，你不会得到任意长度的进展，只会得到相当短的进展。

Lex Fridman：但你说孪生素数不是无限猴子现象。我的意思是，这是一只非常狡猾的猴子，但它仍然是一种无限猴子现象。

陶哲轩：如果素数真的是随机的，这些素数是由猴子生成的，那么事实上无限猴子定理就是这样的。

Lex Fridman：但你说是孪生素数，你不能使用同样的工具。它看起来几乎不是随机的。

陶哲轩：嗯，我们不知道。我们相信素数的表现像是一个随机集合。所以我们关心孪生素数猜想的原因，是一个测试案例，测试我们是否能够真正地、自信地、假设错误率为0%，说素数表现得像是一个随机集合。我们已知的素数的随机版本至少有100%的概率包含孪生素数，或者随着你越来越向外延伸，概率趋于 100%。所以，我们相信素数是随机的。算术级数之所以不可摧毁，是因为无论它看起来是随机的还是周期性的结构，在这两种情况下，算术级数都会出现，但原因不同。这就是这个定理的基本原理，有很多证据都证明了算术级数定理，它们都通过某种二分法得到证明：即你的集合要么是结构化的，要么是随机的，在两种情况下你都可以说些什么，然后你把两者结合起来。

但在孪生素数中，如果素数是随机的，那么你很高兴，你就赢了。如果素数是结构化的，它们能够以一种特定的方式结构化并消除孪生素数。我们不能排除这个阴谋。

Lex Fridman：但据我了解，你可以做到在K元组（K-tuple）版本上取得进展。

陶哲轩：是的。所以关于阴谋的一个有趣之处是，任何一个阴谋理论都很难被证伪。如果你相信世界是由蜥蜴统治的，你会说“那么这里有一些证据表明它不是由蜥蜴统治的。”嗯，但是那个证据也是蜥蜴的阴谋，你可能遇到过这种情况。几乎没有办法可以明确排除阴谋，在数学上也是如此，一个完全致力于消除孪生素数的阴谋还必须渗透到数学的其他领域，但至少据我们所知，它可以保持一致。但有一个奇怪的现象，你可以用一个阴谋排除其他阴谋。所以如果世界是由蜥蜴统治的，它就不能同时是由外星人统治的，对吧？

所以一个不合理的事情很难被证伪，但多个不合理的事情就有工具了。比如我们知道存在无限多个素数，其中任意两个素数的差值不超过……实际上，这个数字最高是246，存在一个界限。所以有孪生素数；有一种东西叫做表亲素数（cousin primes），它们的差值为4；还有相差6的性感素数（sexy primes）——这个概念远没有其名称所暗示的那么令人兴奋。

你可以排除其中一个阴谋，可一旦你有 50 个阴谋，事实证明，你无法一次性排除所有的可能性。这需要这个阴谋空间里太多的能量。

Q：你是怎么做界限部分的？你是怎么为不同的素数发展界限的？

陶哲轩：所以这最终是基于一个被称为鸽巢原理（the pigeonhole principle）的东西。鸽巢原理就是，如果你有若干只鸽子，并且它们都必须进入鸽巢，而鸽子数量多于鸽巢数量，那么至少有一个鸽巢里必须有至少两只鸽子。所以必定有两只鸽子彼此距离很近。比如，如果你有 100 个数字，它们都介于 1 到 1000 之间，那么其中两个数字之间的距离最多为 10，因为你可以将 1 到 100 的数字分成 100 个鸽巢。假设你有 101 个数字，那么这 101 个数字中必定有两个数字之间的距离小于 10，因为这两个数字必须属于同一个鸽巢。这是数学基本原理的基本特征。

鸽巢原理不能直接和素数一起使用，因为素数在向外延伸时会变得越来越稀疏，也就是说质数会变得越来越少。但事实证明，有一种方法可以给数字分配权重。有些数字算是准素数（almost primes ），但它们并非没有除了自身和1以外的任何其他因数，只不过它们拥有的因数非常少。事实证明，我们对准素数比素数理解得更透彻。例如人们很早就知道存在孪生素数，这个问题已经被研究透了。所以准素数是我们能够理解的东西。因此，你实际上可以将注意力集中在合适的准素数集合上。素数相对来讲非常稀疏，相比之下，准素数的稀疏程度要低得多。

你可以构建一个准素数的集合，其中素数的密度大约是 1%，这能让你有机会通过应用某种鸽巢原理来证明大约只有100个素数。但为了证明孪生素数猜想，你需要获得素数的密度，在准素数内几乎达到50%的阈值，一旦达到 50%，你就会得到孪生素数。但不幸的是，无论你选择多么好的准素数集合，素数的密度永远不会超过 50%，这就是所谓的“奇偶性壁垒”（the parity barrier）。我非常想攻克它，所以，我长远的梦想之一是就找到一种方法来突破这个障碍，因为这将不仅解开孪生素数猜想，还能解开克拉兹猜想，和许多数论领域正在受阻的其它问题。因为我们的现有技术需要超越这个理论上的“奇偶性壁垒”，就像试图超光速行驶一样。

Lex Fridman：所以我们应该说孪生素数猜想是数学史上最大的问题之一，克拉兹猜想也是，它们感觉像是邻居。有没有哪天你觉得自己看到了解法？

陶哲轩：有的。有时你尝试某种方法，它就会非常有效，你就会感受到像我们之前谈到的数学气味（mathematical smell）。当事情进展顺利时，你会从经验中学习，因为有一些困难是不得不去遭遇的。我的一位同事可能会这样表达：如果你在纽约街头被蒙上眼睛放进车里，在几个小时后，你的眼罩被摘掉，发现你到了北京。我的意思是，这有点太容易了，不知道为什么并没有跨越海洋，即使你不知道具体发生了什么，你会怀疑有些事情不对劲。

Lex Fridman：但这仍然在你脑海中，你是否每次都会回到素数领域看一会儿？

陶哲轩：是的，在我没什么其他事情可做的时候——这种情况越来越少了，我现在有很多事情要处理——但当我有空闲时间，又不想做我的实际研究项目，也不想处理行政事务，或者不想为家人做些差事，我可以玩这些有趣的东西。通常情况下什么也得不到，你必须学会说：“好吧，再试一次，什么都没发生，我会继续前进。”偶尔我也会解决这些问题，或者有时就像你说的，你以为你解决了问题，然后你继续研究可能 15 分钟，然后你想到，“我应该检查一下，这简单得有点令人难以置信了。”通常都是这样。

Lex Fridman：关于孪生素数和克拉兹猜想这些问题的解决时间，你的直觉是怎么看的？

陶哲轩：关于孪生素数，我认为我们将会不断获得更多进展。这确实至少需要10年，这个“奇偶性壁垒”是剩下的最大的难题，有更简单的版本，我们已经非常接近这个猜想了。所以我认为在 10 年内我们将会有更多更接近的结果，但可能不会得到全部。孪生素数问题相对接近，但黎曼猜想，我一点头绪也没有，我的意思是，我想这是偶然发生的。

Lex Fridman：所以黎曼猜想是关于素数分布的更普遍的猜想，是吧？

陶哲轩：是的。这表明，在某种程度上只从乘性角度来看，对于只涉及乘法不涉及加法的问题，质数确实表现得像你希望的那样随机。

概率中存在一个现象称为平方根抵消（square root cancellation），如果你想要调查美国民众对某个问题的看法，并且只询问一两个选民，你可能会抽到一个糟糕的样本，然后你会得到一个对整体平均值的非常不精确的测量。但如果你抽样的人数越来越多，准确性就会越来越好，并且准确性随着你抽样人数的平方根而提高。如果你抽样 1,000 人，你可以得到 2%或 3%的误差范围。在同样的意义上，如果你以某种乘法性方式测量质数，你可以测量某种类型的统计数据，它被称为黎曼zeta函数，并且上下波动。

但从某种意义上说，随着你不断取更多平均值、不断进行更多采样，波动应该会像随机变量一样减小。并且有一种非常精确的方法来量化这一点。

黎曼猜想以一种非常优雅的方式捕捉了这一点，但就像数学中的许多其他方法一样，我们几乎没有工具来证明某件事真的表现得非常随机。

这实际上不仅仅是一点点随机，但这种平方根抵消要求其行为像一个真正随机的集合一样随机。我们知道，对于与奇偶性校验问题有关的事情，大多数的常用技术都无法解决。证明必须出乎意料，但没有人提出过任何严肃的提议。正如我所说，有很多种方法可以解决，你可以稍微修改一下质数，就可以破坏黎曼猜想。它必须非常精细、你不能应用具有巨大误差范围的东西、它必须能够勉强工作，所有的这些陷阱你都会遇到并且非常娴熟地躲避。

Q：对你来说，素数最神秘的是什么？

陶哲轩：这是个好问题，从推测上来说，我们对素数有一个很好的模型。我的意思是它们具有某些规律，比如质数通常是奇数。但除了存在一些明显的规律外，它们表现得非常随机，只是假设它们会这样表现。

所以有一个称为 Cramér质数随机模型的东西，在某个时间点之后，素数的表现就像一个随机集合。这个模型还有各种细微的修改，但这是一个非常好的模型，它与数值相匹配，并告诉我们应该预测什么。就像是我告诉你可以完全肯定孪生素数猜想是正确的。随机模型给出了极高的准确性，我只是无法证明这一点。我们的数学大多是为了解决包含规律的问题而优化的。而质数存在这种反模式，实际上几乎所有事物都是这样，但我们无法证明这一点。

我想质数是随机的并不神秘，因为它们没有必要有任何秘密模式。但神秘的是，究竟是什么机制真正迫使随机性发生？这一点完全缺失。