深度学习革命

在 OpenAI 推出 ChatGPT 之前，人工智能带给我的震撼还停留在 2017 年，DeepMind 开发的 AlphaGo 击败了围棋冠军柯洁。我一直相信未来人工智能一定会改变我们的生活和工作，但未曾想这种改变来的如此之快。在 OpenAI 正式公布 ChatGPT 不久后，纽约时报推出了一个简短的 Newsletter 来介绍人工智能，第一篇文章《How to Become an Expert on A.I.》介绍了几个基本概念，从人工智能到神经网络，再到大语言模型和生成式 AI，文章的作者 Cade Metz 是一位在科技领域有深厚积累的记者和作家，特别是对于人工智能和互联网的相关内容有着深入的了解和独特的见解。早在 2021 年 3 月的时候，Cade Metz 出版了《深度学习革命》，书中介绍了深度学习和人工智能的发展历程，以及背后支撑行业发展的科技先驱们的故事。

正如任何一次伟大的科技革命，人工智能的发展也并非一帆风顺，1958 年 Frank Rosenblatt 在美国国家气象局向世界展示了感知机，它可以通过监督学习的方式来识别卡片上的三角形和正方形，从此打开了人工智能的大门。然而在 1966 年 AI 发起人之一的 Marvin Minsky 和他的同事出版了《感知机》一书，书中详细的描述了感知机的局限性，认为感知机不能解决复杂的问题。这无疑给 AI 的发展前景泼了一盆冷水。当时的人们对人工智能的发展过分乐观，认为用不了多长时间机器就会取代人类¹，Frank Rosenblatt 在 1962 出版的《神经动力学原理》中认为造成这种盲目乐观是因为媒体夸张的报道。但 Minsky 的观点最终导致用于研究人工智能的政府资金被转移到其他项目中，这段时期也被称为「AI 寒冬」。直到 1980s 反向传播取得重大突破。

Rosenblatt 在 1957 年发明的感知机是一种单层神经网络，它只能输入的数据经过计算之后就直接输出结果，这也是 Minsky 认为感知机不能解决复杂的问题的主因。单层神经网络只能处理线性的问题，以从图片中来识别动物来说，单层神经网络只能根据动物的颜色、或者动物的腿的数量来识别，而不能将两者结合起来。要结合多种特征来识别就需要引入多层神经网络，在当时多层神经网络面临的问题是如何调整权重，例如从图片中识别动物，是腿的数量重要还是颜色更重要一些，没有人知道，直到反向传播算法的出现。反向传播算法可以动态的调整每个神经元的权重，它会将预测输出与实际输出之间的误差计算出来，并将误差反向传播到网络中，神经元的权重会根据误差值被重新调整，从而减小最终的输出误差。

但是先进的算法并不能解决 AI 的应用问题，90 年代因为没有实际的应用以及在多项方面进展缓慢，各国政府又一次减少了在 AI 研究领域的资金投入，第二次 AI 寒冬降临。但 AI 的研究并未因此停止，1986 年 Geoffrey Hinton 就提出了深度学习，但直到 2012 年 Hilton 及他的学生利用深度学习训练的神经网络在图像识别方面击败了当时最先进的系统，深度学习才真正兴起。随后卷积神经网络、递归神经网络、长短期记忆网络以及生成对抗网络等技术被应用在深度学习中，2017 年 AlphaGo 击败了李世石和柯洁的消息更是让 AI 的能力提升到的新的高度。现在，OpenAI 发布了 ChatGPT，对于之前不怎么关注人工智能的我来说，ChatGPT 的出现对我来说就像是孙悟空从石头缝里蹦出来一样，没有什么预料它就来了，这不禁令我好奇人工智能的技术是如何一步步走到今天的。而 Cade Metz 在这本书中并没有过多的介绍深度学习和人工智能相关的技术，而是在讲述创造这些技术的人的故事。其中有 3 个故事令我印象深刻。

外行指导内行

第一个故事是关于微软研究院的邓力。在加入微软研究院之前，邓力一直从事自然语言处理和语言识别研究，1999 年加入微软之后，邓力依然致力于研究自然语言识别，在花了 3 年时间来改进隐马尔可夫模型（Hidden Markov Model，HMM），然而新版本的识别准确率只比上一代版本提升了 5%。隐马尔可夫模型是一种基于线性假设的模型，它假设每一个状态都与前一个状态相关，在语言识别中，它可以基于前一个音频信号的音节来预测下一个音节，这也意味着它无法处理非线性的复杂关系，如果某个音节的发音收到前后两个音节的影响的时候，隐马尔可夫模型就无法处理。

2008 年冬天，Hinton 向邓力介绍说神经网络开始在语音方面奏效了，但由于 Hinton 不是一名专业的语音研究人员，邓力并不相信他的说法。直到 2009 年夏天 Hinton 通过神经网络分析了大约 3 个小时的口语词汇之后，这个系统的语音识别能力就与当时市面上最好的技术相当。邓力颇为震惊，随后邀请辛顿到微软位于华盛顿州雷蒙德市的研究实验室，在几个月的时间里，Hinton 和他的两名研究生的在语言识别方面超越了微软已经研发了十几年的系统。

早在 Hinton 的反向传播算法取得突破前，邓力作为一名学生就曾写过一篇论文，探索神经网络在语言识别中的应用。然而，由于第二次AI寒冬的来临，神经网络在学术界和产业界失宠，邓力也逐渐忽视了神经网络的研究。

在语音识别领域深耕了多年的邓力当时正在开发下一代语音识别技术，他相信将会取得很大的突破。当 Hilton 带着神经网络出现时，虽然并非语音识别领域的专家，但是这种新技术对于现有的技术来说就像是降维打击，让一个非专业人士开发出的技术与当时世界上最好的专业人员相当。

这让我想起《创新者的窘境》中的“破坏性创新”的思考。神经网络正是一种「破坏性创新」，尽管刚开始时计算机硬件的性能还无法很好地运行神经网络，人们也尚未认识到摩尔定律的威力。然而，随着 GPU 在神经网络训练中的广泛应用，神经网络的处理能力得以飞速提升。如果在 2008 年邓力错过了 Hinton，那么微软也可能无法在语言识别领域取得领先地位。

不务正业

第二个故事同样发生在微软，微软的研究副总裁 Peter Lee 在自己的实验室里看到深度学习重构了语音识别，但他仍然不相信深度学习，在他看来这只是巧合，神经网络不会在其他领域取得突破。但他还是邀请邓力在微软内部介绍了深度学习，演讲途中不断有人提出反对意见，反对者引用了 Minsky 的《感知机》一书，并认为神经网络没有前途。当时陆奇也参与了这次分享，他让反对者保持安静，邓力才得以完成演讲。

陆奇在 2009 年加入微软后负责微软的搜索引擎必应（Bing），当时在微软内部，很多人对深度学习持怀疑态度。陆奇认为「微软的问题在于它用的旧方式处理新的问题」。2016 年当 DeepMind 的 AlphaGo 在韩国击败了李世石后，陆奇敦促微软智囊团接受自动驾驶汽车的想法，陆奇并不是说微软需要向特斯拉那样去销售汽车，而是通过打造一辆汽车来了解当中会遇到的问题，然后以微软的实力去解决这些问题。就像 Jeff Dean 在 Google Brain 所做的事情一样。

Jeff Dean 与吴恩达在 2011 年创立了 Google Brain，当时的 AI 研究并没有明确的目标，但是为了研究 AI，Google 发现内部的工具并不能好的支持深度学习，尤其是在分布式计算和大规模数据处理方面。为了解决这个问题，Jeff Dean 与团队开始开发一个新的机器学习框架，这就是在 2015 发布的 TensorFlow。同时期，神经网络的能耗是非常巨大的，尤其是对 Google 这样拥有庞大用户群的公司来说，神经网络应用在生产环境就意味着几亿美元的成本增加。为了降低神经网络运行的成本，Dean 提出开发一种新的计算机芯片，仅用于训练和运行神经网络，这就是张量处理器（Tensor Processing Unit ，TPU）。不同于传统 CPU，神经网络运行的计算量非常大，但每次计算不要求非常精确的结果，因此 TPU 会将浮点数的小数点去掉，而只计算其整数部份，这让计算效率大幅提升。

陆奇认为微软应该造车也是基于这样的考量，通过造车，微软需要解决大量的技术问题，包括机器学习、机器视觉、自然语言处理、决策制定等，这些技术未来对微软的其他产品（云服务、操作系统和搜索引擎）都会有很大的帮助。同时或许可以帮助微软探索新的商业模式，例如 Car as a Service。陆奇期望通过造车来打破微软的固有观念，用新的方式来解决问题，或许 Satya Nadella 意识到即使微软推动造车，也很难在内部取得突破，而寄希望于外部，也就有了微软后来投资 OpenAI 的故事。2022 年 12 月的一次微软内部会议上，微软 CEO Satya 质问微软研究院的 VP Peter Lee：

OpenAI built this (GPT-4) with 250 people, Why do we have Microsoft Research at all?²

当时微软研究院已经成立了数十年，并且有 1,500 名员工。

而事实上，也正是因为对 OpenAI 的投资，不得不逼迫微软的 Azure 来升级自己的服务，微软为 OpenAI 打造了一套专门用于人工智能的服务器集群，而这套基础设施未来巩固 Azure 在人工智能基础设施领域的主导地位。微软虽然没有实现陆奇造车的梦想，但是「造车」期望达成的目的，通过投资 OpenAI 完成了。

人工智能的偏见

2015 年借助 AI 在图像识别方面的进步，Google Photo 推出了对照片内容自动标记的功能，这项功能可以识别用户照片中的物件和风景，帮助用户自动对照片进行分类。同年 6 月的一个星期天，Jacky Alciné 发现 Google Photo 将自己的一位非裔美国人贴上了「大猩猩」的标签，Google 在得知次时候迅速道歉，并承诺会改善算法，随后 Google 在相册中屏蔽了「大猩猩」相关字眼，也不会主动识别大猩猩的照片。直到今天，Google 相册中依然不能够识别大猩猩（Apple 相册也是如此）。

师从李飞飞的 Timnit Gebru 就曾在 Facebook 贴出她对人工智能的担忧，她在参加一次人工智能的大型会议时发现与会者大多数为男性：

我不担心机器接管世界。我担心人工智能圈子里的群体思维、狭隘和傲慢，尤其是在当前对该领域人员的大肆炒作和需求的情况下。这些事情已经引发了一些我们现在就应该担忧的问题。

机器学习的训练过程本身是没有偏见的，机器对于数据和结果并没有偏好，简单来说机器学习只是根据训练时所使用的数据集来归纳总结信息的特征。而在应用的过程中则是将输入信息的特征提取出来进行匹配，匹配出概率更高的结果。在算法和训练迭代次数相同的情况下，训练数据集的质量对结果的匹配有很大的影响，机器学习的结果是否带有偏见，很大程度上取决于其训练的数据集是否包含这种偏见。如果训练的数据集中比较少黑人的数据，而较多大猩猩的数据，那么将黑人标记为大猩猩的概率就会高于黑人。

Google Photo 发布自动标记功能的同时期，人工智能初创公司 Clarifai 正在打造一款被称为“内容审核系统”，会自动标记和删除发布在网络上的色情图片。他们发现系统很容易将带有黑人的照片标记为色情图片。原因在于他们的训练数据集中，白人在正常图片中的出现频率高，而黑人在色情图片中的出现频率高。这也就导致机器学习系统在分析图片时，对黑人的识别偏向了色情图片，这反映了训练数据的偏见。

除了偏见问题，大语言模型在内容生成的准确性上也受到了质疑。这是因为大语言模型的训练数据大多来自互联网，其中充斥着真假混杂的信息。语言模型的目标是学会“说话”，但实际上语言模型并不理解语言的含义，模型仅仅是从大量的文本数据中学习到的模式，并根据这些模式生成新的文本，而没有实际的意识或理解能力，也无法识别信息的真假。

我不确定「真正的人工智能」会在何时到来，就像没有人会预知 ChatGPT 会在 2023 年到来一样。就目前来看，无法将实时的信息补充到训练模型中大概是目前大语言模型的局限，虽然 ChatGPT 有大量的插件和浏览模式，这些实时获取的数据并没有成为基础训练的一部分，而是对信息进行补充。无法实时训练大语言模型的原因在于训练的成本过于高昂（机器成本和时间成本）³，也就意味着不可能利用当前的训练方式来实时的训练 AI。三体的作者刘慈欣也提到「算力不足导致 AI 难以自我迭代暴力推翻人类⁴」。大量的 [算力要求也意味着只有「大公司」才能够负担得起训练 AI 的成本，也不可避免的会造成这种「生产资料」的垄断，或许只有当人人都可以训练 AI 的时候，AI 的时代才会真正到来。

我并不担心人工智能未来可能会取代人类的工作。相反，我认为这正是科技进步的目标。自工业革命以来，机器一直在逐渐接替人类的一些工作，但这并非科技的终极目标。科技的真正使命不是取代我们，而是不断的帮助人类拓展能力的边界。⁵事实上，科技对人类的「改造」已经深入到了我们的基因之中。与其他体型相近的哺乳动物相比，人类的胃更小，结肠更短。这并非偶然，而是因为「烹饪」这一技术的发明，我们使食物变得更易消化，从而减轻了我们消化器官的负担。⁶人类的社会总是会不断地出现新的问题，这些问题需要新的解答，在人工智能取代人类的部份工作之后我们总会遇到新的问题，人类的工作也从解决旧的问题转向应对新的挑战。这个过程可能并不总是顺利，但其进程却无法被阻挡。

https://twitter.com/PessimistsArc/status/1668413832954347521 ↩︎
How Microsoft Swallowed Its Pride to Make a Massive Bet on OpenAI — The Information ↩︎
Meta 训练 LLaMA 65B 使用了 2,048 块 Nvidia A100 GPU，花了 21 天来训练，总成本高达 500 万美金。State of GPT ↩︎
https://www.ithome.com/0/701/732.htm ↩︎
科技想要什么 ↩︎
基因文化共同进化理论 from <The Secret of Our Success> by Joseph Henrich ↩︎