阳志平：读了这四本书，你会更懂 GPT

阳志平开智学堂

作者：阳志平来源：公众号「心智工具箱」

如何真正搞懂 GPT？

以 GPT 为代表的大模型就像一场狂风，掀翻了牌桌，从一个人类为主的时代飞跃为一个人类与 AI 共舞的时代。

有的人恐慌，担心自己被裁员、被 AI 抢走工作怎么办？有的人兴奋，因为自己正是国内那三十多个正在疯狂闭门开发，研发大语言模型的团队中的成员，终于可以涨工资了。

无论如何，记住我的话：技术并不一定带来公平，但一定会给最懂技术的人红利。在 AI 时代，借助 AI 来学习与研发 AI，并没大家想的那么难。

那么，如何真正搞懂 GPT，从技术底层参与 AI 新时代呢？以下四本书给你答案。

市面上关于 GPT 的文章，其实多数是外行写的。这些作者，要么从来没有跑过语言模型；要么并不了解神经网络发展历史。而出生于 1959 年的斯蒂芬·沃尔夫勒姆（Stephen Wolfram）是一个例外。

他在 1988 年创建了 Wolfram Research 公司，开发了著名的计算工具 Mathematica。2002 年，他发表了一本名为A New Kind of Science的著作，提出了一种基于元胞自动机方法。

这样一位行家里手来介绍 GPT，自然格外精确。这本书的前身来自他的科普长文，在网上可以免费访问：wolfr.am/sw-chatgpt

自从 GPT-4 开放插件合作之后，Wolfram 同样是上线的第一批。从此，GPT-4 拥有了强悍的数学符号计算能力。

这本书是一本非常不错，从预训练模型开发者角度撰写的图书。全书分为三部分：基础知识、预训练词向量与预训练模型。基本上，读完全书，如何训练一个语言模型的基础代码，了然于心。作者为哈工大的 NLP 团队，也是国内 AI 重镇之一。

而另一本《预训练语言模型》亦可参考。这本书算是一本综述，不涉及实际开发，介绍了各个预训练模型。较有特色的是第七章，介绍了如何对各个预训练模型进行评测。

GPT 属于深度学习领域，而这本书是最好的一本合适开发者入门深度学习的著作。Github 上的配套仓库亦可参考。

这本书最大优点是循序渐进，以及包括可运行的代码，帮助各位读者掌握深度神经网络的各个经典知识。

除了这本之外，能够帮助各位读者由浅入深掌握深度学习的，还可以参考以下三本著作。

这三本书都是写得通俗易懂，非常合适新的开发者上手。

当然，深度学习是一个很庞大的领域，除了 GPT 模型之外，还有竞争的 Bert 模型。比如《动手学深度学习（Pytorch 版）》一书重点介绍的就是 Bert 模型。更好地了解 Bert 模型的，还可以参考这本书：

在所有自然语言处理任务中，与 GPT 关系最紧密的就是机器阅读理解领域了。

这本书对大家了解机器阅读理解的来龙去脉、历史演化、最新模型与评测方法，颇有参考价值。其他类似的书亦可参考：《基于深度学习的机器阅读理解》。

快速了解 GPT 的工作原理，读What Is ChatGPT Doing … and Why Does It Work?一书。想直接动手训练一个语言模型，读《自然语言处理：基于预训练模型的方法》一书。

在训练模型过程中，发现自己需要补上大量深度学习的基础知识，继续回去读《动手学深度学习（Pytorch 版）》一书。同步可参考《机器阅读理解：算法与实践》。

当然，除了这些书籍之外，还有大量关于 GPT 的资料，亦可参考我们创建的 Github 仓库：

https://github.com/OpenMindClub/awesome-chatgpt

而在训练模型的时候，先直接跑别人训练好的模型，是入门的最快手段。国外著名的模型社区为：https://huggingface.co。国内阿里自从去年六月开始，也做了一个模型社区网站，参见：https://www.modelscope.cn

如今看新闻，是这也爆发，那又颠覆。也许比天天看新闻更重要的是，立即开始实际学习，跑几个语言模型看看。那样，你面对新技术与时代大变革的恐慌、焦虑，也许就烟消云散了。

希望以上建议对各位有所帮助。■