阳志平:读了这四本书,你会更懂 GPT

阳志平 开智学堂

作者:阳志平 来源:公众号「心智工具箱」

如何真正搞懂 GPT?

以 GPT 为代表的大模型就像一场狂风,掀翻了牌桌,从一个人类为主的时代飞跃为一个人类与 AI 共舞的时代。

有的人恐慌,担心自己被裁员、被 AI 抢走工作怎么办?有的人兴奋,因为自己正是国内那三十多个正在疯狂闭门开发,研发大语言模型的团队中的成员,终于可以涨工资了。

无论如何,记住我的话:技术并不一定带来公平,但一定会给最懂技术的人红利。在 AI 时代,借助 AI 来学习与研发 AI,并没大家想的那么难。

那么,如何真正搞懂 GPT,从技术底层参与 AI 新时代呢?以下四本书给你答案。

书 1:What Is ChatGPT Doing … and Why Does It Work

图片

市面上关于 GPT 的文章,其实多数是外行写的。这些作者,要么从来没有跑过语言模型;要么并不了解神经网络发展历史。而出生于 1959 年的斯蒂芬·沃尔夫勒姆(Stephen Wolfram)是一个例外。

他在 1988 年创建了 Wolfram Research 公司,开发了著名的计算工具 Mathematica。2002 年,他发表了一本名为A New Kind of Science的著作,提出了一种基于元胞自动机方法。

这样一位行家里手来介绍 GPT,自然格外精确。这本书的前身来自他的科普长文,在网上可以免费访问:wolfr.am/sw-chatgpt

自从 GPT-4 开放插件合作之后,Wolfram 同样是上线的第一批。从此,GPT-4 拥有了强悍的数学符号计算能力。

书 2:《自然语言处理:基于预训练模型的方法》

图片

这本书是一本非常不错,从预训练模型开发者角度撰写的图书。全书分为三部分:基础知识、预训练词向量与预训练模型。基本上,读完全书,如何训练一个语言模型的基础代码,了然于心。作者为哈工大的 NLP 团队,也是国内 AI 重镇之一。

而另一本《预训练语言模型》亦可参考。这本书算是一本综述,不涉及实际开发,介绍了各个预训练模型。较有特色的是第七章,介绍了如何对各个预训练模型进行评测。

图片

书 3:《动手学深度学习(Pytorch 版)》

图片

GPT 属于深度学习领域,而这本书是最好的一本合适开发者入门深度学习的著作。Github 上的配套仓库亦可参考。

这本书最大优点是循序渐进,以及包括可运行的代码,帮助各位读者掌握深度神经网络的各个经典知识。

除了这本之外,能够帮助各位读者由浅入深掌握深度学习的,还可以参考以下三本著作。

图片

图片

图片

这三本书都是写得通俗易懂,非常合适新的开发者上手。

当然,深度学习是一个很庞大的领域,除了 GPT 模型之外,还有竞争的 Bert 模型。比如《动手学深度学习(Pytorch 版)》一书重点介绍的就是 Bert 模型。更好地了解 Bert 模型的,还可以参考这本书:

图片

书 4:《机器阅读理解:算法与实践》

图片

在所有自然语言处理任务中,与 GPT 关系最紧密的就是机器阅读理解领域了。

这本书对大家了解机器阅读理解的来龙去脉、历史演化、最新模型与评测方法,颇有参考价值。其他类似的书亦可参考:《基于深度学习的机器阅读理解》。

阅读建议

快速了解 GPT 的工作原理,读What Is ChatGPT Doing … and Why Does It Work?一书。想直接动手训练一个语言模型,读《自然语言处理:基于预训练模型的方法》一书。

在训练模型过程中,发现自己需要补上大量深度学习的基础知识,继续回去读《动手学深度学习(Pytorch 版)》一书。同步可参考《机器阅读理解:算法与实践》。

当然,除了这些书籍之外,还有大量关于 GPT 的资料,亦可参考我们创建的 Github 仓库:

https://github.com/OpenMindClub/awesome-chatgpt

而在训练模型的时候,先直接跑别人训练好的模型,是入门的最快手段。国外著名的模型社区为:https://huggingface.co。国内阿里自从去年六月开始,也做了一个模型社区网站,参见:https://www.modelscope.cn

如今看新闻,是这也爆发,那又颠覆。也许比天天看新闻更重要的是,立即开始实际学习,跑几个语言模型看看。那样,你面对新技术与时代大变革的恐慌、焦虑,也许就烟消云散了。

希望以上建议对各位有所帮助。■