阳志平:读了这四本书,你会更懂 GPT
阳志平 开智学堂
作者:阳志平 来源:公众号「心智工具箱」
如何真正搞懂 GPT?
以 GPT 为代表的大模型就像一场狂风,掀翻了牌桌,从一个人类为主的时代飞跃为一个人类与 AI 共舞的时代。
有的人恐慌,担心自己被裁员、被 AI 抢走工作怎么办?有的人兴奋,因为自己正是国内那三十多个正在疯狂闭门开发,研发大语言模型的团队中的成员,终于可以涨工资了。
无论如何,记住我的话:技术并不一定带来公平,但一定会给最懂技术的人红利。在 AI 时代,借助 AI 来学习与研发 AI,并没大家想的那么难。
那么,如何真正搞懂 GPT,从技术底层参与 AI 新时代呢?以下四本书给你答案。
书 1:What Is ChatGPT Doing … and Why Does It Work
市面上关于 GPT 的文章,其实多数是外行写的。这些作者,要么从来没有跑过语言模型;要么并不了解神经网络发展历史。而出生于 1959 年的斯蒂芬·沃尔夫勒姆(Stephen Wolfram)是一个例外。
他在 1988 年创建了 Wolfram Research 公司,开发了著名的计算工具 Mathematica。2002 年,他发表了一本名为A New Kind of Science的著作,提出了一种基于元胞自动机方法。
这样一位行家里手来介绍 GPT,自然格外精确。这本书的前身来自他的科普长文,在网上可以免费访问:wolfr.am/sw-chatgpt
自从 GPT-4 开放插件合作之后,Wolfram 同样是上线的第一批。从此,GPT-4 拥有了强悍的数学符号计算能力。
书 2:《自然语言处理:基于预训练模型的方法》
这本书是一本非常不错,从预训练模型开发者角度撰写的图书。全书分为三部分:基础知识、预训练词向量与预训练模型。基本上,读完全书,如何训练一个语言模型的基础代码,了然于心。作者为哈工大的 NLP 团队,也是国内 AI 重镇之一。
而另一本《预训练语言模型》亦可参考。这本书算是一本综述,不涉及实际开发,介绍了各个预训练模型。较有特色的是第七章,介绍了如何对各个预训练模型进行评测。
书 3:《动手学深度学习(Pytorch 版)》
GPT 属于深度学习领域,而这本书是最好的一本合适开发者入门深度学习的著作。Github 上的配套仓库亦可参考。
这本书最大优点是循序渐进,以及包括可运行的代码,帮助各位读者掌握深度神经网络的各个经典知识。
除了这本之外,能够帮助各位读者由浅入深掌握深度学习的,还可以参考以下三本著作。
这三本书都是写得通俗易懂,非常合适新的开发者上手。
当然,深度学习是一个很庞大的领域,除了 GPT 模型之外,还有竞争的 Bert 模型。比如《动手学深度学习(Pytorch 版)》一书重点介绍的就是 Bert 模型。更好地了解 Bert 模型的,还可以参考这本书:
书 4:《机器阅读理解:算法与实践》
在所有自然语言处理任务中,与 GPT 关系最紧密的就是机器阅读理解领域了。
这本书对大家了解机器阅读理解的来龙去脉、历史演化、最新模型与评测方法,颇有参考价值。其他类似的书亦可参考:《基于深度学习的机器阅读理解》。
阅读建议
快速了解 GPT 的工作原理,读What Is ChatGPT Doing … and Why Does It Work?一书。想直接动手训练一个语言模型,读《自然语言处理:基于预训练模型的方法》一书。
在训练模型过程中,发现自己需要补上大量深度学习的基础知识,继续回去读《动手学深度学习(Pytorch 版)》一书。同步可参考《机器阅读理解:算法与实践》。
当然,除了这些书籍之外,还有大量关于 GPT 的资料,亦可参考我们创建的 Github 仓库:
https://github.com/OpenMindClub/awesome-chatgpt
而在训练模型的时候,先直接跑别人训练好的模型,是入门的最快手段。国外著名的模型社区为:https://huggingface.co。国内阿里自从去年六月开始,也做了一个模型社区网站,参见:https://www.modelscope.cn
如今看新闻,是这也爆发,那又颠覆。也许比天天看新闻更重要的是,立即开始实际学习,跑几个语言模型看看。那样,你面对新技术与时代大变革的恐慌、焦虑,也许就烟消云散了。
希望以上建议对各位有所帮助。■