WebGPT是如何精确搜索和引用网页的?

猫柳 开智学堂

作者:猫柳 来源:公众号「自由特质协议」

01 问题背景

最近用上 WebGPT 获取答案,看着它努力搜索网站,生成答案,而答案中引用的网站有豆瓣、维基百科,甚至有时候是简书。这让我不由得生出疑问:它基于什么原理去调用网页的呢?

例如,今天在看桑兵老师的《大众时代的小众读书法》。这篇文章,我首先是从阳老师的《聪明的阅读者》了解到的,并且通过阅读,知道这两个文本都提到一个让我好奇的概念:“基本书”。

什么是“基本书”?该概念的源头又是什么呢?

我向 WebGPT 提问。

我问:“《聪明的阅读者》认同“基本书”的价值,该概念是否出自桑兵这篇文章,还是出自钱穆?”

在 WebGPT 生成的答案中,我看到它的信息来源来自豆瓣,以及阳志平老师的博客。

图片

嗯?它是如何知道去搜索阳老师的博客的呢?于是去问 GPT-4。

02 遇事不决GPT

我问 GPT-4:

“GPT “model:web browsing” 搜索网站的原理是怎样的?如果有研究论文,请列出出处。”

GPT的回答非常可爱:

“OpenAI并没有发布名为 “model:web browsing” 的模型,我(ChatGPT)并没有直接搜索和解析网页的能力。”

最后它还不忘再次强调:“再次强调,如果你想了解”model:web browsing”的相关信息,可能需要去 OpenAI 的官方网站或其他可信赖的新闻或科技资讯平台查找更新的信息。”

图片

但这个答案显然不能与 GPT 该有的能力匹配。我继续尝试。

03 修改提问方向:再次GPT

我问:“GPT “model:web browsing” 原理是怎样的?如果有论文,请在[https://arxiv.org/]搜索。”

我对原有提问修改方向有两点:

1)去掉“搜索网站”,让GPT回答聚焦对象“WebGPT”;

2)指定论文来源:[https://arxiv.org/]

这回 GPT 的回答显然好很多。

它说:

WebGPT(或称为”GPT web browsing model”)的工作原理是这样的:它是一个经过微调的GPT-3模型,被训练来使用文本形式的网页浏览器更准确地回答开放式问题。这个模型模仿人类如何在线查找问题的答案——它提交搜索查询,跟踪链接,并在网页上上下滚动。模型被训练来引用其来源,这使得更容易提供反馈以提高事实准确性。模型在被提供一个开放式问题和浏览器状态的摘要后,必须发出命令,如“搜索…”,“在页面中查找:…”或“引用:…”。然后,模型从网页中收集片段,并使用这些片段来构建答案。

并且它在回答中给出了相应的论文:

OpenAI 在 arXiv 上发布了一篇名为”WebGPT: Browser-assisted question-answering with human feedback”的相关论文。该论文详细描述了 WebGPT 的工作原理,包括其训练和评估过程。

图片

因此,在 GPT-4 尽责的回答中,我们不仅学习到使用 WebGPT 小技巧,如发出诸如 “搜索…”,“在页面中查找:…”或“引用:…”的指令;也得到了研究该问题的源头文章:《WebGPT: Browser-assisted question-answering with human feedback》

此刻我默默为谷歌、百度等搜索引擎的存在感到担忧了。

04 加深理解:让GPT辅助阅读论文

接下来当然就是要让 GPT 辅助阅读这篇源头论文。

我提问:

请阅读《WebGPT: Browser-assisted question-answering with human feedback》总结摘要、结论和研究方法。

在 GPT 的回答中,我们了解到一些关键的知识。

例如,GPT 摘录作者们作出了两个主要的贡献:

1)创建了一个文本模式的网络浏览器环境,可以通过模仿学习和强化学习的一般方法,让微调后的语言模型进行交互;

2)生成带有引用的答案:模型在浏览网页时提取的文本片段。

同时,GPT 还提及研究人员使用的数据集是:Reddit 的“Explain Like I’m Five”板块的问题集 ELI5 。除此,它还会收集两种数据,一种是人类在浏览网络环境中回答的示例,另一种是同一问题的两个模型生成的答案。

(注:Reddit 是一个有些类似贴吧的网站,用户通过赞或踩来决定帖子的排序。网站上的内容分类被称为“subreddit”)

还有,WebGPT 工作原理使用了行为克隆、奖励建模、增强学习和拒绝抽样等方法。

这些信息都让我对阅读这篇论文减轻了认知负荷。这为我下一步踏入人脑阅读,开了一个很好的头。

05 最后直接阅读论文

通过 GPT 生成摘要能够减轻我们阅读论文时的认知负荷,但要获得更丰富的信息,我觉得还是有必要直接阅读论文。

论文地址:https://ar5iv.labs.arxiv.org/html/2112.09332

由于我的目的只是了解“ WebGPT 的工作原理”,具体的技术细节会被我转化成能被大白话文字来理解。

以下是我尽我力量阅读后的结果,如果您是技术专家,欢迎纠正与补充。

WebGPT 的工作原理

WebGPT 的工作原理,最重要的是这个图:

图片

阅读论文,可以明白 WebGPT 工作时,在后台做了以下操作:

  1. 在模型浏览时,它可以执行的操作之一是引用当前页面的摘录。执行此操作时,页面标题、域名和摘录将被记录下来以备后用。
  2. 然后继续浏览,直到模型发出结束浏览的命令、已达到最大操作数或已达到最大引用总长度。
  3. 此时,只要有至少一个参考,模型就会被提示问题和参考,并且必须组成它的最终答案。

如果你感兴趣可以阅读论文的附录 A,里面给出了详细的技术细节。

我尝试抹去技术细节,简述这个过程的逻辑:

  • 执行搜索时,将查询发送到 Bing(必应搜索引擎的)API ,并将其转换为简化的网页结果。

  • 单击指向新页面的链接,调用某语言脚本获取网页 HTML,同样,内容会被简化简化。

  • 删除所有搜索结果中,指向 reddit.com 或 quora.com ,以防止模型复制答案。

  • 链接会被转换为特殊格式:[链接ID + 链接内容 + 目标领域];

  • 图像会被转换为特殊格式:[Image:

    ] 。

  • ……(各种转换,以及技术细节处理)

  • 执行页面查找或引用操作时,我们将命令中的文本与页面文本进行比较,并去除任何链接。也忽略大小写、空格等。

  • 在回答阶段,我们会将问题转换为文本,并按照特定格式收集引述。

如果想直观地了解这个过程,OpenAI也在官网博客中给出了动画:

WebGPT Answer Viewer

06 最后的话

经过一天的测试,我认为在阅读上,GPT 仍没能完全代替人脑,这跟 GPT 的工作原理有关。AI 时代人脑阅读的能力弥足珍贵,因为阅读的意义还在于知识与个人的生命经验发生碰撞。

但是,GPT 大大加速了我们理解信息和获取信息的效率,其潜能仍然值得我们深度探索。■