阳志平: 在 AI 时代,知识工作者面对的十大难题

阳志平 开智学堂

作者:阳志平 来源:公众号「心智工具箱」

背景

2023 年,我做了关于 AI 的系列讲座,带队研发了众多 AI 产品,并且发起了系列 AI 线下工作坊,通过面对面教学的方式帮助知识工作者应用 AI 提升生产力,参加者多从事脑力劳动,如律师医师教师、产品经理运营人员管理者等等。这是我在首期 AI 线下工作坊上的致辞,特整理成稿,供各位读者参考。

目前活水团队正在努力做两件事。一件事是建设 AI 技术生态,这是以活水团队的工程师为主力;另一件事是建设 AI 应用生态,这是以活水团队的 AI 应用专家为主力,解决知识工作者的实际难题为主,帮助大家大幅度提高自己的生产力。今天很高兴见证活水 AI 应用生态的新里程碑。

假设今天我们扮演的是一个典型的知识工作者,这个人可能是本科毕业,他的工作主要以文字和思考为主,他并不精通编程或计算机科学。

那么,他在 AI 时代,应该拥有的一个关于 AI 生产力的知识结构又是什么样的呢?我们知道,人类喜欢发明各种概念来形容各类事物,比如智商理商情商技术商,那么,如果我们用 AI 商来形容一个知识工作者的 AI 生产力,高下之分,究竟在哪里?

这就是我接下来要讲的,一位典型的知识工作者在 AI 时代面对的十大难题,以及应该掌握并精通的一些技术。这些技术,站在 2023 年的时间节点来看,也许还略有门槛,虽然活水团队的 AI 应用专家们已经努力帮大家降低了这个门槛。

然而,站在大时间周期来看,它们就是今天知识工作者天天使用的文字编辑软件。

难题一:界面

无论 AI 如何演化,我们首先需要的是一个用户界面(UI)。这个 UI 就是你与大型模型交互的基础。无论未来你做什么,都以「界面」作为起点。

目前发现,最自然的界面是对话。它看似简洁,然而它可以拥有无穷无尽的可能性。GPT 诞生较早,然而,只有当它在 2023 年 11 月 30 日,在套上对话界面对外发布之后,才真正引爆全球。

而能被我们所用的界面,需要符合你的一些个性化需求,并且需要做好隐私保护,数据不会被第三方获取。

难题二:从单一大模型到多个大模型

通过「界面」,你开始与大模型交互。中国目前已经诞生了 200 个大模型。全世界就更多了,每个大模型都在宣称自己有多厉害。然而,与其争辩哪个大模型更厉害,更好的 AI 观是什么?——让多个大模型为我所用。

让不同的大模型各司其职,处理它们更擅长的事务,这本身也是大模型研发的一种思路,那么,你在应用时不妨也坚持大模型家族观念。

如何让你的 AI 界面随时随地便捷地接入多个大模型,以及在不同大模型之间自如切换?这就是我们要解决的第二个难题。一旦某家公司发布了一个新的大模型,我们是否可以立即接入呢?

难题三:如何获得大量外部知识

你已经明白了如何通过界面接入一批大模型,这肯定能提高生产效率,而且费用更低。那么,接下来你要解决的问题是什么呢?

你有没有发现,这些大模型的数据都有一定的时效性,而且它们与我们个人的数据没有关系?

大模型并不是实时训练的,而是需要经过漫长的训练,才能成为一个具备类人泛化推理能力的智能体。如此一来,每个大模型并不拥有新的知识。这些知识既包括外部知识,也包括内部知识。外部知识,指的是分散在互联网上或者各家机构的知识。内部知识,指的是你自己个人或者你所在机构所拥有的知识。

对外部知识来说,最重要的一种能力是我在信息分析课上讲过的信息获取能力与信息整理能力,也就是利用爬虫、RPA 等技术,将外部数据抓取下来,并整理成大模型所能理解的格式。如今是否有更简洁的实现方式?

难题四:如何让内部知识为自己所用

利用信息获取能力,你能看到互联网上无数金矿等着我们挖掘。然而,你的身边还有一座大金矿——那就是你的个人数据。你每天在生产大量数据。如何让这些以个人数据为代表的内部知识为你所用呢?

有的同学是小说作家,他可能已经写过十本小说,这就构成了一个内部知识库。有的同学可能是做电商的,他们团队可能积累了大量的商品知识以及客户问答,这也是内部知识库。

全世界数百个大模型,然而,微调大模型的思路几乎大同小异。你学会微调一个大模型之后,是否就学会了微调所有大模型?

难题五:如何批量处理任务

你看,用户界面的问题已经解决了,接入多个大模型的问题也解决了,现在,你可以整合世界范围内的最新知识,也能利用你自己的个人知识。

这样,大模型的能力是不是继续放大了?

那么,我们下一步要解决的难题是什么?是工作流程的问题,其中最重要的是批量处理与流程编排。

这些大模型已经具备了相当强的能力,但你会发现,多数人的用法是,通过对话的方式去完成任务,然后再通过复制粘贴,将对话界面生成的结果放到需要的人面前。

在日常生活中存在大量的重复性工作。你不可能总是频繁地重复进行复制粘贴的工作。想象一下如果你要复制粘贴一万次,这无疑是一项极其枯燥的工作。

举一个例子,假设你是一名编辑,每次看完一本书稿后,你需要给作者反馈意见。这是我们作为知识工作者一种常见的情况。你会发现,这种情况下,对话界面存在一定局限性。你以前的做法可能是把作者的一本书一段一段地给大模型,它一段一段返回,你再把这些段落拼到一起反馈给作者。你会发现这是极其低效的。

显然,你需要掌握的不仅仅是对话界面。你还需要掌握更先进的一些应用方法。你是否可以借助于各个大模型的 API,脱离对话界面,直接进行批量处理,并为你的上下游交付最终的文件格式?

难题六:如何自动编排任务流程

在日常生活中,一类常见任务是填写表格。这并不是一个简单的批量任务,而是一个典型的流程性任务。例如,当我们在某个平台录入数据时,可能需要填写多达一百个字段,这个过程无疑是非常烦琐的。

再来看这个流程,你会发现它的难点在于不同的执行条件。有经验的人会明白,每个流程都可能会分出不同的分支。当你走到一个节点,需要选择下一步的方向。这种决策过去往往依赖于专家的经验。然而,大模型的能力在这方面表现得相当强大,它能够帮助我们作出更加准确的判断。

自动编排任务流程,用 AI 界的术语来说,AI Agent,从而提高生产力效率。如此一来,我们就可以更加专注于更有创造性的任务,提高工作效率。

难题七:如何将知识处理为向量

我们正处在一个历史变革时期:大规模地知识向量化。如今 AI 之所以强大,是因为它们将过往知识处理为高维度的向量。

然而,你所调用的 AI 大模型可能并没有处理你所在领域的知识。那么,我们是否可以自行处理?

我们并不需要对 AI 进行复杂的训练,甚至都不需要调用任何大模型,仅仅是将我们所在领域的知识全部向量化,就已经足以解决我们许多问题。举个例子,过去在搜索时,必须有准确的文字才能找到所需信息。而现在,通过向量化处理,即使是近似的信息,我们也能够找到正确的方向,从而发现前所未见的模式、关系、规律。

难题八:如何快捷搜索并调用向量知识

当所有知识向量化之后,它成了依赖不同向量化模型的数字了。为了追求向量化的速度,你可能向量化之后的结果是 700 维;为了追求向量化的精确度,你可能向量化之后的结果是 1500 维。

在摄影领域,有一个常说的话是,画幅大一级,压倒一切。全画幅似乎就一定比半画幅拍摄出来的照片效果更好。是否 1500 维的就一定比 700 维的效果好呢?这些都是未解之谜。

人类之前从未面对过如此高维的智能体,如何更好地与这些智能体发生交互呢?并且能够通过人类理解的方式,获得隐藏在这些高维向量矩阵中的答案?这就是第八个难题:如何快捷搜索并调用向量知识。往往,它与向量数据库、检索增强生成(RAG)这些话题密切相关了。

难题九:从文本到更多形态大模型

就像人类拥有五官一样,我们不仅通过眼睛看,还通过耳朵听,通过嘴巴说。同样,文本大模型是对人类既有知识的一种存储方式。这种存储方式,信噪比极高。文本通常比图像、音频、视频拥有更好的信息传递能力,更少的噪音。

然而,其他存储格式也有它们的优点。比如,图像大模型更容易在审美上达成共识。我们难以评判一篇文章与另一篇文章的好坏,但我们人类大脑的信息处理能力,较易在一幅图与另一幅图谁好谁坏上,达成共识:对称、重复、变化,这些人类基本美学准则,在图像大模型上更易被辨别。

音频大模型则极为复杂,生成好的音乐涉及细节太多了。但它是最容易激发我们人类情绪的一种方式。忧伤时,我们喜欢郑智化;快乐时,我们喜欢凤凰传奇。

视频大模型一方面可以理解为图像大模型的逐帧叠加;另一方面可以理解为图像大模型与音频大模型的组合。但它是最可能颠覆传统无数行业的大杀器。比如,颠覆市值几万亿的以好莱坞为代表的电影产业;颠覆以任天堂等为代表的游戏产业。

如何深入参与这些大模型正在引发的社会大变革,并让它们更好地为我们的工作服务?这就是我们要解决的第九个难题。

难题十:多模态大模型

接下来,我们要探讨的是如何解决跨模态问题,例如文本和图像的结合应该如何更好地进行。视频与音频的结合又该如何进行?

小结

这就是我们整个 AI 线下工作坊设计的逻辑。我们通过系列课程,让大家明白,活水团队关于这些难题的独特见解以及解决之道。这就是整个 AI 线下工作坊的五期关键课程,每期我们将重点安排两个 Section,解决一大难题。

  • 首期:如何稳定高效地使用大模型?——界面与大模型家族;
  • 二期:如何微调大模型?——外部知识与内部知识;
  • 三期:如何让 AI 助力日常办公?——批量处理任务与流程编排;
  • 四期:如何在 AI 时代重组数据?——向量化与向量数据库;
  • 五期:如何从文本到多模态大模型?——图像、音频、视频大模型及其整合。

我们不关注那些三年之后可能被淘汰的知识,我们更关注那些三年后依然会有无数知识工作者需要面对的永恒难题。

也许某个具体的操作细节,三年后已经发生变化。但我们为各位知识工作者提供的认知框架将依然在后台默默发挥作用。

谢谢大家!预祝大家学有所获,拥有更多 AI 时代的先发优势。记住我曾说过的,技术并不一定带来公平,但一定会给最懂技术的人红利。