阳志平:纳博科夫最喜欢的词是什么?

阳志平 开智学堂

img

你是否对喜欢作家的文章进行过文本分析呢?你是用什么软件分析的?又是否知道传统的定量文本分析,会存在明显弊端?这些弊端是什么,有解决方法吗?开智学堂自主研发的智能写作软件「写匠」,所具有的「智能统计」功能,就迈出了中文文本实时分析的第一步。如何使用?如何发现、学习伟大作家的写作模式?往下看,阳志平老师为你讲解~

作者丨阳志平

本文转载自微信公众号「心智工具箱」已获原作者授权

开智学堂(http://www.OpenMindClub.com)

img

1

纳博科夫最喜欢的词是 mauve (淡紫色)。这个词在纳博科夫的 8 部作品中至少使用过一次,比如《说吧,记忆》中是这样用淡紫色:

“我再度陷入了属于自己的迷雾之中,而当我又一次浮现时,支持着我伸展的身体的已经变成了园子里的一张低矮的长凳,我的手垂入其中的鲜活的阴影这时在地面上移动着,在淡紫色而不是水的黑色和绿色里移动。”

“——在装满了粉红或淡紫色酒精的玻璃管里上下浮动的玻璃小妖怪,就像真正的美国人”

作家 Bem Blattt 统计了纳博科夫最喜欢的词,除了 mauve 之外,还有 banal(平庸的)、pun(双关语)。而 E.B.怀特最喜欢的词是 storekeeper(店主)、boatman(船夫)、gander(公鹅);简·奥斯汀最喜欢的词是 civility (礼貌)、fancying(幻想)与 imprudence (轻率)。

2

这就是西方正在蓬勃兴起的计算人文学科,计算机科学与人文科学交错在一起,试图更好地理解文本。

客观地分析文本,能够更好地理解作家风格,这个假设不言而喻。比如,纳博科夫是一个非常喜欢用颜色词汇的作家,平均来说,美国的历史语料库中,作家每 10 万个词汇中只使用了 115 次颜色词汇;而纳博科夫每 10 万个词汇中使用了 460 次颜色词。

中国作家张爱玲也是极度喜欢使用颜色词。这是我在写作课举过的一些例子:

黑夜里,她看不出那红色,然而她直觉地知道它是红得不能再红了,红得不可收拾一蓬蓬一蓬蓬的小花,窝在参天大树上,壁栗剥落燃烧着,一路烧过去,把那紫蓝的天也熏红了。—— 张爱玲《倾城之恋》

这段优美文本,先后出现了黑、红、紫蓝、红四种颜色。并且出现了一种灵气十足的写法:「一路烧过去」。其实这种写法,在张爱玲文本中不仅出现一次,再看一例:

墙里的春天,不过是虚应个景儿,谁知星星之火,可以燎原,墙里的春延烧到墙外去,满山轰轰烈烈开着野杜鹃,那灼灼的红色,一路摧枯拉朽烧下山坡子去了。杜鹃花外面,就是那浓蓝的海,海里泊着白色的大船。—— 张爱玲《沉香屑》

在这个例子中,红色、浓蓝、白色依次登场。再一次出现了「一路摧枯拉朽烧下山坡子去了」这种写法。

3

定量的文本分析很有必要,但传统的定量文本分析,存在几个明显弊端。

第一,多数写作者不具备计算机知识。即使是最简单的清洗文本,再导入到相应文本分析软件中,这一步操作,难倒不少中文系师生。

第二,多数文本分析是事后分析,而非写作过程中的实时分析。事后分析不是没有意义,但更有意义的是,写作过程中的实时分析。

第三,几乎所有文本分析软件都是西方的,合适英文,但并不合适中文。中文的文本分析与文本挖掘,大大不同于英语等语言。

写匠 AIWriter 1.2 版发布的「智能统计」迈出了中文文本实时分析的第一步。

1)支持 42+ 种文本相关指标的实时计算,分成整体、字词、句法、篇章四大类。

2)对 42+ 种文本指标,进行了精美的数据可视化设计,帮助用户快速了解自己或他人的写作风格。详情参见:写匠 AIWriter 1.2版发布:如何快速了解张爱玲的写作风格?

img

写匠 AIWriter 1.3 版,上线了「智能标注」功能,继续完善了中文文本的实时分析。

4

如何使用?点击卡片右上方的 icon,如下图所示:

img

目前支持以下智能标注:

img

1)字数。包括一字二字三字四字多字等标注;

2)字音。包括 唇音齿音喉音舌音鼻音等标注;

3)词性。包括名词动词形容词代词副词介词连词等标注,以及人名地名机构名时间等实体提取;

4)句长。包括正常较长较短等标注;

5)句型。包括单句复句等标注;

6)句式。包括感叹句疑问句祈使句陈述句等标注;

7)句义。包括肯定句否定句等标注。

总计 7 大类,32 类标注。使用方法很简单,在当前卡片,点击相应选项即可。比如,我们想看看,张爱玲的用词风格,既可以点击某个词性,比如「形容词」:

img

也可以点击「全部标注」,效果如下:

img

5

对于写作者来说,最推荐使用「智能标注」的「词性标注」与「句长标注」两个功能。

「词性标注」除了上面提及的按照形容词等词性标注之外,还有一个超级炫酷的功能,按照人名地名机构名时间等实体标注。

img

比如,这是我在《宇文所安、艾柯与卡尔维诺》一文的结尾:

是的,作家用字与词搭建了一个又一个鲜活世界,它们是宇文所安的迷楼,也是艾柯的清单,还是卡尔维诺的城市。在这些世界中,你可以触摸质感的故事,与主人公纵横捭阖;你也可以放肆哭泣,随那时光流逝。世态炎凉、雾霾风雪,你欢笑,你忧伤,总有一本书陪你——那好吧,且让我迷失在这样的世界中。

点击智能标注中的词性之人名标注,效果如下:

img

实体标注有什么用?第一,帮助作者整理文本中的关键人物、关键地名、关键机构名、关键时间线。第二,未来,标记出来的文本,将支持双向引用(待上线)。从此,文本不再是文本,而是一个庞大但又可以随时被你写作调用的语义网络。

6

接着再说一下「句长标注」。新手写作者很难写好短句与长句。那么,通过「句长标注」,找出当前写作文本中,较长的句子或较短的句子,然后刻意修改。用法如下图所示:

img

比如,这是拿张爱玲的《天才梦》标注的结果:

img

整篇文章中,较长的句子,分别有:

  • 然而,当童年的狂想逐渐褪色的时候,我发现我除了天才的梦之外一无所有——所有的只是天才的乖僻缺点。
  • 我还记得摇摇摆摆地立在一个满满清老的藤椅前朗吟“商女不知亡国恨,隔江犹唱后庭花”,眼看着他的泪珠滚下来。
  • 现在我仍旧保存着我所绘的插画多帧,介绍这种理想社会的服务,建筑,室内装修,包括图书馆,“演武厅”,巧克力店,屋顶花园。
  • 我学写文章,爱用色彩浓厚,音韵铿锵的字眼,如“珠灰”,“黄昏”,“婉妙”,“Splendour”,“Melancholy”,因此常犯了堆砌的毛病。
  • 她教我煮饭,用肥皂粉洗衣;练习行路的姿势;看人的眼色,点灯后记得拉上窗帘;照镜子研究面部神态;如果没有幽默天才,千万别说笑话。
  • 我懂得怎么看“七月巧云”,听苏格兰兵吹bagpipe,享受微风中的藤椅,吃盐水花生,欣赏雨夜的霓虹灯,从双层公共汽车上伸出手摘树巅的绿叶。

看完 18 岁的张爱玲写长句,是不是很有感觉了?至少高中作文不在话下了吧?

同样,再看看 18 岁的张爱玲如何写短句的。我们使用「句长标注」,点击「较短」,找出文本中所有的短句如下:

  • 我三岁时能背诵唐诗。
  • 公共餐室是荷花池里一座凉亭。
  • 在学校里我得到自由发展。
  • 我发现我不会削苹果。

7

写匠 1.4 版不仅上线了丰富的「智能标注」功能,支持对文本进行细致的分析。还上线了「词云标注」功能,会自动计算出当前文本有意义的高频词汇,然后予以标记。

如何使用?点击「智能标注」旁边的 icon,即可弹出当前高频词汇下拉列表,既可全部标注,也可以选中一个词汇标注。比如,这是张爱玲的《天才梦》的高频词汇:

img

我们选择全部标注,拿开头、结尾看一下:

img

img

发现,张爱玲的文本前后呼应做得不错。开头高频出现天才,结尾响应。

小结

至此,写匠 1.4 版发布,「智能导入」、「智能统计」、「智能标注」与「智能拆分卡片」四个关键功能皆上线完毕,写作闭环形成。

「智能导入」结合「智能统计」、「智能标注」,可以实时分析伟大作家的文本。借助于领先的微服务架构,性能一流,测试时,《张爱玲全集》《鲁迅全集》《王小波全集》,都可以在一分钟内快速导入。导入后,单张卡片在 5 万字以内的文本可以实时分析。如果试图分析更多文本,可以借助「智能拆分卡片」,分析更多字数的文本。

今天,我们太关心如何学习英文,但太少关心如何写好中文。希望写匠团队的工作,能帮助中文写作者提高写作效率,写得更快、写得更好。

继往开来,承前启后,这就是文统。站在科技与人文之间,重续文统,仍需斩荆披棘。我们继续努力。■