如何快速批量获取顶尖大学上千篇博士论文?详细多图讲解,来看!
星宇 开智学堂
开智君说
信息分析能力至关重要,但是,很多人不知道优质信息源在哪里,也不知道如何去搜索验证。如何不依赖任何知识搬运工,建立一套属于自己的学科逻辑体系?对此,开智信息分析课研发者阳志平老师的答案是:批量阅读该领域顶尖大学的 1000 篇论文摘要。应该怎么做?下文,信息分析十期课程的星宇同学,为你讲解详细步骤。来看~
作者:星宇 来源:原创
21 世纪出现一种新的乞讨者,叫知识乞丐,他们的日常是咀嚼他人的信息剩饭,而不验证与思考。信息剩饭最大的来源是知乎和公众号,还有一些畅销书。
应当肯定他们的贡献,他们是知识的中介者、传播者,将知识的精华烧成火,引导暗夜中徘徊的魂灵,邂逅其归依之所。但知识的精华在燃烧之中,内部的能量大多被浪费,光不过是微不足道的副产品,并且中介者常常各怀鬼胎。
有理想和抱负的人试图抵抗过这一现状,但并没有人告诉他们如何拒绝知识吸血鬼。如何不依赖任何知识搬运工,建立一套属于自己的学科逻辑体系?阳老师给出一个惊为天人的答案:批量阅读该领域顶尖大学的 1000 篇论文摘要。
为什么是博士论文的摘要?
因为博士论文比硕士论文要求高,摘要字数较长,包含一篇论文最重要的信息。而且摘要阅读难度不大,大多论文摘要会提前介绍整篇研究的背景信息,即使是小白也能读懂。所以,只需阅读博士论文的摘要即可。除非遇到重要论文,才考虑阅读正文。
那为什么是 1000 篇?
正如阳老师所说,信息分析为的是占领比别人多上几个量级的信息,才能在信息环节对他人形成降维打击,降低自己出错的概率。以 1, 3, 10 作为不同量级的切割点,10, 30, 100, 300, 1000 等等依次递增。如果一个博士生看过百篇左右的博士论文,他的上两个量级便是 1000~3000 篇。
足够的量级不仅让你建立一个学科的理性脉络,更能获得感性与直觉的认识。创造不仅依靠逻辑,还需在足够的量级以后,在灵光一闪之中寻觅。
每个量级是一座山丘,越过山丘,你便会发现,无人等候。
它看似很难,却是你弯道超车的机会,直线快谁不会?一般人的遇到问题的习惯是:直接打开搜索引擎搜索,或是去找大牛提问,试图对症下药,似乎抄了捷径,极快得到答案。
但该答案具有很大局限性,橘生淮北则为枳,一旦情境稍稍改变,答案便失效。于是不断踩坑,不断重复一遍上述过程。捷径省下的时间,就像资本家予你的方便,终究要还的。
接下来,知识独立第一步,收集整理 1000 篇博士论文的元数据。
(清晰而优雅的 zotero界面)
01 安装软件
你需要下载 Zotero,「Mac os」或是「Windows」皆能使用,它是我们论文的容器,就像手机相册之于照片。不过,他不仅是为了储存,更是一个强大的私人管家,帮你建造属于自己的私人图书馆。
如果你还是新手,安装完以后先放着不管他,因为你现在还没有「家」,自然不知道该对管家提出什么要求。
但你想做到完美的话,请直接参照阳老师的经典文章,预先调教您的管家。10 年前的技巧,依旧不过时:
「Zotero(1):文献管理软件Zotero基础及进阶示范 - 阳志平的网志」(https://www.yangzhiping.com/tech/zotero1.html)
「Zotero(2):作为知识管理工具的Zotero - 阳志平的网志」(https://www.yangzhiping.com/tech/zotero2.html)
「Zotero(3):平板与社交:再谈研究辅助工具Zotero兼配套APP - 阳志平的网志」(https://www.yangzhiping.com/tech/zotero3.html)
「Zotero(4):Zotero之Zotfile插件的使用 - 阳志平的网志 」(https://www.yangzhiping.com/tech/zotero4.html)
02 国内论文
首先我们以获取国内中文论文为目标。
1、使用「中华人民共和国学科分类与代码简表(国家标准GBT_13745-2009)」(https://ky.xdsisu.edu.cn/2021/0126/c213a30440/page.htm),查找感兴趣的学科,或是你要解决的问题所在领域的学科。
以学科作为检索对象,而不是某个具体的问题,可以减少我们漏掉关键信息的概率。
我们以哲学为例,哲学作为一级学科,下面还有马克思主义哲学、逻辑学、美学等不同分支学科。
2、了解了学科归属,我们直奔知网,「高级检索」→「文献分类」,使用知网自带的文献分类目录勾选,扩大范围(如果使用学1科专业名称「哲学」检索,只能检索到一级学科本身,却不能包含下属的二级学科)。
3、得到 2622 条搜索结果(20220809),符合 1000~3000 的范围。如果得到的博士论文太多,可以缩小成二级学科;如果博士论文太少,可以考虑加入硕士论文。
4、得到结果,先不急着下载,查看一下知网自带的图谱分析,同时对比:
「《中国学位与研究生教育信息网》的“高校博士学科排名”」(https://www.cdgdc.edu.cn/dslxkpgjggb/)
发现哲学博士教育前二十的高校中,知网没有收录北京大学、中国人民大学、北京师范大学、中山大学、东南大学、东北大学、同济大学等 7 所大学的博士论文。
这一步的目的是确认自己掌握的信息边界,方便未来复盘,或是进一步扩大和缩小信息边界。
5、在 Zotero 建立准备储存论文的文件夹,新建独立笔记,记下一张 readme 卡片,记录刚刚提到的该领域的博士大学排名,以及缺少论文的学校,防止遗忘。
6、一页显示 50 条,然后勾选 10 页,共 500 条,导出 RefWorks 格式。该格式可以被 Zotero 识别。键盘上的← →按键可以直接翻页,加快勾选条目速度。导出以后是一个以「CNKI」开头的 txt 文件。
7、把刚刚的 txt 文件导入 Zotero。具体方法:Zotero → 文件 → 导入 → 文件(BibTeX,RIS,Zotero RDF 等),然后选择知网导出的 txt 文件。这时你会发现一个问题,为什么条目下面会多出许多无法识别的信息?
因为 Zotero 的 RefWorks 格式不能很好兼容知网给到的文件,因此,我们需要修改 Zotero 中 RefWorks 的识别规则,补充识别不了的信息。不用担心,修改完的规则已经准备好了,你可以直接到以下网址下载:
OpenMindClub/awesome-translators
在其中的 translators 文件夹下,你可以看到许多 js 文件,他们分别对应不同网站的识别规则,比如豆瓣、财新,有了他们,Zotero 可以才能识别这些网页,如有兴趣之后可以深入了解。
目前我们需要其中的「RefWorks Tagged.js」文件,对应 Zotero 如何识别 RefWorks 文件。将其拷贝到 zotero 安装的目录下:
替换之前记得复制一份副本,以防意外。用下载的「RefWorks Tagged.js」,替换掉 Zotero-translators 文件夹下的「RefWorks Tagged.js」。
未来,你在别的网站下载 RefWorks 文件,Zotero 无法兼容时,你可以尝试把副本恢复来解决问题。不用担心 js 文件改变会影响已导入的条目,js 文件就像翻译软件,更换翻译软件不影响之前翻译好的文字。
8、替换完毕后,你可以删掉失败的条目,重新导入下载的博士论文条目,完成!剩下的 2000 多论文也可以按照该流程导入。
9、接下来,如果你不满足,可以导入万方的论文作为补充。万方收录了知网没有收录的大学论文,比如北京大学。在哲学大学前 20 名中,万方博士论文没有收录以下 6 所:武汉大学、清华大学、东南大学、中央民族大学、东北大学、同济大学。
为了方便将万方和知网的论文合并,你在搜索万方的论文时,记得选取和知网尽量等效集合。比如,在知网,「哲学」=「哲学理论+世界哲学+中国哲学=思维科学+自然辩证法」,万方没有知网方便的分类搜索,需要使用表达式限制中图分类号的方式,框定范围。
如果你不打算合并知网和万方的论文,就不需要这个步骤,但请谨记你的论文是通过什么方式得到的,它真的尽可能多包含了所有的哲学门类论文吗?这些信息都可以写成 readme 卡片备忘。
10、万方的论文元数据下载,推荐使用 endnote 格式,能够较好被 Zotero 识别。万方的论文可以单独存放,以作知网补充。
11、如果你想精益求精,Zotero 还支持智能搜索,确定没有摘要的条目,方便删除或者是补充。如果你觉得麻烦,影响了下一步的行动欲望,尤其是随性的创造者,没有强迫症,又容易被细致重复的工作扰了兴致,便不必如此一丝不苟,毕竟收集整理只是第一步,无须捡了芝麻丢了西瓜。
12、如果你有强迫症,如何快速增补这些没有论文的摘要?可以使用以下网址提供的方法:
「Zotero 检索引擎的高级功能」(https://zhuanlan.zhihu.com/p/406347033)
添加中文学术搜索引擎,全选没有摘要的论文,一键百度学术搜索 255 条论文,简单验证是否真的在网上没有摘要,如果有摘要,补充一下。一般来讲大部分没有,没有的可以直接删除。
另外国内也有可以一键增补条目元数据的付费插件,但我自己没有使用过,这里不做介绍,有兴趣的自行检索。
03 总结
学海无涯,知识的小径亦如分岔的花园。尽管我把读者当成孩子,却不能穷尽所有变数。实践发现,同学们总能出现猝不及防的意外。其变数许是因学科的不同、入口学校的不同,许是因知识诅咒了我。神啊布下陷阱,知识的果实愈加甘甜可口,求索的道路愈是茹苦含辛。因而尝其美味者,寥寥无几。
所幸,阳老师盗取了知识迷宫的地图,引领我们穿梭在隐秘的小径。上述过程中,许多细节背后蕴含着阳老师的深刻思想(全局认识、交叉验证、近似解、信息边界、元数据),奈何不能一一展开解析。
收集与整理论文,不过是小径的前半段,后头的分析和报告,更是有趣。如有兴趣和条件,欢迎来到信息分析的小船,跟着阳老师,学习采撷真理之果。这一次,我们无须别人的施舍,眼视,耳听,肤感,味品——最鲜嫩的真理。■