数字人文

数字之书

数据分析如何能丰富人文学科

这一切始于一个介词。1941年,罗马天主教神父罗伯托·布萨(Roberto Busa)开始记录他在中世纪神学家圣托马斯·阿奎那(Thomas Aquinas)的拉丁文著作中能找到的“in”的用法。八年后,他积累了一万张手写索引卡片,之后在罗马的宗座格列高利大学(Pontifical Gregorian University)完成了对阿奎那的“内在性”(他的内省信仰)的语言分析。那时他感觉自己的工作应该可以用高效得多的方式来完成。他开始寻找“某种机器”来加速他的新项目——记录阿奎纳著述全文上千万个单词的上下文。

布萨神父对这项事业的热情驱使他走进了IBM董事长托马斯·沃森(Thomas Watson)的办公室。很快他就不再手写索引卡,而开始使用IBM的穿孔卡片机,到50年代又用上了磁带。60年代,数十名全职打字员参与进来。1980年,他的团队最终出版了56卷的《托马斯著作索引》(Index Thomisticus),此时他们已经用了长达1500公里的磁带。1992年团队发行了包含1.4GB数据的CD光盘,接着在2005年推出了网站。这位神父于2011年去世,享年97岁。但离世前他已经启动了一项新项目——对《托马斯著作索引》数据库中的每个句子做句法标注。

这就是数字人文学的创世故事。这一学科内容广泛,包括计算与人文艺术间的各种交叉。自穿孔卡片机开启这一学科以来,所取得的进步“比我那时能想象得到的要大太多,好太多”…