天天看点

《大数据、小数据、无数据:网络世界的数据学术》一 3.3 社会与技术

社会与技术之间的密切关系是数据学术的重要组成部分。由于各关系具有反身性且相互作用,因此彼此之间很难进行分割。现有工具使数据创造成为可能,但工具发挥作用的前提是知道采集何种数据。与其尝试解决那些长期存在的争论,不如假设学术研究的社会和技术两个方面不可分割。数据与工具之间相辅相成,缺一不可。二者的涵义蕴含于彼此之间的关系中(Bijker,Hughes,and Pinch 1987;Bijker 1995;Hughes 1989,2004;Latour and Woolgar 1979;Latour 1987,1988,1993;Meyer and Schroeder 2014;Schroeder 2007)。

布鲁诺·拉图尔(Bruno Latour,1987)创造了技性科学(technoscience)一词,用于说明科学实践与技术的结合方式。拉图尔从哲学视角出发,认为科学一词应当包含大多数形式的学术研究。在北美地区,科学常常不同于社会科学和人文学科。在工程、医学、法律和教育等领域,科学也可以依据专业知识进一步分类。虽然这对划清学术部门等机构的边界具有一定作用,但由于知识和学术的存在,这种划分方法略显武断。本书中的科学一词有时也泛指学术知识和实践。因此,这里的案例分析以学科为单位展开,即包括自然科学、社会科学和人文学科。

在数据日益引起关注的大背景下,科学的历史和哲学问题层出不穷。科学是一项昂贵的公共投资。自第二次世界大战以来,特别是自冷战结束以后,公众要求建立更多问责制、对研究方向有更多发言权以及获得更多研究成果等权利(Kwa 2011;Latour 2004)。随着科学事业和公众之间关系的转变,社会科学家更渴望研究学术工作。自然科学家和其他学者也更愿意成为研究对象,他们希望能借此表达自己的想法,同时可以从外部对其工作的研究中获益(Salk 1986)。从20世纪50年代初开始,越来越多的学术工作专注于研究科学和技术的历史、哲学和社会等方面(Hackett et al. 2007;Latour and Woolgar 1986;Lievrouw and Livingstone 2002;van Raan 1988;Woolgar 1988)。这种方式同时推动了社会科学和人文学科的学术实践研究(Borgman 2009;Case 2006;De La Flor et al. 2010;Friedlander 2009;Jirotka et al. 2006;Wouters et al. 2012)。

数据的政策、实践、标准和基础设施往往涉及与数据相关的社区。数据管理计划就是一个典型例子,即“此类数据的组成部分取决于利益共同体的同行评审和项目管理”(National Science Foundation 2010a)。无独有偶,数字档案政策就是在“特定社区”(designated community)(Consultative Committee for Space Data Systems 2012)前提下制定的。数据往往是通过微妙差异对领域进行分界的“边界对象”(boundary object)(Star and Griesemer 1989)。研究过数据在协作中的作用后,社区的边界、范围、一致性和非一致性便呼之欲出了。

数据的采集、创造、分析、解释和管理等需要对应研究领域的专业知识,如理论和实践以及社会和技术等各类型的专业知识。其中的部分专业知识很容易教授或可以从书籍、期刊和文献中学到,但大部分都是难以描述却根深蒂固的知识。后者中,最闻名的是“隐性知识”,这个概念本身就很复杂。这种专业知识在数据挖掘中发挥着重要作用,但往往最难实现跨社区和跨情景迁移(Agre 1994;Collins and Evans 2007;Darch et al. 2010;Duguid 2005;Polanyi 1966;Schmidt 2012)。

社区(community)是社会科学中著名的理论概念。在围绕科学和学术展开的社会研究中,实践社群(communities of practice)和认知文化(epistemic culture)是其核心思想。实践社群这一概念由雷夫(Lave)和威戈(Wenger)提出并得到广泛研究和发展,主要用于描述群体中的知识学习和共享行为(Osterlund and Carlile 2005)。相反,认知文化既不是学科也不是社区(Knorr-Cetina 1999),其更像是一组与知识构建过程相关的“制度安排和机制”(arrangements and mechanisms)以及个人、社区、人工产品和技术等(Van House 2004)。实践社群和认知文化的共同点在于知识的情景化和本地性。南希·范豪斯(Nancy Van House 2004,40)对此观点进行了简单总结:“没有‘无源之见’,即知识总是与特定场景、时间、条件、实践和理解相关。没有单一的知识,只有多元化的知识。”

虽然人们进行了很多数据商品化的工作,但其只有在成为能吸引和转移注意力的热点话题时,才是“明亮的光源”(Schrier 2011;Starke 2013)。随着研究领域、学科和专业等文化的长期演变,信号、记录、笔记、观察结果、标本以及其他实体开始被视为数据。科学实践的相关文献叫作“说明册”(inscription)(Latour and Woolgar 1979,1986;Latour 1988;Lynch and Woolgar 1988a,1988b)。各领域的数据文档、描述和表示形式各异。数据通用表示方法有元数据、标记语言、格式、标签、命名空间、词典、本体等,这些方法有助于实现领域内数据交换。通用表示形式可以对社区边界进行定义。对那些具有多种数据表示方法的领域而言,这些边界也可能成为实现跨领域数据迁移的障碍。疾病、药物、植物、动物和现象等领域名字各异。多源数据的组合能力取决于相关说明册。

数据、论证标准、表示形式和研究实践之间的关系错综复杂。只有在尝试使用或组合外部数据源、协作以及把一个社区的实践方法运用于另一个社区时,社区之间的差异才很明显。正如第二项挑战所述,实现知识的跨情景和跨时间迁移绝非易事。因为数据的具体涵义取决于外围设备,即软件、硬件、方法、文档、出版物等,所以,与其他知识形式相比,实现数据的跨情景、跨时间迁移只会难上加难,甚至是最难的。

期刊论文、会议论文、书籍以及其他各类出版物都是信息合集,作为独立单元,它们为专业读者甚至更广大的群体所接受。它们是学术知识的表示形式,且往往包括便于传播、发现和交换的数据表示形式。几个世纪以来,学术出版物的表示形式不断发展演变。当前学术书籍的组成部分包括标题页、著作权声明、目录、索引以及其他特征,这些特征并非一蹴而就,而是逐步发展起来的。其中的部分特征(如责任声明)已经从书籍迁移到文章。1665年,这种用法最早出现在第一批学术期刊中,如巴黎的《学者杂志》和伦敦的《英国皇家学会期刊》。从那时起,以学术发表为中心的知识基础设施逐渐扩展。出版商、同行评审、书目资讯、索引和摘要服务、信息检索系统以及期刊影响因子等评价指标都是知识基础设施的组成部分,具体内容见第9章。

数据学术是位于理论、实践和政策范围之外的概念。在微观层面上,数据政策是研究人员针对数据展开的一系列选择,例如,如何看待数据,保存、监护何种数据,在何时、与何人实现数据共享,何时存储何种数据以及存储多久。从宏观角度来看,数据政策是政府和资助机构的一系列选择,例如,何为数据,要求研究人员保存何种数据,何时、如何、向谁公开何种数据,要求何人在多长时限内保管何种数据,如何在基金申请书、奖励制度中以及提供数据库时实施这些要求。从中观视角来看,数据政策是研究机构、高校、出版商、图书馆、知识库和其他利益相关者针对其眼中的数据及其在数据组织和传播过程中的定位而进行的一系列选择。同时,较低层次的数据政策在研究资金、知识产权、创新、经济、治理和隐私等方面往往依赖于更高层次的数据政策。

为进一步推动学术交流,政府、资助机构、期刊和其他机构提出了一系列政策。这些政策往往进行了信息商品化和信息交换能力的简化假设。虽然制定政策的初衷是提高不同社区和学科之间的公平性,但却往往由于忽略各领域理论、实践和文化间的实质性差异,而导致这些政策的执行效果很差,甚至往往适得其反或被社区成员忽略。单个社区内部可能有用于控制数据采集、管理和共享的道德经济体系,如Kelty 2012和McCray 2000。案例研究和第8章中都提到,目前的数据管理计划和数据共享相关政策都更关注数据发布,而非数据重用和持续获取的方式。在知识基础设施组成部分中,数据管理计划和数据共享既复杂又昂贵。

继续阅读