从科学的开放精神来看开源

经常听到人们说中国改革开放40年,享受的是西方科学400年的成就,那么这400年是如何而来的呢?不妨我们看看英国皇家学会,从1660年代开始,如何在科学共同体中做出辉煌而伟大的成绩的,比如牛顿!

引言

开源想要在现实社会中彻底的站稳脚跟,可能除了现在技术上的成绩和经济上的奇迹,还要从更为宽泛的伟大出发,例如和科学的关系。本期文章,我们就译自 Glyn Moody 的大作,看看 Glyn 是如何为开源提升更高的使命和意识的,而不用牵带更多的强迫和激进。

为何说开源其实发生在1665年

各位知识渊博的看官,你认为开源是从什么开始的?是1998年2月份Christine Peterson所定义的吗?还是 Richard Stallman 在1989年所描绘的 GNU GPL 下的 “subroutinized”?亦或者是更早些时候的1985年,Richard Stallman 所创建的GNU Emacs 许可证?还是1665年3月6日这天所发生的如下声明了呢?

鉴于促进哲学问题的发展,没有什么比促进传播哲学更为必要的了,即通过他人的发现或实践来应用哲学研究和努力。因为我们以为需要做一些媒介的工作,从而作为满足那些从事此类研究的人们的最合适的方法,进而对于学习和获得进步会感到由衷的高兴,并使得他们充分的了解英国、这个世界,这同样也需要坚持不懈的去研究、劳作、保持好奇的尝试、并享受其中所学到知识,作为最终的发现和表现:最终,这样的作品必须清晰、真实地传达出来,并经得起推敲,作为有用的知识,人们便会进一步的进行探究,精益求精、孜孜不倦、进而授业解惑、激励他人,持续的为改进自然知识,完善所有哲学艺术和科学的宏伟设计做出贡献。

上面这段文字节选自1665年的《哲学交流(Philosophical Transactions)》创刊号,该杂志是我们世界上存在的最为古老的杂志,历史很多重要的成果都是在该杂志上发表的,如牛顿、史蒂夫.霍金、约翰·赫歇尔爵士等等。值得大题特提的是,该杂志同样确立了我们今天视为理所当然的关键科学原则,其中就包括:常规的技术和成果的分享,以让其他人可以基于其基础进行发展,这不就是我们所熟悉的开源吗?

关于开放科学

尽管科学精神倡导和发明了我们所称之为开源的方法,但是颇具吊诡的是,科学共同体们目前正在试图重新发现开放性,而他们称之为开放科学(open science)。随着历史的进步,人们渐渐意识到那些传统的、模拟(analog)的科学方法正在经历不小的变化,即数字化技术,它将对科学发展带来根本性的变革。

开放科学的革命来自于一场称之为:开放访问,即学术文献应该以电子文档的形式让所有人可访问。这一想法无疑是延用了皇家学会的《哲学交流》的原则 ———— 所有想关的发现应予以公开发布和发表 ———— 通过让所有人都可以自由访问,从而让其能够获得更高的发展。开放访问非常清晰的说明了模拟(analog)和数字之间的差异。那些在皇家学会《哲学交流》印刷版无法抵达的地方,可以通过互联网提供的在线链接,也可以同样访问得到并自由访问所发布的每篇文章。

开放科学还有另外一个非常重要的方面:开放数据。在互联网出现之前,处理数据是一个繁琐且耗时的过程。一旦进行了数字化,即使是容量最大的数据库也可以非常快速地进行传输、组合、比较和分析。对于科学而言,这是变革性的,因为从原理上讲,这意味着其他研究人员可以通过下载完整的数据集并进行自己独立的分析和评估来检查实验结果。同样重要的是,他们可以进行新的分析以获得超出最初发现的结果。用于挖掘数据以获取新信息并将其与其他数据集结合的工具和技术的发展,这就决定了开放数据的思想和实践的传播远远超出了科学领域。

谈完了开放访问和开放数据,接下来我们就聊聊开放科学的第三个重要属性:开放源码。过去几十年来,科学领域最重要的发展之一就是使用数字工具来进行研究。在这过程中使用到的软件可能是收集、分析或存储数据的软件,但是无论使用什么软件,软件对于现代科学都是必不可少的。但是所存在的问题是,很多的代码都是为某个科学研究专门定制而写的,尽管他们在各自的领域都耗费了极大的精力,但是他们的这些成果却很少和其他科学家进行分享。

颇为混乱的科学界

事实上,即使是开放科学是如此的势头迅猛,但是由于没有开放源码的存在,它还是步履维艰。举例来说,在2016年,欧盟理事会发表了一项重要的政策:“向开放科学系统的过渡声明”,其中并未提及开放源代码。2017年的欧洲开放科学云宣言亦没有提及,同样,在2018年欧盟和美国共同推进开放科学研讨也忽略了开源。2019年早些时候,美国国家科学,工程与医学研究院出版了题为:加快开放科学进展的新框架,值得庆幸的是,该框架肯定了开源所取得的成绩,提及次数不下20次,然后最后还是颇为遗憾是:其最终建议不包括将开放源代码作为开放科学的一部分进行推广。

在欧洲,一项重大的新计划(已引起科学界的关注)也对开源保持沉默。在欧盟委员会和欧洲研究理事会的支持下,11个国家研究资助机构最近宣布了名为 cOAlition S的 S 计划的启动。这是“使对研究出版物的全面,直接开放获取成为现实的倡议”。通过使用高质量的自由软件应用程序,开源可以在这里扮演重要的角色,这些应用程序使发布比当前的方法更容易,更便宜。但是,该倡议却仅仅只是说:“由于长期的存档功能和编辑创新的重要性,开放式档案和存储库对于托管研究成果的重要性是显而易见的。” 这也就是说,仅仅是开放存档,而不是开源存档。幸运的是,有影响力的人物正在呼吁对此进行认真的监督。被大家公认的开放访问的领导者Peter Suber 发表了对S 计划的声明

该计划承诺道:“在必要的时候会提供开放访问的基础设施”, 这个承诺看起来非常的不错,但是该计划没有提及开放基础设施的重要性,本应有运行在开放源代码软件的平台、基于开放的标准、用于互操作性的开放API、最好由非营利组织来进行营运。

综上所述,我们可以看到政府机构和顶级科学组织对与开源合作以促进开放科学并没有多大的兴趣,这是颇为让人掉下巴的事情,也是不能被接收的,因为他们这些研究人员所编写的代码本身就是由公众所资助的,因此,需要有一个令人信服的案例,即所有此类软件都必须在开放源代码许可下发布,以允许任何人(包括为其缴税的人)自由地使用它们。

面对这些大型机构的冷漠的态度,一些没有多少耐心的民众开始有点坐不住了,于是,开始利用有限的资源来做点什么,有的还颇有起色。例如,OPERAS这家欧洲的研发机构,已经发布了一份白皮书,探讨了有哪些开源解决方案可以用于创建开放式科学学术交流基础设施;无独有偶,Lettie Y. Conrad 最近发布为民众提供用于开放科学的开放工具

就本项目而言,我们专注于非营利组织或基于共同体的组织使用开源软件提供的工具,提供开放数据、并通过开放许可,尽可能的利用开放标准 —— 总而言之,尽可能的保持开放,无论是从人性的角度,还是技术的视角。

Conrad 在一个研讨会上介绍了她的工作,该研讨会是为开放科学工具制定联合路线图的。令人非常惊讶的是,研讨会的参与者,唯一的涉及到的开源品牌是 Mozilla,不过这也充分的说明,该项目其实应在使用开源软件当中是失败的了,也就是说类似的开源项目未能在这个重要领域活跃起来。

结语

这真是一件让人感到无地自容的尴尬境地,400年过去了,我们离当初皇家学会《哲学交流》的创始人想要的还有很长的举例。

然而,值得庆幸的是,开放科学为自由的编码人员提供了巨大的机会,进而让他们能够应对新的挑战并创建一些更具创新性的作品,除了状态开源共同体(community)及其项目之外,此举同样可以有助于加入开放科学的革命。这一点无疑是所有人都认可的。

开源之道评论

在软件被以信息的方式商品化了以后,身处盗版中心的中国,经历了大跃进破灭的中国,对于道德和公共的善是唯恐避之而不及,谈一点实际的,那就是一切市场化,自由软件、开放源代码即使有着和改革开放相同的年龄,但是国人还并没有从伤痕中恢复过来,年轻人被上一代人的过度保护,也并不相信存在市场之外的社会价值。但是开源的核心价值,仍然是人类共享知识,再怎么市场化,也难以动摇这份先进的文明。所以,要去相信科学的力量,那么开源的力量就紧跟其后。

关于原文和作者

原文出处:Open Science Means Open Source–Or, at Least, It Should

作者:Glyn Moody, Glyn 的写作生涯始于1994年,从互联网开始,在第二年也撰写一些自由软件的文章,1997年,他为《连线》杂志撰文介绍关于自由软件和 GNU/Linux 方面的内容,在2001年,他出版了著名的图书《Rebel Code: Linux And The Open Source Revolution》,自那以后,他撰写了大量有关自由和数字版权的文章,同时也是一位撰写博客的能人,他的Twitter账户是:@glynmoody