区块链技术
1 12月, 2017
Baldolino Calvino

在这篇新的文章中,我们将讨论区块链技术在科学交流中的可能应用。我在推特上遇到了一篇发布在 Digital Science News Blog 上的文章,讨论了区块链技术在科学研究中的潜力。Digital Science & Research 是由英国人 Timmo Hannay 创立的一家公司,由 Holtzbrinck 巨型出版集团运营,该集团控制着一些世界上最大的出版社,如 Springer Nature 和 MacMillan。在曾在 Nature 工作、创立和领导 Digital Science 和 Overleaf 后,Hannay 现在也在帮助管理 SAGE。可以说,这是巨人的博弈。

Digital Science 的重点是为研究人员和研究机构提供软件和数字服务。在这篇文章中,他们公布了《区块链用于研究的 Digital Science 报告》[1],这是一份展示区块链技术对科研和学术交流可能影响的最新报告。此外,他们还推出了一项特殊资助,最高可达 30,000 美元,用于研究区块链在科学领域的应用: Catalyst Grant for the Blockchain。申请截止日期为 2018 年 1 月 15 日,范围涵盖从创建加密货币或加密协议到创建影响新技术在科学研究中应用的团体的提案。这清楚地表明学术出版主流非常关注区块链,并希望参与这一新兴技术的应用。

那么,到底什么是区块链?我们可以将这个术语翻译为 “区块链”,这在某种程度上与其基本结构相符。区块链是由称为块的数字结构组成的 “链”,每个块都是带有标准化结构的数据包:包含将其连接到前一个块的密码指针(hash 指针)、时间戳和一组存储的数据。因此,每个块都是一个小型数据库,或者更准确地说,“区块链是一个分布式数据库,由离散实体组成”。区块链的重大概念突破在于,成功地修改一个块而不改变整个链是不可能的。要更改整个链,需要重新计算每个块的密码指针(使用 SHA 256 加密函数创建),如果链足够长,则每次更改操作所需的计算能力将远非轻松,从而使整个操作变得不可行。更难的是,区块链没有中央服务器,可以存储在任意数量的服务器(节点)上。这些节点中的任意部分相互竞争,以执行生成下一个块所需的密码计算(即所谓的 “挖矿”),以换取奖励。

Illustration by Matthäus Wander(Wikimedia)

在历史上的第一个区块链实现案例中,即数字货币比特币,创建新区块所需的计算难度由系统规则集控制,每个节点尝试寻找正确答案,通过改变记录在区块中的一个任意数字(称为随机数)来进行变化。这种加密操作遵循一种名为工作量证明(proof-of-work)的协议,是对问题的穷举攻击的一个示例。奖励以加密货币的形式给予。换句话说,通过进行计算密集型的竞争,“挖矿者”(进行计算竞赛并在其他人之前生成区块的服务器)会获得加密货币作为回报。区块链网络是去中心化的,并且在"挖矿者"之间不断积累更多的计算能力。因此,随着时间的推移,修改区块链网络几乎是不可能的。作为结果,修改链中的数据被认为是不可能的,而在区块链中插入的记录被称为不可变的。

这解决了信息技术中一个长期存在的重大问题:如何相信从任意服务器获得的数字数据?通常,需要存在与现实世界中某个机构相对应的中央权威机构,该机构受到所有相关方的信任。潜在的问题漏洞是显而易见的。比特币的创造者Satoshi Nakamoto通过将已存在的概念相结合,如分布式网络加密信任证明,创造了一种解决方案,以确保在没有中央权威机构的情况下,区块链对匿名用户是可信的。显然,这种可信度不是任何区块链所固有的,而是取决于其特征和实施方式。目前,比特币这种加密货币在其区块链中没有安全问题的历史记录。而对于数百种作为比特币成功的衍生品的山寨币(altcoins),情况并非如此,其中许多明显是欺诈性的,一些甚至涉及严重的安全问题。

对于比特币来说,存储在区块中的数据是网络用户之间的交易,以一种称为Merkle根的结构形式呈现,形成了一个数字的"账本"。但实际上,几乎可以将任何类型的数据存储在比特币或其他类似链中的区块链上。目前,一些初创公司正在初步实施中,提供一种"公证服务",可以将文件永久地"注册"到网络中。研究人员已经可以利用这种公证功能来注册他们的出版物(从而获得不可变的时间记录,证明他们对某一发现的优先权主张)。然而,对于科学研究而言,可预见的应用范围要广泛得多,涵盖了整个研究数据的生产和出版周期。

cadeia de blocos

我的个人兴趣对于在科学研究中使用区块链最近才产生,这是由于一个有些令人不安的发现:和许多人一样,我使用版本控制程序Git来本地管理我的数据、研究等,将其存储在GitHub代码仓库中。Git有效地跟踪每个工作版本,并为每个版本分配一个SHA 256哈希值。因此,没有你的知情,无法篡改你的代码或数据。这就是我原本的想法,太天真了。正如Mike Gerwitz在他的恐怖故事中所强烈展示的那样,不仅可以,而且实际上很容易修改你的数据,甚至是Git记录树的时间记录。这是因为Git内置了这些功能,并且它们并不难使用(可以在Link Intersystems的博客上找到一个快速而清晰的教程)。我脑海中浮现出这样一个场景:一位涉嫌欺诈的研究主任紧张地篡改他的数据库,包括科学家们的个人账户,以逃避惩罚。非常可怕。在这种情况下,如何相信你自己的数据库?即使有像GitHub这样的外部集中机构的支持?

正是在这个时候,我想起了区块链及其不可变性。对于敏感项目(例如人类新药研究)或公共项目(如开放科学),这完全可以为研究数据提供几乎无法通过其他方式获得的信任度。作为一个开放科学的狂热支持者,我迅速意识到区块链作为分散化的信任提供者在其中起到的关键作用。这将解放开放研究免于围绕抄袭的疑虑。这种信任提供的原则可以应用于科学研究的整个生命周期,将数据的收集、分析和呈现统一为一个可靠的环节。

但这还不止于此。区块链技术对科学研究的另一个可能影响是通过加密货币进行直接资助。这将带来一个有趣的前景:用于科学数据研究和发布的同一区块链也可以用于资助这些科学活动。希望促进研究的机构可以使用资金工具实时审核所资助的项目。

这无疑解释了学术出版行业对这项技术的巨大兴趣。掌握了它的人将在这场承诺彻底改变科学界工作方式的竞赛中处于领先地位,并且将持久地保持这一优势。但是,区块链在科学领域真的已经具有应用性了吗?为了尝试更多地了解这个问题,我访问了Blockchain for Science项目的页面,该项目的创建者Soenke Bartling被采访在_Digital Science_的文件中。在他们的常见问题解答中,该项目的创始人已经非常有远见地提出了一些大胆的概念(甚至宣称他的“最终边界”是“多星球人类”),但他明确表示,基于区块链的分散化、不可更改等数据库将是无用的,除非科学家们了解它们的优势并创建一个运动。作者们承担了向学术界提供这种教育的角色。因此,我们可以得出结论,从这个概念阶段开始,将区块链应用于科学研究仍处于早期阶段,尚未进行任何实际应用。

然而,我发现甚至该项目的作者们在一些可能性上仍然忽视了一点:根据他们的说法,信息不兼容、缺乏先前信息、缺乏元数据等问题“最终将得到解决,然后如何组织这些数据的共享呢?”这暗示区块链将在“下一个重要步骤”中发挥作用。事实上,Blockchain for Science项目错过了一个巨大的使用区块链的机会,甚至在信息传播的机会之前。所有这些问题的一个共同点是“各方互动的可靠性问题”,而区块链已经在这方面取得了很大的成功(创建加密货币需要解决“双重支付”等问题)。因此,我相信适当的区块链实施可以解决与数据库可靠性相关的问题(包括数据遗漏)、科学出版可靠性问题(改进或替代同行评审系统)以及“科学资金的透明性”问题(可能创建一个仅有“结果”,即使是理论结果,才能获得项目资金支持的系统,而不是集中式评判)。

我们能否在我们有生之年见证这一天的到来呢?

参考资料:

  1. Science, Digital; van Rossum, Joris (2017): Blockchain for Research. figshare. doi:10.6084/m9.figshare.5607778.v1