免费数据下载(下载数据集网站)
开放数据 (open data) 这个概念自09年奥巴马政府宣布「政府数据默认开放」起已经成为了这个数据革命时代的重要组成部分。但当我们在谈论开放数据时,我们到底在谈论什么,是在说共享数据吗?是在说公开数据吗?
答案是:两者都不是,开放数据并不等同于共享数据,它也不等同于公开数据!
共享数据,顾名思义是将自己掌控的数据在「一定的条件下」与「指定的第三方」共享使用。一个很简单的例子,大家在注册一些服务时(比如申请邮箱,开信用卡等等)都需要提供一定的个人信息,而服务提供方都会注明「信息仅供服务注册使用,不会提供给第三方使用」,这就属于一种消费者和服务提供者之间的基于某种契约的数据共享。
那么什么是公开数据呢?相比与数据共享,公开数据是指「任何人」都有权利访问,但只能在「一定的条件下」获取并使用的数据。这里可以首先看到,数据的受众在公开数据的情况下扩大到了「任何人」,但数据的获取与使用仍旧收到限制。比如,最新的国家人口普查数据任何人都有权利访问,但你只有付费才能获得,且需要在统计局版权规定下进行数据使用。
我们可以看到,上面我们着重点出了两点:
1. 「是谁能使用数据?」,我们关心是否所有人都能用这个数据还是仅一部分人能用
2. 「使用是否有限制?」,我们关心是否数据发布者有利用版权等法律条文或自行定制的条约来限制数据的分发,使用和演绎。
而共享数据和公开数据在这两点上都不能说是没有任何的限制,但信息的无阻碍流通是我们这个 数据时代最关键的,故而我们强调开放数据,就是要破除掉「是谁能使用数据」和「使用是否有限制」上的限制,让「任何人」能够「没有限制」地去使用数据——无论是利用数据进行商业活动还是对数据进行重新的整理编辑再分发。
说到「没有限制」,除了可能的版权等因素造成的「法律限制」来约束我们如何来使用数据,这也同时涉及到另外两个方面:1)数据是否免费能获取?即获取数据这一点上是否有「经济限制」。2)数据本身是否提供在一个机器能轻易处理的格式下,即是否采用「机器可读」格式,是否有「技术限制」。
对于「经济限制」这一点,我们可以看到,在共享数据的情况下,很多时候一些数据提供方都需要你支付一定的费用,可能是现金可能是虚拟货币,才能获得数据。比如数据堂有需要付费的数据,百度文库等在线文档也会需要积分下载。而公共数据,也并不是都免费的,比如上文提到国家人口普查数据,最新的数据需要你付费才能获得(当然,你会说我能网上免费下载到,但此类「灰色数据」后文会再讨论)。而对于开放数据,所哟「原始数据」都应当免费获得,而基于「原始数据」产生的价值服务,例如API,则可以收费。
再说到「技术限制」,一般有两种情况。一种是数据本身分享在一个机器较难处理的格式下,比如很多政府机关的数据喜欢放置在word文档,或者PDF里,这就造成了数据提取的困难,甚至有时候数据无法完全提取。另一种情况是,数据虽然可见可访问,但是本身被锁死在某个软件系统里而无法提取。比如,上海地铁实时客流数据,作为一种公开数据可在网站访问,但是你却无法真正获取数据,因为数据被锁死在flash应用中。这些都是再使用共享数据,公开数据中经常遇到的技术难关。而对于开放数据而言,机器可读是一项基本的条件。数据必须被提供在开放格式下,比如CSV,shapefile等等,拒绝PDF以及复杂的HTML等都是基本的要求。
在文章最后,我们不得不再讨论下「灰色数据」,这部分本身应该收到版权保护的数据,因为中国特有的环境,而可以在互联网上免费获取。但是对于「灰色数据」而言,其在使用中有许多问题。首先,灰色数据本身不是由数据真正的拥有者发布的,从而你无法保证数据的完整性和准确性。其次,虽然你能够免费下载这些数据,但是如果运用于商业,你就时刻面临着原版权方追究你责任的风险。最后,灰色数据没有数据更新的保证,对于一些更新频繁的数据,很难说更新的数据会被及时「盗版」出来,这就造成了依赖于这些数据的服务无法保证其本身品质的问题。
综上,开放数据作为一种免费的、无使用限制的数据资源应当受到我们更多的关注,搞明白共享数据、公开数据、开放数据的差异,则是我们在中国推进开放数据所需做的第一步。