互联网时代充斥着海量数据。这些数据看似不起眼,但在算法加持下,成为商家竞相争夺的资源。数据生产非一日之功,非一人之力。在数据的巨大市场价值驱动下,数据爬取行为成为不少商家获取数据的首选。那么,数据可以爬取吗?什么样的爬取是不被允许的?我们从两起关于数据爬取的案例中探个究竟。
在百度地图爬取大众点评网用户评论案中,涉案的百度地图不仅有导航定位功能,还为网络用户提供商户信息查询、团购等服务。为吸引更多用户,百度地图大量爬取大众点评网上的用户评论。法院认为,百度地图大量使用大众点评网的点评信息,替代了大众点评网向网络用户提供信息,攫取了大众点评网的流量和交易机会,导致大众点评网的流量减少,给大众点评网造成了损害,构成不正当竞争。
在“鹰击”系统爬取微博数据案中,“鹰击”系统不仅爬取了微博前台的公开数据,还绕过防范设置爬取了微博后台的非公开数据。“鹰击”系统爬取数据后,还进一步展示和分析微博平台的数据,最终形成数据分析报告提供给用户。法院认为,“鹰击”系统这一行为干扰了微博平台的正常运行,给微博增加了运营成本,影响了微博经营者对外授权并获得相关收益,构成不正当竞争。
从上述两起案件可知,数据是可以爬取的,但是爬取行为并不都是正当行为。如果爬取的内容达到实质替代数据来源网站的程度,则是一种“搭便车”行为,会造成对同业竞争者的损害。此外,绕过被爬取对象设定的访问权限或者破坏网站所设定的技术措施爬取非公开数据的行为,会干扰被爬取方的正常运行,给被爬取方造成损害,也属于不正当竞争行为。
有观点认为,技术具有中立性,如果能够绕过技术屏障爬取数据,恰恰体现了技术的进步,不具有可责性。这一说法有待商榷。因为技术本身虽然不具有可责性,但研发和使用技术的人对于技术的功能和目的是清楚和明晰的,其将技术作为手段实施不当的行为,当然具有可责性。
还有观点认为,数据来源于用户,并不能视为某一商家的财产而由其所独有,应当允许自由利用。这一观点有其可取之处,但绝非不当爬取数据的正当理由。数据本质上是信息的集合,数据的来源是多元的,可能来源于用户,也可能来源于客观事实,比如天气信息、地理信息。无论数据来源于哪里,数据持有者只要对数据生成进行了必要投入,就应当得到保护。
数据爬取行为是众多数据利用和处理行为之一。司法实践中,涉及数据的不当行为还包括未经许可不当使用他人数据产品;不当获取数据后形成并提供自己的数据产品;污染数据的刷单刷量;破坏或干预数据生成;设置Robots协议限制特定主体抓取数据等。
对于这些涉数据的不当行为,法律提供的保护路径也比较多,涵盖了著作权法、反不正当竞争法及反垄断法。比如,既可以将数据产品作为汇编作品或计算机软件作品提起侵害著作权的诉讼,也可针对抓取非公开数据的行为提起侵害商业秘密诉讼、针对刷单刷量行为提起虚假宣传诉讼,还可以针对不予开放数据接口行为提起的反垄断诉讼等。但由于多数情况下数据不具有独创性,也不具有创造性或秘密性,传统的知识产权部门法在保护数据过程存在不适配之处。为此,有必要为数据赋权,以促进数据的交易、流通,同时保护数据链条上相关者利益。
数据的无形性、非消耗性,使得数据与知识产权的保护客体有着天然的亲缘。笔者建议在为数据创设权利时,充分借鉴知识产权的权利设计模式。同时,由于数据所涉利益主体具有多元性和交叉性,既涉及数据收集、加工主体的利益,也涉及个人信息和公共利益。因此,为数据提供的保护应当为弱保护,仅赋予数据有限的排他权。在具体权项设计上,应着重针对数据的持有、公开、利用、破坏等典型的数据不当行为创设相应的权利类型,并辅以相应的权利限制制度。