评论员观察
提到爬虫,不明所以的朋友可能会有生理上的排斥反应,其实“此虫非彼虫”。作为网络早期产物,爬虫被如今网络上铺天盖地的编程培训广告“新瓶装旧酒”,摇身一变为新兴事物,也吸引不少眼球。然而,这一热词也频频出现在相关司法案件中,甚至有愈演愈烈之势。
爬虫,说白了就是数据抓取。它最早运用于搜索引擎的数据收集,现已广泛应用在互联网产业各大领域,如数据收集整理和挖掘信息等。同时,因相关编程技术不断优化更新,使其技术难度有所降低,爬虫技术也开始“平民化”,个人只需学习相应的代码,即可以运用这一技术。
以技术角度来说,爬虫技术的优势在于高效地为用户从庞杂的信息中获取自己最需要的。但需要注意的是,爬虫的底层逻辑并非单方面地收集,而是数据供给与索取应在你情我愿的条件下促成。而当前的争议在于,通过爬虫技术来获取数据时,这一行为是否会冒犯数据主体。从目前来看,不问自取的爬虫行为仍是常态。
倘若只是收集表层信息,倒也无伤大雅,但随着数据价值日益凸显,一些爬虫技术开始“爬过界”,伸向底层数据,如企业核心数据、商业秘密等。此时,爬虫与扒手无异。这不仅有违“互联互通”的精神实质,损害健康的竞争机制,而且已触及法律底线。
作为中立性技术,爬虫本身并无明显偏向,关键在于管好爬虫技术的使用者。简单来说,要清楚他怎么用,用来做什么,这样做是否合理合法。其实,早期对此也有一个评价标准。网络爬虫自发形成的“君子协定”——robots协议(网络爬虫排除标准),告知了爬虫者可为可不为。但君子协议难防小人。在利益面前,君子协定如同白纸一般无力。因此,要防止爬虫“爬过界”,关键还在明确边界与秩序,规制恶意爬虫。
一方面,要进一步明晰法律边界。针对当前存在的司法模糊地带,要尽快研究出台相应的法律法规,比如,对网络平台或者个人通过技术手段抓取别的平台数据时,可从结果导向来判断其行为是否具有正当性。若存在不正当或恶意爬取行为,应当依法严惩,形成震慑。
另一方面,在互联互通的语境下,也应构建相应的秩序。在提高法律底线的前提下,不妨将“君子协定”进一步优化完善,引导爬虫技术有序运用。比如,允许数据生产者、控制者在一些不涉及核心价值的领域,进一步开放数据,让爬虫者基于规定协议,有序获取;同样,可通过许可使用、交换、购买等方式,共享相应的数据服务。如此一来,既符合互联互通的价值导向,也可以减少爬取与反爬之间的恶性循环。
眼下,爬虫技术所触碰到的数据可能不只是其所有者,同样会涉及个人用户的隐私,这类数据集合还会牵涉到社会公共利益,这就更需要我们管好每位使用者,莫让爬虫变为“扒手”。 (陈文杰)