作者乐康
【导读】近日,多家大数据风控平台出事。51信用卡、魔蝎科技、欣彦科技、工信宝都被杭警方严查。上述企业的主要经营范围是利用爬虫技术收集用户数据,用于网贷客户的信用评估。爬虫技术的使用不仅仅是在风控行业。据笔者了解,游戏行业在推广产品时也会利用爬虫技术获取用户信息,了解用户喜好,从而提高游戏推广的精准度。本文主要讨论了利用爬虫技术抓取数据的法律边界,同时也讨论了在游戏产业推广中如何合法使用爬虫技术。
使用爬虫技术的“反面教材”
今日头条服务器被非法抓取数据案。
罪名:非法获取计算机信息系统数据罪。
沪上某网络公司CTO侯某某指使该公司技术人员郭某破解北京网络科技有限公司的反抓取措施,使用“TT _蜘蛛”文件抓取视频数据,造成被害人北京网络科技有限公司技术服务费损失人民币2万元,经鉴定,“TT _蜘蛛”文件含有通过头条视频列表、分类视频列表、相关视频、评论三个接口抓取今日头条服务器数据的逻辑,并将结果存储在数据库中。在数据抓取过程中,用假的device_id绕过服务器的身份验证,用假的UA和IP绕过服务器的访问频率限制。
法院认为,被告单位及相关责任人员利用技术手段获取计算机信息系统中存储的数据,情节严重。其行为已构成非法获取计算机信息系统数据罪,应予惩处。
微博非法获取新浪用户信息案
案由:不正当竞争纠纷
法院认为,脉脉在合作期间超越许可范围抓取并使用新浪微博用户的职业信息、学历信息,在合作终止后仍长期将来自新浪微博的用户信息作为非脉脉用户的相关信息在脉脉软件中使用;同时,非法获取并显示用户手机通讯录联系人与新浪微博用户在一次性联系人中的对应关系,使得大量非脉脉用户的新浪微博信息和好友关系显示在脉脉软件中,便于脉脉软件扩大自身用户群。这种行为属于不正当竞争。
“爬虫”是无辜的。为什么会被调查?
爬虫是一种网络搜索技术,根据搜索目的选择一批网页。将这些网页的链接地址作为种子URL,将这些种子放入URL队列中进行抓取。爬虫从待爬取的URL队列中访问该URL对应的页面,对页面进行解析,将链接地址转换为IP地址,然后交给web下载器下载,以此类推,直到URL队列中的所有URL都爬取或满足系统的某些停止条件。
要说爬虫技术为什么被调查,笔者认为应该从技术如何使用和技术收集什么两个方面来分析。
使用爬虫技术的合规性要求
《刑法》第二百八十五条第二款将非法获取计算机信息系统数据罪规定为“侵入前款规定以外的计算机信息系统或者使用其他技术手段获取计算机信息系统中存储、处理或者传输的数据”,即使用爬虫技术构成本罪的手段有两种:一是“侵入”,二是使用其他技术手段。
在“今日头条服务器被非法抓取数据”的案例中,我们注意到了一个关键词“绕过”。通俗的理解就是,我本来设置了门禁阻止你进来,你却用技术手段避开了我设置的门禁系统,侵入了我的领地。本案中,被告利用爬虫技术绕过今日头条网站服务器端的身份验证系统,其行为的性质实际上属于非法侵入被害单位的计算机信息系统。
当一家公司在游戏推广中需要使用爬虫技术收集数据时,技术人员要注意计算机信息系统中是否设置了robots.txt以及robots.txt对爬虫程序的授权范围。TES。TXT,又称爬虫协议、机器人协议等。,全称是“网络爬虫排除标准”,是国际互联网界为了保证搜索技术服务于人类而逐渐建立的共同道德规范。主要内容如下:爬虫访问一个站点时,会先检查该站点的根目录中是否存在robots.txt,如果存在,爬虫会根据文件中的内容确定访问范围;如果该文件不存在,所有爬网程序将能够访问网站上不受密码保护的所有页面。。
爬虫技术数据采集的合规性要求
根据《最高人民法院、最高人民检察院关于办理危害计算机信息系统安全刑事案件适用法律若干问题的解释》第一条规定,获取支付结算、证券交易、期货交易等网络金融服务身份认证信息十组以上的;获取上述以外的500组以上的身份认证信息,将达到非法获取计算机信息系统数据罪的追诉标准。该解释将非法获取“数据”的范围限定为身份认证信息。第十一条第二款计算机解释本解释所称身份认证信息,是指用于确认用户对计算机信息系统的操作权限的数据,包括账号、密码、口令、数字证书等。
在“今日头条服务器被非法抓取数据”一案中,被告非法抓取今日头条的视频数据,不属于身份认证信息。为什么他能被定罪?在我看来,这涉及到信息和数据的区别。数据是信息的载体,是一系列的字符和代码,而信息是具体的内容。信息公开不等于数据公开。从本罪的法益来看,非法获取计算机信息系统数据罪的法益是计算机信息系统的数据安全。只有当数据所有者允许公众或他人获取数据时,数据才失去了法益保护的必要性,爬虫才能收集这些数据。本案中今日头条没有向被告开放接口,明显没有公开视频资料的意思,应当受到法律保护。
“公民个人信息”是指以电子或者其他方式记录的,能够单独或者结合其他信息识别特定自然人身份或者反映特定自然人活动情况的各类信息,包括姓名、身份证号、通信联系方式、住址、账户密码、财产状况、行踪轨迹等。《网络安全法》规定,合法收集公民个人信息,取得被收集人同意和匿名是两个原则。
如果利用爬虫技术非法获取的数据是公民个人信息,则可能构成侵犯公民个人信息罪与非法获取计算机信息系统数据罪的竞合。此时,其中一项重罪将受到惩罚。比如通过爬虫获取了100多组公民支付结算的身份认证信息。根据计算机信息系统数据犯罪的追诉标准,情节特别严重,量刑档次为三年以上七年以下有期徒刑;按照侵犯公民个人信息罪的追诉标准,只达到“情节严重”,分级量刑是三年以下有期徒刑或者拘役。故以非法获取计算机信息系统数据罪定罪处罚。
爬虫技术与不正当竞争
当爬虫技术收集“其他数据”时,例如客户在自行车共享中使用的区域数据、实时公交运营的大数据、社交媒体用户信息等。,这些不涉及公民身份信息,与虚拟财产无关的数据资源,能否受到法律保护?在新浪微博用户信息被非法获取的案例中给出了答案。法院通过反不正当竞争法对原告声称保护的新浪微博用户信息给予救济。
在企业推广中使用爬虫技术抓取用户在游戏平台中的评论内容和评分数据,不仅公开而且没有反爬虫技术措施,是否可行?笔者认为,并不是所有的数据都能受到反不正当竞争法的保护,至少满足两个条件。第一,有市场价值的有用数据;第二,当事人在创造数据的过程中付出了必要的劳动和投入。游戏平台中的用户评论区内容和评分数据可以为玩家引导游戏消费;作为平台方,只是为用户提供了一个评论每款游戏的平台,并没有对评论内容进行处理,也没有付出必要的劳动,所以不应该受到反不正当竞争法的保护。当然,如果游戏平台方设置了限制下载、访问次数等反爬虫措施,则需要授权抓取数据,否则属于侵权。
我国《反不正当竞争法》第二条规定,经营者在市场交易中,应当遵循自愿、平等、公平、诚实信用的原则,遵守公认的商业道德。脉脉软件要求用户在注册脉脉账号时上传其手机通讯录联系人,从而非法获取联系人与新浪微博中相关用户的对应关系,将这些人显示为脉脉用户的曾经联系人,并将非法抓取的该人的新浪微博头像、姓名、职业信息、学历信息、个人标签等信息用于曾经联系人中。脉脉软件主要是职场社交应用,新浪微博是社交软件。但这些外在形式上的差异并不影响双方提供在线社交服务的本质。脉脉行为抢夺他人劳动成果,提供同质化服务,对创新和市场竞争没有积极意义。然而,脉脉的行为是在未经新浪公司许可的情况下,利用网络爬虫技术进入新浪微博的服务器后台抓取相关数据。这种获取信息的行为本身明显违反了公认的商业道德和诚信标准。
综上所述,笔者建议使用爬虫技术要在合法合规的前提下进行,“公开信息”不等于“共享数据”,不要从“蜘蛛侠”沦为“扒手”!
作者简介:乐康律师专注于网络游戏和电子竞技的法律实务研究,擅长为网络游戏公司提供产品设计、运营、推广、公司治理、版权纠纷、刑事合规等方面的法律解决方案;为电竞俱乐部提供选手经纪合同、主播合同纠纷、商业合作等方面的法律服务。