作者:吴丹君律师张振君律师助理
近期,新颜科技、魔蝎科技等多家大数据公司遭公安机关调查。具体原因暂未明晰,主要猜测集中在违法使用网络爬虫技术之上,部分知名大数据公司已主动停止相关“爬虫”业务,整个大数据行业如履薄冰。网络爬虫(WebCrawler)是一种自动抓取网页并提取网页内容的程序[1],其虽为一项中立的数据获取手段,但仍不得触犯法律的红线。《数据安全管理办法(征求意见稿)》首次明确对网络运营者采取“自动化手段访问收集网站数据”提出要求。下文将从数据来源、数据获取方式、数据使用方式三个方面探寻网络爬虫技术的法律红线所在。
一
数据来源合法
案由
案件
著作权侵权纠纷
上海汉涛信息咨询有限公司诉爱帮聚信(北京)科技有限公司(“爱帮网”)著作权侵权纠纷
上海汉涛信息咨询有限公司诉爱帮聚信(北京)科技有限公司著作权侵权纠纷
不正当竞争纠纷
北京微梦创科网络技术有限公司诉北京淘友天下技术有限公司、北京淘友天下科技发展有限公司不正当竞争纠纷
上海汉涛信息咨询有限公司诉爱帮聚信(北京)科技有限公司、爱帮聚信(北京)信息技术有限公司不正当竞争纠纷
深圳市谷米科技有限公司诉武汉元光科技有限公司邵凌霜、陈昴、刘江红、刘坤朋、张翔不正当竞争纠纷
侵犯公民个人信息罪
韦宗坤侵犯公民个人信息罪案
侵犯著作权罪
何超侵犯著作权案
非法获取计算机信息系统数据罪
王某非法获取计算机信息系统数据罪案
余某非法获取计算机信息系统数据罪、传授犯罪方法罪、叶乙非法获取计算机信息系统数据罪
黄甲、黄乙非法获取计算机信息系统数据案
张A、沈乙、沈乙、侯某、凡某某非法获取计算机信息系统数据案
林致均非法获取计算机信息系统数据案
上海晟品网络科技有限公司、侯明强等非法获取计算机信息系统数据案
上表整理了涉及网络爬虫技术的部分判例,目前我国司法实践主要通过著作权侵权、不正当竞争以及侵犯公民个人信息罪、侵犯著作权罪与非法获取计算机信息系统数据罪相关法律规制网络爬虫技术使用行为。
数据来源合法是网络爬虫活动合法的前提。如未依据《网络安全法》第四十一条取得被收集者同意即自动抓取个人信息,网络运营者不仅面临民事纠纷或行政处罚风险,亦涉嫌构成侵犯公民个人信息罪、非法侵入计算机信息系统罪或非法获取计算机信息系统数据罪等相关罪名。年8月,新三板上市公司瑞智华胜被爆非法获取互联网用户cookie等信息30亿条。绍兴警方以涉嫌非法获取计算机信息系统数据罪将瑞智华胜法定代表人、董事及监事刑事拘留。[]
因此,在利用网络爬虫技术访问收集数据时,网络运营者应先考虑可能抓取的数据类型及占比,将个人信息、存在知识产权侵权风险的信息内容、商业秘密或国家秘密等违法性风险较高的数据列入数据爬取负面清单,审慎进行爬取行为。
二
数据获取方式合法
《数据安全管理办法(征求意见稿)》第十六条所称“自动化手段”不同于刑法第二百八十五条的“侵入计算机系统或采取其他技术手段”。如王某非法获取计算机信息系统数据罪案中,被告人王某使用“fox.JSP木马程序”获取保存在中国兽医执业资格考试网站服务器中的5万余组考生注册信息数据。此处的“fox.JSP木马程序”即非《数据安全管理办法(征求意见稿)》所允许的自动化手段。
网络运营者采取自动化手段访问收集网站数据需考虑被爬取方意愿,根据后者设置的robots协议(RobotsExclusionProtocol)、保护知识产权或有关权利的技术措施、产品设计逻辑(验证机制、授权接口等)等要素综合判断允许爬取的数据范围。在北京微梦创科网络技术有限公司(以下简称“微梦公司”)诉北京淘友天下技术有限公司(以下简称“淘友技术”)、北京淘友天下科技发展有限公司(以下简称“淘友科技”)不正当竞争纠纷()中,淘友技术与淘友科技明知新浪微博仅允许第三方通过授权接口收集其用户信息,仍在合作期间超出授权范围抓取并使用新浪微博用户职业信息、教育信息,且在合作终止后继续使用上述信息。二审法院认为,淘友技术、淘友科技的行为违反诚实信用原则,违背公认的商业道德,危害到新浪微博平台用户信息安全,损害微梦公司的合法竞争利益,对微梦公司构成不正当竞争。
此外,采取自动化手段访问收集数据的,不得影响被爬取方的正常运营。网络运营者可将《数据安全管理办法(征求意见稿)》列明的“自动化访问收集流量超过网站日均流量三分之一”这一数值作为参考标准调整或停止自动化手段,降低违规风险。
三
数据使用方式合法
1.数据使用目的合法网络运营者采取自动化手段收集数据时必须明确数据收集目的是研究还是商用,在商用情况下是否存在“搭便车”等不当使用方式。同时,网络运营者不得收集与实现前述目的无关的数据。在上海汉涛信息咨询有限公司诉爱帮聚信(北京)科技有限公司著作权侵权纠纷案中,法院认为,被告所使用的垂直搜索引擎技术本身是合法的,但该技术对特定行业网站的信息利用应控制在合理范围内。被告通过垂直搜索引擎技术自动抓取大众点评网的点评,并几乎全文显示于爱帮网上,该涉案作品已经构成对大众点评网相应点评作品的实质性替代,不合理地损害大众点评网的商业利益,构成不正当竞争。
.个人信息使用方式合法根据报道,魔蝎科技核心产品涉及到访问运营商数据,包括用户通话记录、联系人信息,位置信息等个人敏感信息,此次被查或与此密切相关。[3]
年的《刑法修正案(九)》将《刑法》第二百五十三条之一调整为“侵犯公民个人信息罪”。年6月1日起,最高人民法院、最高人民检察院《关于办理侵犯公民个人信息刑事案件适用法律若干问题的解释()》正式施行,进一步细化公民个人信息的范围、侵犯公民个人信息罪的定罪量刑标准以及侵犯公民个人信息犯罪相关的犯罪竞合、单位犯罪和数量计算等重要问题:
“第五条 非法获取、出售或者提供公民个人信息,具有下列情形之一的,应当认定为刑法第二百五十三条之一规定的‘情节严重’:
……
(三)非法获取、出售或者提供行踪轨迹信息、通信内容、征信信息、财产信息五十条以上的;
(四)非法获取、出售或者提供住宿信息、通信记录、健康生理信息、交易信息等其他可能影响人身、财产安全的公民个人信息五百条以上的;
(五)非法获取、出售或者提供第三项、第四项规定以外的公民个人信息五千条以上的;
(六)数量未达到第三项至第五项规定标准,但是按相应比例合计达到有关数量标准的;
(七)违法所得五千元以上的;
……
实施前款规定的行为,具有下列情形之一的,应当认定为刑法第二百五十三条之一第一款规定的‘情节特别严重’:
……
(三)数量或者数额达到前款第三项至第八项规定标准十倍以上的;
……”
大数据公司利用网络爬虫技术获取个人信息达到上述法条限制数量轻而易举,稍有不慎,大数据公司就可能陷入侵犯公民个人信息罪的泥淖。因此,合法获取个人信息后,网络运营者在使用环节中仍应保持高度的合规意识并落实相关合规措施。
四
结语
不仅是网络爬虫技术的合规使用,大数据行业中各项合规工作的落实均需