我国爬虫法即将出台!

2023-11-07 17:50
文章标签 我国 爬虫 即将 出台

本文主要是介绍我国爬虫法即将出台!,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

点击蓝色“5分钟学Python”关注我丫

加个“星标”,每天一起快乐的学习

本文经授权转载自 云端数据IP法律观察(ID:YDdatalaw)

本文共3300字,阅读建议用时6分钟。 

前言

马蜂窝陷抄袭点评丑闻

2018年10月20日,一篇《独家|估值175亿的旅游独角兽,是一座僵尸和水军构成的鬼城?》的文章一出世便走红网络。文中称百亿体量的马蜂窝,其中2100万条“真实点评”中有1800万条是通过机器人从大众点评和携程等竞争对手抄袭而来。通过语义分析、数据挖掘,发现了7454个抄袭账号,平均每个账号抄袭搬运了数千条点评,合计抄袭572万条餐饮点评和1221万条酒店点评,占官网声称点评数85%。

马蜂窝回应称,点评内容在马蜂窝整体数据量中仅占比2.91%,涉嫌虚假点评的账号数量更是微乎其微,并已经进行清理。但恐怕已无法洗脱自己存在爬虫行为的嫌疑。

头条爬虫案件

2017年11月24日,被告单位上海晟品网络科技有限公司系有限责任公司,于2016年至2017年间采用技术手段抓取被害单位北京字节跳动网络技术有限公司服务器中存储的视频数据,并由侯某某指使被告人郭某破解北京字节跳动网络技术有限公司的防抓取措施,使用“tt_spider”文件实施视频数据抓取行为,造成被害单位北京字节跳动网络技术有限公司损失技术服务费人民币2万元。最终法院判决被告人张某某、宋某、侯某某有期徒刑各十个月并处罚金人民币四万元。

百度诉360违反爬虫协议案

2014年8月7日,围绕360搜索引擎是否违反Robots协议(也称爬虫协议、机器人协议等)引发的不正当竞争纠纷案,北京市第一中级人民法院今日作出一审判决,认为被告北京奇虎科技有限公司的行为违反了《反不正当竞争法》相关规定,应赔偿北京百度网讯科技有限公司、百度在线网络技术(北京)有限公司经济损失及合理支出共计70万元,同时驳回百度公司其他诉讼请求。

恶意爬虫是什么?

在回答这个问题之前,首先应当明确网络爬虫是什么?

网络爬虫就如同一只小蚂蚁,它的作用是搜集网页上的信息或数据,然后把搜集到的信息或数据搬运到小窝(数据库)里。所以爬虫不生产数据,它只是搬运数据。

而网络爬虫又分为善意爬虫和恶意爬虫,搜索引擎的爬虫就属于善意爬虫,比如百度搜索引擎的爬虫叫做百度蜘蛛(Baiduspider)。善意爬虫严格遵守Robots协议规范爬取网页数据(如URL),它的存在能够增加网站的曝光度,给网站带来流量。

与之相对的是恶意爬虫,它无视Robots协议,对网站中某些深层次的、不愿意公开的数据肆意爬取,其中不乏个人隐私或者商业秘密等重要信息。并且恶意爬虫的使用方希望从网站多次、大量的获取信息,所以其通常会向目标网站投放大量的爬虫。如果大量的爬虫在同一时间对网站进行访问,很容易导致网站服务器过载或崩溃,造成网站经营者的损失。

注:Robots协议属于典型的“君子协议”,它的目的是告知网络爬虫的编写者,哪些数据是可以被收集的,哪些数据是不能被收集的,但是如果网络爬虫程序的编写者不遵守Robots协议,想要强行爬去网站的数据时,Robots协议从技术上是无法阻止程序对越过协定爬取协议中不允许爬取的数据的。

恶意爬虫的现状

据统计,我国2017年互联网流量有42.2%是由网络机器人创造的,其中恶意机器(主要为恶意爬虫)流量占到了21.80%。   

(数据来源:腾讯安全云鼎实验室)

在出行领域,恶意爬虫的主要目标是12306网站。我们日常使用的很多抢票软件上的票务信息就是由恶意爬虫不断的爬取12306网站的信息而来的。它们对12306网站的票务信息进行暴力爬取,不断的对网站提出刷新请求,于是12306网站时常因负载过大而崩溃,对我们的网络购票造成了严重的影响。

在社交领域,恶意爬虫的主要目标是在各类点评App及网站,前文所述的“马蜂窝抄袭点评”就是恶意爬虫应用在点评方面最好的例证。

而在电商领域,我们熟知的价格比对平台就是通过爬虫爬取诸如淘宝、京东等大型电商的商品价格数据,之后将数据整合,放在比对网站上供用户对比。

(数据来源:腾讯安全云鼎实验室)

恶意爬虫带来的法律问题

1.侵犯著作权

恶意爬虫会爬取某些网站(尤其是小说网站)上的文章、图片等信息,并将爬取到的文章或图片发布在自己的网站上以此获利,此种方式可能侵犯著作权中的信息网络传播权。例如我们在各类盗版网站中搜索到的小说或文章,就是盗版网站的运营方通过恶意爬虫从版权方网站所爬取的内容。

除开公司使用的爬虫之外,还有很多个人使用的爬虫,例如毕业年级的大学生为了搜集论文所需的各类数据,但是依靠人工搜集的方法费时费力,此时他们可能会使用爬虫帮助他们进行搜集。相对于公司的爬虫来说,个人对于爬虫的使用更为随意,他们中的大多数都不会遵守网站的Robots协议,而是根据自己的需求进行暴力爬取,这同样会引起著作权侵权问题。

2.侵犯商业秘密

如果恶意爬虫在爬取信息的过程中,无视网站经营者设置的Robots协议及各类保护措施,接触、保存甚至披露了一般用户无法访问的信息,而该信息又构成商业秘密,则恶意爬虫的行为存在侵犯他人商业秘密的可能。

3.侵犯个人隐私或个人信息

同样如果网络爬虫突破了网站经营者设置的保护措施,不仅可能接触到商业秘密,还可能接触到存储于后台服务器中的用户个人隐私或个人信息。

例如2017年3月24日,58同城简历数据泄露事件。某些淘宝电商在淘宝按照0.2到0.3元一条的价格售卖“58同城简历数据”,并且700元可以购买一套采集58数据的软件。而这些被泄露资料的求职者均在58同城上投递了简历。多家安全机构表示,该采集软件是一个恶意爬虫工具,爬虫软件可利用漏洞爬取个人信息。

如果网站或软件对我们的个人信息没有采取专门的安全保护措施或者采取的安全保护措施不够,那么我们的个人信息将容易被恶意爬虫所爬取并利用。

4.构成不正当竞争

恶意爬虫对网站数据的爬取很可能会触犯《反不正当竞争法》第二条、第十二条等条文的规定,构成不正当竞争。例如在2016年12月30日,北京知识产权法院作出的判决中((2016)京73民终588号),非法抓取使用“新浪微博”用户信息的“脉脉”被判赔200万元。

而在2016年5月26日上海知识产权法院宣判的“大众点评诉百度案”((2016)沪73民终242号)中,法官认为“百度”通过技术手段,从“大众点评”获取点评信息,并大量、全文使用用于充实自己的经营内容。此种使用方式,实质上是替代其他经营者向用户提供信息,其使用行为具有明显的“搭便车”、“不劳而获”的特点,给“大众点评”造成损害。故“百度”的上述行为,具有不正当性,构成不正当竞争。

5.侵入计算机系统,构成刑事犯罪

如果恶意爬虫强行突破某些特定被爬方的技术措施,则可能构成刑事犯罪行为。

《刑法》第二百八十五条规定,违反规定侵入国家事务、国防建设、尖端科学技术领域的计算机信息系统的,不论情节严重与否,构成非法侵入计算机信息系统罪。违反国家规定,侵入前款规定以外的计算机信息系统或者采用其他技术手段,获取该计算机信息系统中存储、处理或者传输的数据,或者对该计算机信息系统实施非法控制,情节严重的,处三年以下有期徒刑或者拘役,并处或者单处罚金;情节特别严重的,处三年以上七年以下有期徒刑,并处罚金。提供专门用于侵入、非法控制计算机信息系统的程序、工具,或者明知他人实施侵入、非法控制计算机信息系统的违法犯罪行为而为其提供程序、工具,情节严重的,依照前款的规定处罚。

《刑法》第二百八十六条还规定,违反国家规定,对计算机信息系统功能进行删除、修改、增加、干扰,造成计算机信息系统不能正常运行,后果严重的,构成犯罪,处五年以下有期徒刑或者拘役;后果特别严重的,处五年以上有期徒刑。而违反国家规定,对计算机信息系统中存储、处理或者传输的数据和应用程序进行删除、修改、增加的操作,后果严重的,也构成犯罪,依照前款的规定处罚。

《刑法》第二百五十三条之一规定,违反国家有关规定,向他人出售或者提供公民个人信息,情节严重的,处三年以下有期徒刑或者拘役,并处或者单处罚金;情节特别严重的,处三年以上七年以下有期徒刑,并处罚金。违反国家有关规定,将在履行职责或者提供服务过程中获得的公民个人信息,出售或者提供给他人的,依照前款的规定从重处罚。窃取或者以其他方法非法获取公民个人信息的,依照第一款的规定处罚。单位犯前三款罪的,对单位判处罚金,并对其直接负责的主管人员和其他直接责任人员,依照各该款的规定处罚,即构成“侵犯公民个人信息罪”。

网络爬虫法

2019年5月28日,国家互联网信息办公室就《数据安全管理办法(征求意见稿)》(以下简称“征求意见稿”)公开征求意见,这是我国数据安全立法领域的里程碑事件。以法律的形式规范数据收集、存储、处理、共享、利用以及销毁等行为,强化对个人信息和重要数据的保护,可维护网络空间主权和国家安全、社会公共利益,保护自然人、法人和其他组织在网络空间的合法权益。以网络爬虫为主要代表的自动化数据收集技术,在提升数据收集效率的同时,如果被不当使用,可能影响网络运营者正常开展业务,为回应上述问题,征求意见稿第十六条确立了利用自动化手段(网络爬虫)收集数据不得妨碍他人网站正常运行的原则,并明确了严重影响网站运行的具体判断标准,这将对规范数据收集行为,保障网络运营者的经营自由和网站安全起到积极的作用。

本文观点

我国目前对于网络爬虫的规制集中在《刑法》有关计算机信息系统犯罪的法律条文之中,对于《刑法》之外的网络爬虫行政规制或民事侵权救济,我国并未作出针对性的规定。大部分时候对于恶意爬虫侵权问题,法院适用的是《反不正当竞争法》来对被侵权人进行救济。但是正如笔者在《体育赛事直播的著作权问题》一文中所说的,《反不正当竞争法》属于事后追责的法律,对于网络爬虫问题更应该在事前予以规制。而我国目前对于网络爬虫规制的现状是等到网络爬虫造成了损失,再想办法去弥补。但是很多损害是没有办法弥补的,比如个人隐私或商业秘密的泄露,所以总是寄希望于《反不正当竞争法》能够帮助我们挽回损失是不现实的。

所以,笔者认为我国应当制定针对网络爬虫的相关标准,将Robots协议中的要求吸纳进标准之中,完善相关的数据安全法律法规,将网络爬虫引向合法轨道。明确网络爬虫应当按照何种规则行动,何种行为可为,何种行为不可为,从而抑制目前我国网络爬虫野蛮生长的态势。

待遇50K起,这几个公众号在招人

这篇关于我国爬虫法即将出台!的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/365300

相关文章

Python3 BeautifulSoup爬虫 POJ自动提交

POJ 提交代码采用Base64加密方式 import http.cookiejarimport loggingimport urllib.parseimport urllib.requestimport base64from bs4 import BeautifulSoupfrom submitcode import SubmitCodeclass SubmitPoj():de

Python:豆瓣电影商业数据分析-爬取全数据【附带爬虫豆瓣,数据处理过程,数据分析,可视化,以及完整PPT报告】

**爬取豆瓣电影信息,分析近年电影行业的发展情况** 本文是完整的数据分析展现,代码有完整版,包含豆瓣电影爬取的具体方式【附带爬虫豆瓣,数据处理过程,数据分析,可视化,以及完整PPT报告】   最近MBA在学习《商业数据分析》,大实训作业给了数据要进行数据分析,所以先拿豆瓣电影练练手,网络上爬取豆瓣电影TOP250较多,但对于豆瓣电影全数据的爬取教程很少,所以我自己做一版。 目

Golang 网络爬虫框架gocolly/colly(五)

gcocolly+goquery可以非常好地抓取HTML页面中的数据,但碰到页面是由Javascript动态生成时,用goquery就显得捉襟见肘了。解决方法有很多种: 一,最笨拙但有效的方法是字符串处理,go语言string底层对应字节数组,复制任何长度的字符串的开销都很低廉,搜索性能比较高; 二,利用正则表达式,要提取的数据往往有明显的特征,所以正则表达式写起来比较简单,不必非常严谨; 三,使

Golang网络爬虫框架gocolly/colly(四)

爬虫靠演技,表演得越像浏览器,抓取数据越容易,这是我多年爬虫经验的感悟。回顾下个人的爬虫经历,共分三个阶段:第一阶段,09年左右开始接触爬虫,那时由于项目需要,要访问各大国际社交网站,Facebook,myspace,filcker,youtube等等,国际上叫得上名字的社交网站都爬过,大部分网站提供restful api,有些功能没有api,就只能用http抓包工具分析协议,自己爬;国内的优酷、

Golang网络爬虫框架gocolly/colly(三)

熟悉了《Golang 网络爬虫框架gocolly/colly 一》和《Golang 网络爬虫框架gocolly/colly 二》之后就可以在网络上爬取大部分数据了。本文接下来将爬取中证指数有限公司提供的行业市盈率。(http://www.csindex.com.cn/zh-CN/downloads/industry-price-earnings-ratio) 定义数据结构体: type Zhj

014.Python爬虫系列_解析练习

我 的 个 人 主 页:👉👉 失心疯的个人主页 👈👈 入 门 教 程 推 荐 :👉👉 Python零基础入门教程合集 👈👈 虚 拟 环 境 搭 建 :👉👉 Python项目虚拟环境(超详细讲解) 👈👈 PyQt5 系 列 教 程:👉👉 Python GUI(PyQt5)文章合集 👈👈 Oracle数据库教程:👉👉 Oracle数据库文章合集 👈👈 优

urllib与requests爬虫简介

urllib与requests爬虫简介 – 潘登同学的爬虫笔记 文章目录 urllib与requests爬虫简介 -- 潘登同学的爬虫笔记第一个爬虫程序 urllib的基本使用Request对象的使用urllib发送get请求实战-喜马拉雅网站 urllib发送post请求 动态页面获取数据请求 SSL证书验证伪装自己的爬虫-请求头 urllib的底层原理伪装自己的爬虫-设置代理爬虫coo

Python 爬虫入门 - 基础数据采集

Python网络爬虫是一种强大且灵活的工具,用于从互联网上自动化地获取和处理数据。无论你是数据科学家、市场分析师,还是一个想要深入了解互联网数据的开发者,掌握网络爬虫技术都将为你打开一扇通向丰富数据资源的大门。 在本教程中,我们将从基本概念入手,逐步深入了解如何构建和优化网络爬虫,涵盖从发送请求、解析网页结构到保存数据的全过程,并讨论如何应对常见的反爬虫机制。通过本教程,你将能够构建有效的网络爬

0基础学习爬虫系列:网页内容爬取

1.背景 今天我们来实现,监控网站最新数据爬虫。 在信息爆炸的年代,能够有一个爬虫帮你,将你感兴趣的最新消息推送给你,能够帮你节约非常多时间,同时确保不会miss重要信息。 爬虫应用场景: 应用场景主要功能数据来源示例使用目的搜索引擎优化 (SEO)分析关键词密度、外部链接质量等网站元数据、链接提升网站在搜索引擎中的排名市场研究收集竞品信息、价格比较电商网站、行业报告制定更有效的市场策略舆情

0基础学习爬虫系列:程序打包部署

1.目标 将已经写好的python代码,打包独立部署或运营。 2. 环境准备 1)通义千问 :https://tongyi.aliyun.com/qianwen 2)0基础学习爬虫系列–网页内容爬取:https://blog.csdn.net/qq_36918149/article/details/141998185?spm=1001.2014.3001.5502 3. 步骤 1)不知道