想获得网站访问者的联系方式吗,这篇文章全讲透了

2024-02-05 10:50

本文主要是介绍想获得网站访问者的联系方式吗,这篇文章全讲透了,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

随着大数据和人工智能的火爆,网络爬虫也被大家熟知起来。随之也出现一个问题,爬取隐私数据是违法的。其实,网络爬虫作为一门技术,技术本身是不违法的,且在大多数情况下,大家都可以放心的使用。但也有特殊情况,就是涉及到隐私数据。

触碰底线的隐私数据:

· 我想要访问某网站的手机号码,可以吗?

· 我想要朋友圈数据

今天跟大家说说隐私数据的问题,弄清楚了这些你才算是懂得大数据采集/网络爬虫技术,从而恰当好处地运用。

隐私数据包括哪些?

  1.  个人登录的身份、健康状况。网络用户在申请上网开户、个人主页、免费邮箱以及申请服务商提供的其他服务(购物、医疗、交友等)时,服务商往往要求用户登录姓名、年龄、住址、居民身份证编号、工作单位等身份和健康状况,服务商有义务和责任保守个人秘密,未经授权不得泄露。

如“凤凰网站”隐私权保护声明中指出:“本网站将对您所提供的资料进行严格的管理及保护,本网站将使用相应的技术,防止您的个人资料丢失、被盗用或遭篡改。”

  1. 个人的信用和财产状况,包括信用卡、电子消费卡、上网卡、上网帐号和密码、交易帐号和密码等。个人在上网、网上消费、交易时,登录和使用的各种信用卡、帐号均属个人隐私,不得泄露。
     

  1. 邮箱电址,邮箱地址同样是个人隐私,用户大多数不愿将之公开。掌握、搜集用户的邮箱并将之公开或提供给他人,致使用户收到大量的广告邮件、垃圾邮件或遭受攻击而不能正常使用,使用户受到干扰,显然也侵犯了用户的隐私权。
  2. 网络活动踪迹。个人在网上的活动踪迹,如IP地址、浏览踪迹、活动内容,均属个人的隐私。

所以,以上触碰底线的隐私数据,前嗅都做不到。浏览器不能公开访问的内容,属于黑客行为。

前嗅所有公开数据。大家可以在互联网上看见的、都属于公开的数据。

​​​​​​​新闻类网站

新闻类网站,所有网站上能看到的东西都是可以采集的哦~

可以采集的内容包括:标题;作者;发布时间;新闻来源;二级标题;摘要;内容;视频网址;图片链接;语言;新闻类型;发布状态;删除状态;网址;网站名;内容源码等。

  1. 论坛类网站

论坛类网站,能采集到的,包括:帖子;发帖人;发帖时间;发帖数;发帖人关注数;发帖内容,回复内容等。

  1. 招聘类网站

招聘类网站,需要重点强调一下,需要付费才能看到的简历,不能采集!非公开的应聘者简历不能采集!

能采集的包括:公司名;招聘岗位;网页链接;职位分类;工作地点;专业需求;公司介绍;投递地址;所属行业;工作内容;工作要求;其他信息等。

  1. 企业信息类网站

应相关法律法规要求,全国工商信息系统,不能采集!

可以采集的网站中,能采集的内容包括:统一信用代码;纳税人识别号;注册号;组织机构代码;企业类型;所属行业;核准日期;登记机关;所属地区;英文名;曾用名;参保人数;人员规模;营业期限;企业地址;经营范围;法人公司分布等。

  1. 电商类网站

电商网站是否可以采集需要提前与技术顾问沟通,浏览电商网站某产品的用户手机号码不能采集!

可以采集的内容:价格;名字;关键词;图片链接;付款人数;链接地址等。

  1. 黄页类网站

黄页类网站和新闻类网站相同,基本上所有公开的信息都可以采集~

可以采集的内容:联系人;联系电话;公司名;网址等。

  1. 搜索引擎类

搜索引擎需要用户提供登录账号以及关键词,配置很简单,采集的时候无效数据会比较多。采集的内容当然也是能看到的啦~

  1. 海量网站配置

这个海量网站配置就有点厉害了,这项主要针对需要采集整个行业信息网站的用户,可以将上万个网站放入软件中,通过软件强大的处理功能,进行数据采集,从而获取全面的行业信息。

这篇关于想获得网站访问者的联系方式吗,这篇文章全讲透了的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/680679

相关文章

nginx部署https网站的实现步骤(亲测)

《nginx部署https网站的实现步骤(亲测)》本文详细介绍了使用Nginx在保持与http服务兼容的情况下部署HTTPS,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值... 目录步骤 1:安装 Nginx步骤 2:获取 SSL 证书步骤 3:手动配置 Nginx步骤 4:测

C#实现获得某个枚举的所有名称

《C#实现获得某个枚举的所有名称》这篇文章主要为大家详细介绍了C#如何实现获得某个枚举的所有名称,文中的示例代码讲解详细,具有一定的借鉴价值,有需要的小伙伴可以参考一下... C#中获得某个枚举的所有名称using System;using System.Collections.Generic;usi

速盾高防cdn是怎么解决网站攻击的?

速盾高防CDN是一种基于云计算技术的网络安全解决方案,可以有效地保护网站免受各种网络攻击的威胁。它通过在全球多个节点部署服务器,将网站内容缓存到这些服务器上,并通过智能路由技术将用户的请求引导到最近的服务器上,以提供更快的访问速度和更好的网络性能。 速盾高防CDN主要采用以下几种方式来解决网站攻击: 分布式拒绝服务攻击(DDoS)防护:DDoS攻击是一种常见的网络攻击手段,攻击者通过向目标网

使用JS/Jquery获得父窗口的几个方法(笔记)

<pre name="code" class="javascript">取父窗口的元素方法:$(selector, window.parent.document);那么你取父窗口的父窗口的元素就可以用:$(selector, window.parent.parent.document);如题: $(selector, window.top.document);//获得顶级窗口里面的元素 $(

49个权威的网上学习资源网站

艺术与音乐 Dave Conservatoire — 一个完全免费的音乐学习网站,口号是“让每一个人都可以接受世界级的音乐教育”,有视频,有练习。 Drawspace — 如果你想学习绘画,或者提高自己的绘画技能,就来Drawspace吧。 Justin Guitar — 超过800节免费的吉他课程,有自己的app,还有电子书、DVD等实用内容。 数学,数据科学与工程 Codecad

BT天堂网站挂马事件后续:“大灰狼”远控木马分析及幕后真凶调查

9月初安全团队披露bt天堂网站挂马事件,该网站被利用IE神洞CVE-2014-6332挂马,如果用户没有打补丁或开启安全软件防护,电脑会自动下载执行大灰狼远控木马程序。 鉴于bt天堂电影下载网站访问量巨大,此次挂马事件受害者甚众,安全团队专门针对该木马进行严密监控,并对其幕后真凶进行了深入调查。 一、“大灰狼”的伪装 以下是10月30日一天内大灰狼远控的木马样本截图,可以看到该木马变种数量不

PHP抓取网站图片脚本

方法一: <?phpheader("Content-type:image/jpeg"); class download_image{function read_url($str) { $file=fopen($str,"r");$result = ''; while(!feof($file)) { $result.=fgets($file,9999); } fclose($file); re

使用WebP解决网站加载速度问题,这些细节你需要了解

说到网页的图片格式,大家最常想到的可能是JPEG、PNG,毕竟这些老牌格式陪伴我们这么多年。然而,近几年,有一个格式悄悄崭露头角,那就是WebP。很多人可能听说过,但到底它好在哪?你的网站或者项目是不是也应该用WebP呢?别着急,今天咱们就来好好聊聊WebP这个图片格式的前世今生,以及它值不值得你花时间去用。 为什么会有WebP? 你有没有遇到过这样的情况?网页加载特别慢,尤其是那

黑客为什么不黑赌博网站来搞米?

攻击了,只是你不知道而已! 同样,对方也不会通知你,告诉你他黑了赌博网站。 攻击赌博网站的不一定是正义的黑客,也可能是因赌博输钱而误入歧途的法外狂徒。之前看过一个警方破获的真实案件:28岁小伙因赌博无法提款自学成为黑客,攻击境外博彩网站日进万元,最终因涉嫌非法控制计算机信息系统罪被捕。 我见过很多因赌博输钱想请黑客帮忙渗透网站的人,在被拒后,同样也有人生出极端心理,问我怎么学习黑客,想学成之

提升PrestaShop外贸电商网站安全的几款行业必备工具

提升PrestaShop外贸电商网站安全的几款行业必备工具 PrestaShop发展历程 PrestaShop是一款优秀且强大的外贸开源电商软件,我们开始使用PrestaShop始于2009年,那时PrestaShop还是0.9版本:界面清新,性能强悍,扩展友好等特性,既没有Magento的笨重,也没有ZenCart的古老,更没有OpenCart的脆弱,因此PrestaShop如雨后春笋,迅速