涛哥专题

【直播笔记0505】涛哥的Mysql索引原理深入剖析

涛哥的Mysql索引原理深入剖析 1. 索引到底是什么东西?2. 建立索引的方式3. 索引的类型:4. 数据结构选型4.1 二叉查找树4.1 平衡二叉树(AVL树)B树B+树Hash索引 存储引擎5.索引的使用以及创建索引的使用原则失效的场景 1.Mysql索引的本质是什么? 2.索引有哪些分类 3.为什么我们要选择B+树做为索引的数据结构 4.不同的存储引擎之间有什么差异 5.

Python爬虫从入门到精通:(16)线程池_Python涛哥

线程池 我们暂时用自己的服务器进行爬取(Flask的基本使用) Flask的基本使用: 环境安装: pip install flask 创建一个py源文件 详细代码看 FlaskServer.py #!/usr/bin/env python3# -*- coding: utf-8 -*-from flask import Flask, render_templatefrom t

自从学会这个技巧,涛哥赚了10W+

今天标题有点那个啥,但是确实如此,今天我们主要谈谈分享这件事。 这是个老生常谈的话题,因为这个话题我经常给身边的朋友说,不管是在付费微信群还是付费知识星球,我都提过不止一次了。 但是呢?我发现除了少数人去做了,更多的是熟视无睹,今天我尝试再说下,希望可以鼓励更多人去做这一件事。 关于分享的价值,我简单罗列了几个点。 更好的自我提升 熟悉我的朋友,知道我在公司的时候很热衷搞技术分享,基本上抓住每

Python爬虫从入门到精通:(18)多任务_Python涛哥

多任务 上节课我们用协程写了一段代码,一个任务对象的实现。网址:协程 那么多任务该怎么实现呢? 我们先来看下下面这段代码: import timeimport asyncioasync def get_request(url):print('正在请求的url:', url)time.sleep(2) print('请求结束:', url)return 'bono'urls = ['ww

涛哥入住大别墅后的奇怪发现

博主:爱码叔 个人博客站点: icodebook 公众号:爱码叔漫画软件设计(搜:爱码叔) 微博:程序员涛哥 专注于软件设计与架构、技术管理。擅长用通俗易懂的语言讲解技术。对技术管理工作有自己的一定见解。文章会第一时间首发在个站上,欢迎大家关注访问! 漫画《程序员涛哥》 程序员王涛,外号涛哥。外表帅气!头脑灵活!但是聪明反被聪明误,日常出糗! 这里不仅有专属程序员的幽默,还有职场段子、生活

Python爬虫从入门到精通:(15)模拟登陆_Python涛哥

模拟登陆 模拟登陆流程: 对点击登陆按钮对应的请求进行发送(post请求)处理请求参数: 用户名密码验证码其他的防伪参数 1. 模拟古诗文网登陆 url = https://so.gushiwen.cn/user/login.aspx?from=http://so.gushiwen.cn/user/collect.aspx 不急,我们先来登陆一下获取网页的请求的参数(自行注册先哦

Python爬虫从入门到精通:(8)数据解析_xpath解析基础_Python涛哥

xpath解析基础 环境安装: pip install lxml 解析原理:html标签是以树状的形式进行展示 .实例化一个etree对象,且将待解析的页面源码数据加载到该对象中调用etree对象的xpath方法结合着不同的xpath表达式实现标签的定位和数据提取 我们来看下这段test.html代码: <!DOCTYPE html><html lang="en"><head><

Python爬虫从入门到精通:(6)数据解析2_使用bs4(BeautifulSoup)_Python涛哥

使用bs4(BeautifulSoup) 数据解析的作用? 用来实现聚焦爬虫 网页中显示的数据都是存储在那里的? 都是存储在html的标签中或者是标签的属性中 数据解析的通用原理是什么? 指定标签的定位取出标签中存储的数据或者标签属性中的数据 bs4解析原理 实例化一个BeautifulSoup对象,且待解析的页面源码数据加载到该对象中调用BeautifulSoup对象中相关方法或者属性

Python爬虫从入门到精通:(5)数据解析_使用正则进行图片数据的批量解析爬取_Python涛哥

我们先来看下如何爬取图片数据? 方式1:基于requests 方式2:基于urllib urllib模块作用和requests模块一样,都是基于网络请求的模块 当requests问世后就迅速的替代了urllib模块 比如,我们现在准备爬取这张可爱的熊熊。 先右键复制图片地址: img_url = 'https://gimg2.baidu.com/image_search/src=h

Python爬虫从入门到精通:今日作业_requests基础04_爬取药监总局中的企业详情数据_Python涛哥

今日作业:爬取药监总局中的企业详情数据 爬取药监总局中的企业详情数据 url:http://scxk.nmpa.gov.cn:81/xk/ 需求: 将首页中每一家企业详情页对应的数据 每一家企业详情页对应的数据 将前5页企业的数据爬取即可。 难点: 用不到数据解析 所有的数据都是动态加载出来 提示:先试着将一家企业的详情页的详情数据爬取出来,然后再去爬取多家企业的数据 基于抓包工

Python爬虫从入门到精通:(4)requests基础03_分页数据的爬取操作(爬取肯德基的餐厅位置数据)_Python涛哥

分页数据的爬取操作 爬取肯德基的餐厅位置数据 url:http://www.kfc.com.cn/kfccda/storelist/index.aspx 分析: 在录入关键字的文本框中录入关键字按下搜索按钮,发起的是一个ajax请求 当前页面刷新出来的位置信息一定是通过ajax请求 请求到的数据 基于抓包工具定位到该ajax请求的数据包,从该数据包中捕获到: 请求的url 请求

Python爬虫从入门到精通:(3)requests基础02_动态加载数据的捕获(爬取豆瓣电影数据)_Python涛哥

动态加载数据的捕获(爬取豆瓣电影数据) 现在我打算爬取这个页面: 话不多说,先上代码: import requests# 爬取豆瓣电影中的动作片详情数据headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/93.

Python爬虫从入门到精通:(2)requests基础01_实现一个简易网页采集器_Python涛哥

requests 安装和导入 requests 安装 pip install requests requests 导入 import requests 爬虫编码流程 指定url发起请求获取响应数据持久化存储 最简单的例子(爬取搜狗页面): # 1.指定urlurl = 'https://www.sogou.com'# 2.发起请求get方法的返回值为响应对象respons

Python爬虫从入门到精通:(1)爬虫基础简介_Python涛哥

第一章,爬虫基础简介 爬虫概述 前戏 你是否在夜深人静的时候,想看一些会让你更睡不着的图片…你是否在考试或者面试前夕,想看一些具有针对性的题目和面试题…你是否想在杂乱的网络世界获取你想要的数据… 爬虫的价值 实际应用就业 什么是爬虫 通过编写程序,模拟浏览器上网,然后让其去互联网上抓取数据的过程 关键词抽取: 模拟:浏览器就是一个纯天然最原始的一个爬虫工具抓取: 抓取一整张页面源码

Python爬虫从入门到精通:(45)JS逆向:空中网逆向分析:js混淆_Python涛哥

我们来看下空中网的逆向分析 js逆向分析 抓包后,经过分析,我们看到password在一个login-handler xxx.js文件中 我们点进去搜索password: 但我们看到,password在一段很长的文本中。 这里就涉及到了js混淆。 js混淆: 什么是js混淆: 将js核心的相关代码进行变相的加密,加密后的数据就是js混淆之后的结果。 js反混淆:

Python爬虫从入门到精通:(42)JS逆向-闭包:凡科网逆向分析_Python涛哥

JS源码分析 直接请求抓包如下: 我们看到密文就是一个MD5的形式。 那么我们来分析下JS代码。 搜索pwd的时候,我们看到有49个。为了方便,我们可以试着搜索pwd:、pwd :、pwd=、pwd =。 在搜索pwd=时,就看到了关于md5的函数: 我们打断点定位后,发现果然是这段,我们点进去这个md5的函数: 进去之后我们看到了这段md5的实现方式。 当我们准备复制

Python爬虫从入门到精通:(41)JS逆向_RSA加密,Steam加密逆向_Python涛哥

RSA加密: RSA加密算法是一种非对称加密算法。在公开密钥加密和电子商业中RSA被广泛使用。 非对称加密算法: 非对称加密算法需要两个密钥: 公开密钥(publickey:简称公钥)私有密钥(privatekey:简称私钥)公钥与私钥是一对,如果用公钥对数据进行加密,只有用对应的私钥才能解密。因为加密和解密使用的是两个不同的密钥,所以这种算法叫作非对称加密算法。 注意: 使用时都是使用公匙加密

Python爬虫从入门到精通:(40)JS逆向_MD5算法,微信公众平台js算法改写_Python涛哥

MD5算法,微信公众平台js算法改写 MD5简介 MD5算法一般指MD5。MD5信息摘要算法(英语:MD5 Message-Digest Algorithm),一种被广泛使用的密码散列函数,可以产生出一个128位(16字节)的散列值(hash value),用于确保信息传输完整一致。 我们这里代码举例:某平台js算法改写! 分析js源码 我们打开网站,输入信息进行抓包。 可以看到,

Python爬虫从入门到精通:(39)增量式爬虫_Python涛哥

概念 检测网络数据更新的情况,以便于爬取到最新更新出来的数据 实现核心 去重 实战中去重的方式: 记录表 记录表需要记录什么?记录的一定是爬取过的相关信息。 例如某电影网: 爬取过的相关信息:每一部电影详情页的url只需要使用某一组数据,该组数据如果可以作为该部电影的唯一标识即可,刚好电影详情页的url就可以作为电影的唯一标识。 只要可以标识电影唯一标识的数据我们可以统称位数据指

Python爬虫从入门到精通:(38)分布式爬虫_Python涛哥

什么是分布式爬虫: 默认情况下,我们使用scrapy框架进行爬虫时使用的是单机爬虫,就是说它只能在一台电脑上运行,因为爬虫调度器当中的队列queue去重和set集合都只能在本机上创建的,其他电脑无法访问另外一台电脑上的内存和内容。分布式爬虫实现了多台电脑使用一个共同的爬虫程序,它可以同时将爬虫任务部署到多台电脑上运行,这样可以提高爬虫速度,实现分布式爬虫。 分布式的主要内容在于配置!!!

Python爬虫从入门到精通:(37)selenium在scrapy中的使用_Python涛哥

这节课我们来爬取网易新闻中的国内,国际,军事,航空这四个板块下所有的新闻数据(标题+内容) 分析: 首页没有动态加载的数据 爬取四个板块对应的url 每一个板块对应的页面中的新闻标题是动态加载 爬取新闻标题+详情页url 每一条新闻详情页面中的数据不是动态加载 爬取新闻内容 创建工程 scrapy startproject wangyiProcd wangyiProsc

Python爬虫从入门到精通:(36)CrawlSpider实现深度爬取_Python涛哥

我们来看下CrawlSpider实现深度爬取。 爬取阳光热线标题、状态、和详情页内容。 https://wz.sun0769.com/political/index/politicsNewest?id=1&type=4&page= 创建CrawlSpider工程 scrapy startproject sunPro cd sunPro scrapy genspider -t cr

漫画程序员涛哥--面试被问到设计模式的尴尬经历

博主:爱码叔 个人博客站点: icodebook 公众号:爱码叔漫画软件设计(搜:爱码叔) 微博:程序员涛哥 专注于软件设计与架构、技术管理。擅长用通俗易懂的语言讲解技术。对技术管理工作有自己的一定见解。文章会第一时间首发在个站上,欢迎大家关注访问! 从今天开始,我会推出一档漫画《程序员涛哥》。 程序员王涛,外号涛哥。外表帅气!头脑灵活!但是聪明反被聪明误,日常出糗! 这里不仅有专属程序员

打油诗一首: 《版本失火, 波及涛哥》

版本失火, 波及涛哥。        夜色已深, 电话慰问。        模块不详, 赶快起床。        奔赴公司, 零点过四。        灯火通明, 个个精神。        凌晨扑火, 彼此忘我。        这火谁纵, 让人心痛。        DT德电,   闪闪闪闪。

【多易教育】_大数据涛哥的六脉神剑组合之刘帅出击+挑战2018java300集,永坐大数据擂台霸主

视频链接:https://www.bilibili.com/video/av37413483/ 无论登录哪家网站找资料都会被分享百度网盘链接,但苦于下载视频就得办个超级会员(有时候我在想是不是这些人和百度网盘有合作啊,曾经我因下载东西特意办了会员),不办会员能下载的那肯定里面没有干货,再打开文件夹就是扫码拉人了。 为了解除大家下载的痛苦将视频上传到哔站上,不收任何费用。现在无线wifi哪哪都是

涛哥、星哥即段海涛、赵星本人已不在属于传智播客

自2016年涛哥离职后2年内一直打着涛哥、星哥名义宣传大数据课程及相关内容讲解视频宣传,自2018年11月起涛哥、星哥联合创办了多易教育,联合很多企业牛人一起专业做大数据培训,想了解的涛粉儿、星粉儿、多易粉儿都聚集过来。   讲师组成主要有3类人 : 业内知名度较高的名师 拥有多年开发经验,同时又有较长教学经验的名师,技术功力深厚,又能把知识通过通俗易懂的方式进行讲解,在教学过程中,通过一