涛哥专题

【直播笔记0505】涛哥的Mysql索引原理深入剖析

涛哥的Mysql索引原理深入剖析 1. 索引到底是什么东西？2. 建立索引的方式3. 索引的类型：4. 数据结构选型4.1 二叉查找树4.1 平衡二叉树（AVL树）B树B+树Hash索引存储引擎5.索引的使用以及创建索引的使用原则失效的场景 1.Mysql索引的本质是什么？ 2.索引有哪些分类 3.为什么我们要选择B+树做为索引的数据结构 4.不同的存储引擎之间有什么差异 5.

Python爬虫从入门到精通:（16）线程池_Python涛哥

线程池我们暂时用自己的服务器进行爬取（Flask的基本使用） Flask的基本使用：环境安装： pip install flask 创建一个py源文件详细代码看 FlaskServer.py #!/usr/bin/env python3# -*- coding: utf-8 -*-from flask import Flask, render_templatefrom t

自从学会这个技巧，涛哥赚了10W+

今天标题有点那个啥，但是确实如此，今天我们主要谈谈分享这件事。这是个老生常谈的话题，因为这个话题我经常给身边的朋友说，不管是在付费微信群还是付费知识星球，我都提过不止一次了。但是呢？我发现除了少数人去做了，更多的是熟视无睹，今天我尝试再说下，希望可以鼓励更多人去做这一件事。关于分享的价值，我简单罗列了几个点。更好的自我提升熟悉我的朋友，知道我在公司的时候很热衷搞技术分享，基本上抓住每

Python爬虫从入门到精通:（18）多任务_Python涛哥

多任务上节课我们用协程写了一段代码，一个任务对象的实现。网址：协程那么多任务该怎么实现呢？我们先来看下下面这段代码： import timeimport asyncioasync def get_request(url):print('正在请求的url：', url)time.sleep(2) print('请求结束:', url)return 'bono'urls = ['ww

涛哥入住大别墅后的奇怪发现

博主：爱码叔个人博客站点： icodebook 公众号：爱码叔漫画软件设计（搜：爱码叔）微博：程序员涛哥专注于软件设计与架构、技术管理。擅长用通俗易懂的语言讲解技术。对技术管理工作有自己的一定见解。文章会第一时间首发在个站上，欢迎大家关注访问！漫画《程序员涛哥》程序员王涛，外号涛哥。外表帅气！头脑灵活！但是聪明反被聪明误，日常出糗！这里不仅有专属程序员的幽默，还有职场段子、生活

Python爬虫从入门到精通:（15）模拟登陆_Python涛哥

模拟登陆模拟登陆流程：对点击登陆按钮对应的请求进行发送(post请求)处理请求参数：用户名密码验证码其他的防伪参数 1. 模拟古诗文网登陆 url = https://so.gushiwen.cn/user/login.aspx?from=http://so.gushiwen.cn/user/collect.aspx 不急，我们先来登陆一下获取网页的请求的参数（自行注册先哦

Python爬虫从入门到精通:（8）数据解析_xpath解析基础_Python涛哥

xpath解析基础环境安装： pip install lxml 解析原理：html标签是以树状的形式进行展示 .实例化一个etree对象，且将待解析的页面源码数据加载到该对象中调用etree对象的xpath方法结合着不同的xpath表达式实现标签的定位和数据提取我们来看下这段test.html代码： <!DOCTYPE html><html lang="en"><head><

Python爬虫从入门到精通:（6）数据解析2_使用bs4（BeautifulSoup）_Python涛哥

使用bs4（BeautifulSoup）数据解析的作用？用来实现聚焦爬虫网页中显示的数据都是存储在那里的？都是存储在html的标签中或者是标签的属性中数据解析的通用原理是什么？指定标签的定位取出标签中存储的数据或者标签属性中的数据 bs4解析原理实例化一个BeautifulSoup对象，且待解析的页面源码数据加载到该对象中调用BeautifulSoup对象中相关方法或者属性

Python爬虫从入门到精通:（5）数据解析_使用正则进行图片数据的批量解析爬取_Python涛哥

我们先来看下如何爬取图片数据？方式1：基于requests 方式2:基于urllib urllib模块作用和requests模块一样，都是基于网络请求的模块当requests问世后就迅速的替代了urllib模块比如，我们现在准备爬取这张可爱的熊熊。先右键复制图片地址： img_url = 'https://gimg2.baidu.com/image_search/src=h

Python爬虫从入门到精通:今日作业_requests基础04_爬取药监总局中的企业详情数据_Python涛哥

今日作业：爬取药监总局中的企业详情数据爬取药监总局中的企业详情数据 url:http://scxk.nmpa.gov.cn:81/xk/ 需求：将首页中每一家企业详情页对应的数据每一家企业详情页对应的数据将前5页企业的数据爬取即可。难点：用不到数据解析所有的数据都是动态加载出来提示：先试着将一家企业的详情页的详情数据爬取出来，然后再去爬取多家企业的数据基于抓包工

Python爬虫从入门到精通:（4）requests基础03_分页数据的爬取操作（爬取肯德基的餐厅位置数据）_Python涛哥

分页数据的爬取操作爬取肯德基的餐厅位置数据 url:http://www.kfc.com.cn/kfccda/storelist/index.aspx 分析: 在录入关键字的文本框中录入关键字按下搜索按钮，发起的是一个ajax请求当前页面刷新出来的位置信息一定是通过ajax请求请求到的数据基于抓包工具定位到该ajax请求的数据包，从该数据包中捕获到：请求的url 请求

Python爬虫从入门到精通:（3）requests基础02_动态加载数据的捕获（爬取豆瓣电影数据）_Python涛哥

动态加载数据的捕获（爬取豆瓣电影数据）现在我打算爬取这个页面：话不多说，先上代码： import requests# 爬取豆瓣电影中的动作片详情数据headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/93.

Python爬虫从入门到精通:（2）requests基础01_实现一个简易网页采集器_Python涛哥

requests 安装和导入 requests 安装 pip install requests requests 导入 import requests 爬虫编码流程指定url发起请求获取响应数据持久化存储最简单的例子（爬取搜狗页面）： # 1.指定urlurl = 'https://www.sogou.com'# 2.发起请求get方法的返回值为响应对象respons

Python爬虫从入门到精通:（1）爬虫基础简介_Python涛哥

第一章，爬虫基础简介爬虫概述前戏你是否在夜深人静的时候，想看一些会让你更睡不着的图片…你是否在考试或者面试前夕，想看一些具有针对性的题目和面试题…你是否想在杂乱的网络世界获取你想要的数据… 爬虫的价值实际应用就业什么是爬虫通过编写程序，模拟浏览器上网，然后让其去互联网上抓取数据的过程关键词抽取：模拟：浏览器就是一个纯天然最原始的一个爬虫工具抓取：抓取一整张页面源码

Python爬虫从入门到精通:（45）JS逆向：空中网逆向分析：js混淆_Python涛哥

我们来看下空中网的逆向分析 js逆向分析抓包后，经过分析，我们看到password在一个login-handler xxx.js文件中我们点进去搜索password: 但我们看到，password在一段很长的文本中。这里就涉及到了js混淆。 js混淆：什么是js混淆：将js核心的相关代码进行变相的加密，加密后的数据就是js混淆之后的结果。 js反混淆：

Python爬虫从入门到精通:（42）JS逆向-闭包：凡科网逆向分析_Python涛哥

JS源码分析直接请求抓包如下：我们看到密文就是一个MD5的形式。那么我们来分析下JS代码。搜索pwd的时候，我们看到有49个。为了方便，我们可以试着搜索pwd:、pwd :、pwd=、pwd =。在搜索pwd=时，就看到了关于md5的函数：我们打断点定位后，发现果然是这段，我们点进去这个md5的函数：进去之后我们看到了这段md5的实现方式。当我们准备复制

Python爬虫从入门到精通:（41）JS逆向_RSA加密，Steam加密逆向_Python涛哥

RSA加密： RSA加密算法是一种非对称加密算法。在公开密钥加密和电子商业中RSA被广泛使用。非对称加密算法：非对称加密算法需要两个密钥：公开密钥（publickey:简称公钥）私有密钥（privatekey:简称私钥）公钥与私钥是一对，如果用公钥对数据进行加密，只有用对应的私钥才能解密。因为加密和解密使用的是两个不同的密钥，所以这种算法叫作非对称加密算法。注意：使用时都是使用公匙加密

Python爬虫从入门到精通:（40）JS逆向_MD5算法，微信公众平台js算法改写_Python涛哥

MD5算法，微信公众平台js算法改写 MD5简介 MD5算法一般指MD5。MD5信息摘要算法（英语：MD5 Message-Digest Algorithm），一种被广泛使用的密码散列函数，可以产生出一个128位（16字节）的散列值（hash value），用于确保信息传输完整一致。我们这里代码举例：某平台js算法改写！分析js源码我们打开网站，输入信息进行抓包。可以看到，

Python爬虫从入门到精通:（39）增量式爬虫_Python涛哥

概念检测网络数据更新的情况，以便于爬取到最新更新出来的数据实现核心去重实战中去重的方式：记录表记录表需要记录什么？记录的一定是爬取过的相关信息。例如某电影网：爬取过的相关信息：每一部电影详情页的url只需要使用某一组数据，该组数据如果可以作为该部电影的唯一标识即可，刚好电影详情页的url就可以作为电影的唯一标识。只要可以标识电影唯一标识的数据我们可以统称位数据指

Python爬虫从入门到精通:（38）分布式爬虫_Python涛哥

什么是分布式爬虫: 默认情况下，我们使用scrapy框架进行爬虫时使用的是单机爬虫，就是说它只能在一台电脑上运行，因为爬虫调度器当中的队列queue去重和set集合都只能在本机上创建的，其他电脑无法访问另外一台电脑上的内存和内容。分布式爬虫实现了多台电脑使用一个共同的爬虫程序，它可以同时将爬虫任务部署到多台电脑上运行，这样可以提高爬虫速度，实现分布式爬虫。分布式的主要内容在于配置！！！

Python爬虫从入门到精通:（37）selenium在scrapy中的使用_Python涛哥

这节课我们来爬取网易新闻中的国内，国际，军事，航空这四个板块下所有的新闻数据（标题+内容）分析：首页没有动态加载的数据爬取四个板块对应的url 每一个板块对应的页面中的新闻标题是动态加载爬取新闻标题+详情页url 每一条新闻详情页面中的数据不是动态加载爬取新闻内容创建工程 scrapy startproject wangyiProcd wangyiProsc

Python爬虫从入门到精通:（36）CrawlSpider实现深度爬取_Python涛哥

我们来看下CrawlSpider实现深度爬取。爬取阳光热线标题、状态、和详情页内容。 https://wz.sun0769.com/political/index/politicsNewest?id=1&type=4&page= 创建CrawlSpider工程 scrapy startproject sunPro cd sunPro scrapy genspider -t cr

漫画程序员涛哥--面试被问到设计模式的尴尬经历

博主：爱码叔个人博客站点： icodebook 公众号：爱码叔漫画软件设计（搜：爱码叔）微博：程序员涛哥专注于软件设计与架构、技术管理。擅长用通俗易懂的语言讲解技术。对技术管理工作有自己的一定见解。文章会第一时间首发在个站上，欢迎大家关注访问！从今天开始，我会推出一档漫画《程序员涛哥》。程序员王涛，外号涛哥。外表帅气！头脑灵活！但是聪明反被聪明误，日常出糗！这里不仅有专属程序员

打油诗一首：《版本失火，波及涛哥》

版本失火，波及涛哥。夜色已深，电话慰问。模块不详，赶快起床。奔赴公司，零点过四。灯火通明，个个精神。凌晨扑火，彼此忘我。这火谁纵，让人心痛。 DT德电，闪闪闪闪。

【多易教育】_大数据涛哥的六脉神剑组合之刘帅出击+挑战2018java300集，永坐大数据擂台霸主

视频链接：https://www.bilibili.com/video/av37413483/ 无论登录哪家网站找资料都会被分享百度网盘链接，但苦于下载视频就得办个超级会员（有时候我在想是不是这些人和百度网盘有合作啊，曾经我因下载东西特意办了会员），不办会员能下载的那肯定里面没有干货，再打开文件夹就是扫码拉人了。为了解除大家下载的痛苦将视频上传到哔站上，不收任何费用。现在无线wifi哪哪都是

涛哥、星哥即段海涛、赵星本人已不在属于传智播客

自2016年涛哥离职后2年内一直打着涛哥、星哥名义宣传大数据课程及相关内容讲解视频宣传，自2018年11月起涛哥、星哥联合创办了多易教育，联合很多企业牛人一起专业做大数据培训，想了解的涛粉儿、星粉儿、多易粉儿都聚集过来。讲师组成主要有3类人：业内知名度较高的名师拥有多年开发经验，同时又有较长教学经验的名师，技术功力深厚，又能把知识通过通俗易懂的方式进行讲解，在教学过程中，通过一