1.企业CDN缓存系统varnish

本文主要是介绍1.企业CDN缓存系统varnish，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

1.什么是CDN缓存系统

（1）CDN的概念

CDN：content distribute network（内容分发网络）或者content delivery network（内容交付网络）。很显然，CDN的任务是将内容从源站传递给用户。

联网的设计理念是：网络是中立的，是无控制的，任何人都无决定权；网络与应用无关的，它的任务就是将数据更好更快的进行端对端的传输。
常说的互联网由两层组成：
一层是以TCP/IP为代表的网络层（狭义的互联网internet），另一层是以www为代表的应用层。
以TCP/IP为核心的狭义的互联网，实际上是广义互联网的下层基础。其本质就是通过各种网络设备，实现各个计算机之间的互联互通，实现各种信息数据的低成本传输。
举个简单例子来区分而这之间的差异：internet就是铁路轨道和各种信号灯，而www则是运行在internet上的众多火车中的一种。

（2）.CDN的产生背景

分析一下互联网的网络层和应用层之间的磨合问题。在互联网这个大的铁路网上，有4个地方容易出现拥堵。而 CDN的产生背景正是为了缓解互联网传输的这些问题。

“第一公里”：指的是数据传输到用户的通道的第一个出口，其速度受限于网站服务器接入互联网链路的带宽。这个带宽直接影响到网站的访问速度和并发访问量。当用户请求的数据量超过网站的出口带宽时，就会形成拥塞。用户越多，拥塞越严重。

“最后一公里”：指的是数据传输到用户的通道的最后一段链路，即用户的接入带宽。互联网发展初期，用户主要通过拨号上网的方式，带宽很低，只能传输带宽占用小的文字等信息。2001年开始，电信运营商开始大力发展ADSL等宽带接入方式，随着带宽的提升和接入手段的不断丰富（光纤、3G、4G、wifi），最后一公里瓶颈问题已经基本解决。

“对等互联关口”：不同的运营商之间，只提供了比较少的互联互通的接口。如果一个网站服务器部署在A运营商的IDC机房里，而用户用的却是B运营商的网络，此时，服务器数据就需要从A运营商网络传输到B运营商网络。不同网络之间的互联互通，对任何一个运营商网络的流量的占比都很小，收敛比很高，所以，这个互联关口很容易成为互联网传输的拥塞点。
长途骨干传输：长距离传输过程中，数据需要经过网站的IDC网络、骨干网、用户城域网、用户接入网等，一定会产生延时。这个延时，是互联网本身无法解决的问题。另外，长途骨干网络的流量非常大，很容易产生拥塞。

（3）CDN的工作原理

无cdn时，用户通过浏览器访问网站的过程
1、用户在浏览器输入URL
2、浏览器向本地DNS请求域名解析
3、如果本地DNS缓存有该域名的解析结果，则直接将解析结果返回给浏览器
4、如果本地DNS缓存中无该域名的解析结果，则以递归方式向整个DNS系统请求域名解析，在获得应答后将解析结果返回给浏览器
5、浏览器获得解析结果，提取出IP信息，使用IP向服务器请求数据
6、服务器返回数据给浏览器
有cdn时，用户通过浏览器访问网站的过程
1、用户在浏览器中输入URL
2、浏览器向本地DNS请求域名解析，DNS会将域名解析权转交给CNAME指向的CDN专用的DNS服务器
3、CDN专用的DNS服务器将CDN的全局负载均衡设备的IP返回给浏览器
4、浏览器向CDN全局负载均衡设备发起URL请求
5、CDN全局负载均衡设备根据请求的URL和用户的IP地址，将用户请求转发到用户所在区域的区域负载均衡设备
6、区域负载均衡设备，根据用户IP、请求URL、缓存服务器的负载情况等，返回一台合适的服务器IP给用户
7、用户向缓存服务器发起请求
8、缓存服务器响应用户请求，如果用户请求的内容缓存服务器上不存在，则缓存服务器要向上一级缓存服务器请求内容，直到追溯到网站的源服务器

2.什么是varnish？

Varnish 是一款高性能的开源HTTP加速器（挪威最大的在线报纸 Verdens Gang 使用3台Varnish代替了原来的12台Squid，性能比以前更好）

1.varnish加速器与Squid加速器的对比

Squid加速器（代理缓存服务器）是将从服务器要回来的资源放在自己的硬盘里，客户读取的速率很慢，代理的效率低

varnish加速器（代理缓存服务器）是将从服务器要回来的资源放在自己的内存里，客户读取的速率很快，代理的效率高

2.varnish代理服务器的工作方式

varnish代理服务器的工作方式有两种

（1）仅仅作为一个代理服务器：帮客户端去问服务端要数据，要回来的数据直接给客户端自己不缓存一份，这种情况是客户的隐私信息、热点信息、更新比较快的数据，不缓存，只代理。
（2）既代理又缓存：帮客户端去问服务端要数据，要回来的数据先给自己缓存一份，然后再发给客户端，这种情况是用于更新比较慢的数据，此时varnish既代理又缓存。

3.为什么使用varnish加速缓存代理服务器？

比如：我们国家使用微信的用户非常多，微信的服务商腾讯总部在深圳
当每个地区的用户使用微信访问腾讯服务器的资源的时候，访问量太大
对于深圳的服务器来说，会造成很大的访问压力，甚至会造成服务器瘫痪
对于每个地区的用户来数，如果都去访问腾讯的总部服务器，会造成网络拥塞，使得客户的访问很缓慢，不利于用户的使用
现在腾讯总部给每个地区都放varnish代理服务器，每个地区的微信使用用户想访问深圳资源的时候
都会间接去问自己地区的varnish代理服务器要资源
如果varnish代理服务器上面没有资源，此时varnish代理服务器就会去向深圳的服务器要资源，将要回来的资源视情况而定给自己缓存一份，然后再给客户端发一份。这种情况下，varnish代理服务器的数量远远少于微信用户的数量，即使所有的varnish代理服务器同时向深圳总部的服务器要资源的时候，也不会给深圳的服务器造成很大的压力，对微信使用的客户端和深圳总部的服务端都有好处
假如代理服务器缓存了一些更新慢的数据，当客户端再次要这个数据的时候，代理服务器会直接返回给客户端，不需要再去问深圳的服务器要资源，那么这就是把varnish服务器叫做加速器的原因，加快了客户端和服务端之间的访问速率
注意：以上我是仅仅使用微信举个例子，其实所有的互联网企业使用加速器的原理是一样的

4.varnish加速器的工作流程

Varnish与一般服务器软件类似，分为master（management）进程和child（worker ，主要做cache的工作）进程。

master进程读入命令，进行一些初始化，然后fork并监控child进程。
child进程分配若干线程进行工作，主要包括一些管理线程和很多woker线程。

针对文件缓存部分，master读入存储配置，调用合适的存储类型，然后创建/读入相应大小的缓存大文件。接着，master初始化管理该存储空间的结构体。这些变量都是全局变量，在fork以后会被child进程所继承（包括文件描述符）。在child进程主线程初始化过程中，将前面打开的存储大文件整个mmap到内存中（如果超出系统的虚拟内存，mmap失败，进程会减少原来的配置mmap大小，然后继续mmap）
此时创建并初始化空闲存储结构体，挂到存储管理结构体，以待分配。接着，真正的工作开始，Varnish的某个负责接受新HTTP连接的线程开始等待用户，如果有新的HTTP连接过来，它总负责接收，
然后叫醒某个等待中的线程，并把具体的处理过程交给它。Worker线程读入HTTP请求的URI，查找已有的object，如果命中则直接返回并回复用户。如果没有命中，则需要将所请求的内容，从后端服务器中取过来，存到缓存中，然后再回复。

分配缓存的过程如下：

varnish根据所读到object的大小，创建相应大小的缓存文件。
为了读写方便，程序会把每个object的大小变为最接近其大小的内存页面倍数。然后从现有的空闲存储结构体中查找，找到最合适的大小的空闲存储块，分配给它。如果空闲块没有用完，就把多余的内存另外组成一个空闲存储块，挂到管理结构体上。如果缓存已满，就根据LRU机制，把最旧的object释放掉。
释放缓存的过程是这样的：有一个超时线程，检测缓存中所有object的生存期。
如果超初设定的TTL（Time To Live）没有被访问，就删除之，并且释放相应的结构体及存储内存。（释放时会检查该存储内存块前面或后面的空闲内存块。如果前面或后面的空闲内存和该释放内存是连续的，就将它们合并成更大一块内存。）整个文件缓存的管理，没有考虑文件与内存的关系，实际上是将所有的object都考虑是在内存中如果系统内存不足，系统会自动将其换到swap空间，而不需要varnish程序去控制。

这篇关于1.企业CDN缓存系统varnish的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！