图解正向代理、反向代理、透明代理:可能是你见过的讲解最透彻的代理技术教程


套用古龙武侠小说套路来说,代理服务技术是一门很古老的技术,是在互联网早期出现就使用的技术。一般实现代理技术的方式就是在服务器上安装代理服务软件,让其成为一个代理服务器,从而实现代理技术。常用的代理技术分为正向代理、反向代理和透明代理。本文就是针对这三种代理来讲解一些基本原理和具体的适用范围,便于大家更深入理解代理服务技术。

一、正向代理(Forward Proxy)

一般情况下,如果没有特别说明,代理技术默认说的是正向代理技术。关于正向代理的概念如下:

正向代理是一个位于客户端【用户A】和原始服务器【服务器B】之间的服务器【代理服务器Z】,为了从原始服务器取得内容,用户 A 向代理服务器 Z 发送一个请求并指定目标(服务器B),然后代理服务器 Z 向服务器 B 转交请求并将获得的内容返回给客户端。客户端必须要进行一些特别设置才能使用正向代理。如下图:

从上面的概念中,我们可以看出,所谓的正向代理就是代理服务器替代访问方【用户A】去访问目标服务器【服务器B】。而为什么要用代理服务器去代替访问方【用户A】去访问服务器 B 呢?这就要从代理服务器使用的作用说起。使用正向代理服务器作用主要有以下几点:

1、访问本无法访问的服务器 B

我们抛除复杂的网络路由情节来看上图,假设图中路由器从左到右命名为 R1、R2。假设最初用户 A 要访问服务器 B 需要经过 R1 和 R2 路由器这样一个路由节点,如果路由器 R1 或者路由器 R2 发生故障,那么就无法访问服务器 B 了。但是如果用户 A 让代理服务器 Z 去代替自己访问服务器 B,由于代理服务器 Z 没有在路由器 R1 或 R2 节点中,而是通过其它的路由节点访问服务器 B,那么用户 A 就可以得到服务器 B 的数据了。

现实中的例子就是“翻墙”。不过自从 VPN 技术被广泛应用外,“翻墙”不但使用了传统的正向代理技术,有的还使用了 VPN 技术。

2、加速访问服务器 B

这种说法目前不像以前那么流行了,主要是带宽流量的飞速发展。早期的正向代理中,很多人使用正向代理就是提速。假设用户 A 到服务器 B,经过 R1 路由器和 R2 路由器,而 R1 到 R2 路由器的链路是一个低带宽链路。而用户 A 到代理服务器 Z,从代理服务器 Z 到服务器 B 都是高带宽链路。那么很显然就可以加速访问服务器B了。

3、Cache 作用

Cache(缓存)技术和代理服务技术是紧密联系的(不光是正向代理,反向代理也使用了Cache(缓存)技术。还如上图所示,如果在用户 A 访问服务器 B 某数据 J 之前,已经有人通过代理服务器 Z 访问过服务器 B 上得数据 J,那么代理服务器 Z 会把数据 J 保存一段时间,如果有人正好取该数据 J,那么代理服务器 Z 不再访问服务器 B,而把缓存的数据 J 直接发给用户 A。这一技术在 Cache 中术语就叫 Cache 命中。如果有更多的像用户 A 的用户来访问代理服务器 Z,那么这些用户都可以直接从代理服务器 Z 中取得数据 J,而不用千里迢迢的去服务器 B 下载数据了。

4、客户端访问授权

这方面的内容现今使用的还是比较多的,例如一些公司采用 ISA SERVER 做为正向代理服务器来授权用户是否有权限访问互联网,如下图:

防火墙作为网关,用来过滤外网对其的访问。假设用户 A 和用户 B 都设置了代理服务器,用户 A 允许访问互联网,而用户 B 不允许访问互联网(这个在代理服务器 Z 上做限制)这样用户 A 因为授权,可以通过代理服务器访问到服务器 B,而用户 B 因为没有被代理服务器 Z 授权,所以访问服务器 B 时,数据包会被直接丢弃。

5、隐藏访问者的行踪

我们可以看出服务器 B 并不知道访问自己的实际是用户 A,因为代理服务器 Z 代替用户 A 去直接与服务器 B 进行交互。如果代理服务器 Z 被用户 A 完全控制(或不完全控制),会惯以“肉鸡”术语称呼:

我们总结一下,正向代理是一个位于客户端和原始服务器(origin server)之间的服务器,为了从原始服务器取得内容,客户端向代理发送一个请求并指定目标(原始服务器),然后代理向原始服务器转交请求并将获得的内容返回给客户端。客户端必须设置正向代理服务器,当然前提是要知道正向代理服务器的 IP 地址,还有代理程序的端口。

二、反向代理(reverse proxy)

反向代理正好与正向代理相反,对于客户端而言代理服务器就像是原始服务器,并且客户端不需要进行任何特别的设置。客户端向反向代理的命名空间中的内容发送普通请求,接着反向代理将判断向何处(原始服务器)转交请求,并将获得的内容返回给客户端。

使用反向代理服务器的作用如下:

1、保护和隐藏原始资源服务器

用户 A 始终认为它访问的是原始服务器 B 而不是代理服务器 Z,但实用际上反向代理服务器接受用户 A 的应答,从原始资源服务器 B 中取得用户 A 的需求资源,然后发送给用户 A。由于防火墙的作用,只允许代理服务器 Z 访问原始资源服务器 B。尽管在这个虚拟的环境下,防火墙和反向代理的共同作用保护了原始资源服务器 B,但用户 A 并不知情。

2、负载均衡

当反向代理服务器不止一个的时候,我们甚至可以把它们做成集群,当更多的用户访问资源服务器B的时候,让不同的代理服务器 Z(x)去应答不同的用户,然后发送不同用户需要的资源。

当然反向代理服务器像正向代理服务器一样拥有 Cache 的作用,它可以缓存原始资源服务器 B 的资源,而不是每次都要向原始资源服务器 B 请求数据,特别是一些静态的数据,比如图片和文件,如果这些反向代理服务器能够做到和用户 X 来自同一个网络,那么用户 X 访问反向代理服务器 X,就会得到很高质量的速度。这正是 CDN 技术的核心。如下图:

这里我们并不深入讲解 CDN,所以去掉了 CDN 最关键的核心技术智能 DNS。只是展示 CDN 技术实际上利用的正是反向代理原理这块。

反向代理结论与正向代理正好相反,对于客户端而言它就像是原始服务器,并且客户端不需要进行任何特别的设置。客户端向反向代理的命名空间中的内容发送普通请求,接着反向代理将判断向何处(原始服务器)转交请求,并将获得的内容返回给客户端,就像这些内容原本就是它自己的一样。

基本上,网上做正反向代理的程序很多,能做正向代理的软件大部分也可以做反向代理。开源软件中最流行的就是 Squid,既可以做正向代理,也有很多人用来做反向代理的前端服务器。另外 MS ISA 也可以用来在Windows 平台下做正向代理。反向代理中最主要的实践就是 Web 服务,近些年来最火的就是 Nginx 了。网上有人说 Nginx 不能做正向代理,其实是不对的。Nginx 也可以做正向代理,不过用的人比较少了。

为了更加形象地对比正向代理和反向代理,学院君在知乎上找到一张很形象的图片:

  • 正向代理中,代理和客户端同属一个 LAN,对服务端透明;
  • 反向代理中,代理和服务端同属一个 LAN,对客户端透明。
或者,还有一句精辟的顺口溜:正向代理代理客户端,反向代理代理服务器。

三、透明代理

如果把正向代理、反向代理和透明代理按照人类血缘关系来划分的话。那么正向代理和透明代理是很明显的堂亲关系,而正向代理和反向代理就是表亲关系了 。

透明代理的意思是客户端根本不需要知道有代理服务器的存在,它改变你的请求报文,并会传送真实IP。透明代理实践的例子就是时下很多公司使用的行为管理软件:

用户 A 和用户 B 并不知道行为管理设备充当透明代理行为,当用户 A 或用户 B 向服务器 A 或服务器 B 提交请求的时候,透明代理设备根据自身策略拦截并修改用户 A 或 B 的报文,并作为实际的请求方,向服务器 A 或 B 发送请求,当接收信息回传,透明代理再根据自身的设置把允许的报文发回至用户 A 或 B,如上图,如果透明代理设置不允许访问服务器 B,那么用户 A 或者用户 B 就不会得到服务器 B 的数据。

注:本文整理自 http://blog.51cto.com/z00w00/1031287

Vote Vote Cancel Collect Collect Cancel

<< 上一篇: 通过 Apiato 框架引入构建 API 应用的两种软件架构模式 —— Porto / MVC

>> 下一篇: Laravel 5.3 中文文档已经翻译完成并提供离线文档下载