深入web请求过程

浏览器输入一个URL会发生什么

首先它会请求DNS把这个域名解析成对应的IP地址,然后根据这个IP地址在互联网上找到对应的服务器,向这个服务器发起一个get请求,由这个服务器决定返回默认的数据资源给访问的用户。

服务器可能有很多台,到底指定哪台服务器来处理请求,这需要一个负载均衡设备来平均分配所有用户的请求;还有请求的数据是存储在分布式缓存里还是一个静态文件中,或是在数据库里;当数据返回浏览器时,浏览器解析数据发现还有一些静态资源(如CSS、JS或者图片)时又会发起另外的HTTP请求,而这些请求很可能会在CDN上,那么CDN服务器又会处理这个用户的请求。

发起请求

发起一个HTTP请求的过程就是建立一个Socket通信的过程。

浏览器建立Socket连接之前,必须根据地址栏里输入的URL的域名DNS解析出IP地址,再根据这个IP地址和默认的80端口与远程服务器建立Socket连接,然后浏览器根据这个URL组装成一个get类型的HTTP请求头,通过outputStreeam.write发送到目标服务器,服务器等待inputStream.read返回数据,最后断开连接。

浏览器缓存机制

首先在浏览器端,如果按Ctrl+F5组合键刷新页面,浏览器会直接向目标URL发送请求,而不会使用浏览器缓存的数据;

存在请求发送到服务器,也有可能访问到的是缓存的数据的情况,比如应用服务器的前端部署一个缓存服务器,如Varnish代理,那么Varnish也可能直接使用缓存数据。所以为了保证用户能看到最新的数据,必须通过HTTP来控制。

当我们使用Ctrl+F5组合键刷新一个页面时,在HTTP的请求头中会增加一些请求头,它告诉服务器端我们要获取最新的数据而不是缓存。

部分HTTP Head字段

Cache-Control/Pragma

可选值

说明

Public

所有内容都将被缓存,在响应头中设置

Private

内容只缓存到私有缓存中,在响应头中设置

no-cache

所有内容都不会被缓存,在请求头和响应头中设置

no-store

所有内容都不会被缓存到缓存或Internet临时文件中,在响应头设置

must-revalidation/proxy-revalidation

如果缓存的内容失效,请求必须发送到服务器/代理以进行重新验证,在请求头中设置

max-age=xxx

缓存的内容将在xxx秒后失效,和Last-Modified一起使用时优先级较高,在响应头设置

Expires

Expires通常跟着一个日期和时间,超过这个时间值后,缓存的内容将失效,也就是浏览器在发出请求之前检查这个页面的这个字段,看该页面是否已经过期了,过期了就重新向服务器发起请求。

Last-Modified

Last-Modified字段一般用于表示一个服务器上的资源的最后修改时间,资源可以是静态或者动态内容,通过这个最后修改时间可以判断当前请求的资源是否是最新的。

一般服务器在响应头中返回一个Last-Modified字段,告诉浏览器这个页面的最后修改时间,浏览器再次请求时在请求头中增加一个If-Modified-Since字段,询问当前缓存的页面是否是最新的,如果是最新的就返回一个304状态码,告诉浏览器是最新的,服务器也不会传输新的数据。

Etag

Etag字段,这个字段的作用是让服务器给每个页面分配一个唯一的编号,然后通过这个编号来区分当前这个页面是否是最新的。这种方式比使用Last-Modified更加灵活,但是在后端的Web服务器有多台时比较难处理,因为每个Web服务器都要记住网站的所有资源,否则浏览器返回这个编号就没有意义了。

DNS域名解析过程

  1. 浏览器会检查缓存中有没有这个域名对应的解析过的IP地址,如果缓存中有,这个解析过程就将结束。

  2. 如果用户的浏览器缓存中没有,浏览器会查找操作系统缓存中是否有这个域名对应的DNS解析结果(正是因为有这种本地DNS解析的规程,所以黑客就有可能通过修改你的域名解析来把特定的域名解析到它指定的IP地址上,导致这些域名被劫持)。

  3. 在网络配置中有“DNS服务器地址”,如果前两个过程无法解析时,操作系统会把这个域名发送给这里设置的LDNS(Local DNS),也就是本地区的域名服务器。这个DNS通常都提供给你本地互联网接入的一个DNS解析服务。LDNS承担了大部分域名的解析工作。

  4. 如果LDNS仍然没有命中,就直接到Root Server域名服务器请求解析

  5. Root Server域名服务器返回给本地域名服务器一个所查询域的主域名服务器(gTLD Server)地址。gTLD是国际顶级域名服务器,如.com、.cn、.org等。

  6. 本地域名服务器(Local DNS Server)再想上一步返回的gTLD服务器发送请求。

  7. 接受请求的gTLD服务器查找并返回此域名对应的Name Server域名服务器的地址,这个Name Server通常就是你注册的域名服务器。

  8. Name Server域名服务器会查询存储的域名和IP的映射关系表,在正常情况下都根据域名得到目标IP记录,连同一个TTL值返回给DNS Server域名服务器。

  9. 返回该域名的IP和TTL值,Local DNS Serer会缓存这个域名和IP的对应关系,缓存的时间由TTL值控制。

  10. 把解析的结果返回给用户,用户根据TTL值缓存在本地系统缓存中,域名解析过程结束。

几种域名解析方式

域名解析记录主要分为A记录、MX记录、CNAME记录、NS记录和TXT记录。

A记录

A代表的是Address,用来指定域名对应的IP地址。A记录可以将多个域名解析到一个IP地址,但是不能将一个域名解析到多个IP地址。

MX记录

MX表示的是Mail Exchange,就是可以将某个域名下的邮件服务器指向自己的Mail Server。

如taobao.com域名的A记录IP地址是115.238.25. xxx,如果将MX记录设置为115.238.25. xxx,即xxx@taobao.com的邮件路由,DNS会将邮件发送到115.238.25.xxx所在的服务器,而正常通过Web请求的话仍然解析到A记录的IP地址。

CNAME记录

全称是Canonical Name(别名解析)。所谓的别名解析就是可以为一个域名设置一个或者多个别名。

如将taobao.com解析到xulingbo.net,将srcfan.com也解析到xulingbo.net。其中xulingbo.net分别是taobao.com和srcfan.com的别名。

NS记录

为某个域名指定DNS解析服务器,也就是这个域名有指定的IP地址的DNS服务器去解析

TXT记录

为某个主机名或域名设置说明

CDN架构

一个用户访问某个静态文件(如CSS文件),这个静态文件的域名加入是cdn.taobao.com,那么首先要向Local DNS服务器发起请求,一般经过迭代解析后回到这个域名的注册服务器去解析。一般每个公司都会有一个DNS解析服务器。这时这个DNS解析服务器通常会把它重新CNAME解析到另一个域名,而这个域名最终会被指向CND全局中的DNS负载均衡服务器,再由这个GTM来最终分配是哪个地方的访问用户,返回给离这个访问用户最近的CDN节点。

拿到DNS解析结果,用户就直接去这个CND节点访问这个静态文件了,如果这个节点中请求的文件不存在,就会再回到源站去获取这个文件,然后再返回给用户。

Last updated