大型网站与大数据系统的架构

记录一下个人看了一些大型网站架构文章后的理解，

Overview

衡量一个网站是否为大型网站，访问量和数据量二者缺一不可。除了海量数据和高并发的访问量，本身业务和系统的复杂度也是考察的方面
大型网站的技术挑战主要来自于庞大的用户，高并发的访问和海量的数据，任何简单的业务一旦需要处理数以PB计的数据和面对数以亿计的用户，问题就会变的很棘手
大型网站架构主要就是解决这类问题

1. 大型网站系统的特点

1.1 高并发High Concurrency，大流量

需要面对高并发用户，大流量访问。Google日均PV数35亿，日均IP访问数3亿；腾讯QQ的最大在线用户数1.4亿（2011年数据）；淘宝2012年“双十一”活动一天交易额超过192亿，活动开始第一分钟独立访问用户达1000万。

1.2 高可用High Availability

系统7*24小时不间断服务。

1.3 海量数据

需要存储、管理海量数据，需要使用大量服务器。Facebook每周上传的照片数据接近10亿，百度收录的网页数目数百亿，Google有近百万台服务器为全球用户提供服务。

1.4 用户分布广泛、网络情况复杂

许多大型互联网都是为全球用户提供服务的，用户分布范围广，各地网络情况千差万别。在国内，还有各个运营商网络互通难的问题。而中美光缆的数次故障，也让一些对国内外用户依赖较大的网站不得不考虑在海外建立数据中心。

1.5 安全环境恶劣

由于互联网的开放性，使得互联网站更容易受到攻击，大型网站几乎每天都会被黑客攻击。

1.6 需求快速变更，发布频繁

和传统软件的版本发布频率不同，互联网产品为快速适应市场，满足用户需求，其产品发布频率极高。一般大型网站的产品每周都有新版本发布上线，中小型网站的发布更频繁，有时候一天会发布几十次。

1.7 渐进式发展

几乎所有的大型互联网网站都是从一个小网站开始，渐进地发展起来的。Facebook是扎克伯格同学在哈佛大学的宿舍里开发的；Google的第一台服务器部署在斯坦福大学的实验室；阿里巴巴是在马云家的客厅诞生的。好的互联网产品都是慢慢运营出来的，不是一开始就开发好的，这也正好与网站架构的发展演化过程对应。

2. 大型网站架构技术一览

网站系统架构层次

2.1 前端架构

前端指用户请求到达网站应用服务器之前经历的环节，通常不包含网站业务逻辑，不处理动态内容。

2.1.1 浏览器优化技术

并不是优化浏览器，而是通过优化响应页面，加快浏览器页面的加载和显示，常用的有页面缓存、合并HTTP减少请求次数、使用页面压缩等。

2.1.2 CDN

内容分发网络，部署在网络运营商机房，通过将静态页面内容分发到离用户最近最近的CDN服务器，使用户可以通过最短路径获取内容。

2.1.3 反向代理

部署在网站机房，在应用服务器、静态资源服务器、图片服务器之前，提供页面缓存服务。

2.1.4 动静分离，静态资源独立部署

静态资源，如JS、CSS等文件部署在专门的服务器集群上，与Web应用动态内容服务分离，并使用专门的（二级）域名。

2.1.5 图片服务

图片不是指网站Logo、按钮图标等，这些文件属于上面提到的静态资源，应该和JS、CSS部署在一起。这里的图片指用户上传的图片，如产品图片、用户头像等，图片服务同样适用独立部署的图片服务器集群，并使用独立（二级）域名。

2.1.6 DNS

域名服务，将域名解析成IP地址，利用DNS可以实现DNS负载均衡，配置CDN也需要修改DNS，使域名解析后指向CDN服务器。

2.2 应用层架构

应用层是处理网站主要业务逻辑的地方。

2.2.1 开发框架

网站业务是多变的，网站的大部分软件工程师都是在加班加点开发网站业务，一个好的开发框架至关重要。一个好的开发框架应该能够分离关注面，使美工、开发工程师可以各司其事，易于协作。同时还应该内置一些安全策略，预防Web攻击。

2.2.2 页面渲染

将分别开发维护的动态内容和静态页面模板集成起来，组合成最终显示给用户的完整页面。

2.2.3 负载均衡

将多台应用服务器组成一个集群，通过负载均衡技术将用户请求分发到不同的服务器上，以应对大量用户同时访问时产生的高并发负载压力。

2.2.4 Session管理

为了实现高可用的应用服务器集群，应用服务器通常设计为无状态，不保存用户请求上下文信息。但是网站业务通常需要保持用户会话信息（记录用户行为轨迹），需要专门的机制管理Session，使集群内甚至跨集群的应用服务器可以共享Session。

2.2.5 动态页面静态化

对于访问量特别大而更新又不很频繁的动态页面，可以将其静态化，即生成一个静态页面，利用静态页面的优化手段加速用户访问，如CDN、反向代理、浏览器缓存等。

2.2.6 业务拆分

将复杂而庞大的业务拆分开来，形成多个规模较小的产品，独立开发、部署、维护，除了降低系统耦合度，也便于数据库业务分库。按业务对关系数据库进行拆分，技术难度相对较小，而效果又相对较好。

2.2.7 虚拟化服务器

将一台物理服务器虚拟化成多台虚拟服务器，对于并发访问较低的业务，更容易用较少的资源搭建出高可用的应用服务器集群。

2.3 服务层架构

提供基础服务给应用层调用，完成网站业务。

2.3.1 分布式消息

利用消息队列机制，实现业务和业务、业务和服务之间的异步消息发送及低耦合的业务关系。

2.3.2 分布式服务

提供高性能、低耦合、易复用、易管理的分布式服务，在网站实现面向服务SOA架构或者微服务Microservice架构。

2.3.3 分布式缓存

通过可伸缩的服务器集群提供大规模热点数据的缓存服务，是网站性能优化的重要手段。

2.3.4 分布式配置

系统运行需要配置许多参数，如果这些参数需要修改，比如分布式缓存集群加入新的缓存服务器，需要修改应用程序客户端的缓存服务器列表配置，并重启应用程序服务器。分布式配置在系统运行期提供配置动态推送服务，将配置修改实时推送到应用系统，无需重启服务器。

这里有两个点，

配置的集中式管理（由war包的静态xx.properties文件 -> 配置中心的动态获取、更新。如QConf，Disconf，zk）

代码的可动态更新配置能力（如日志level的动态调整）或者每次读conf都从源头去缓存再读

2.4 存储层架构

提供数据、文件的持久化存储访问与管理服务。

2.4.1 分布式文件

网站在线业务需要存储的文件大部分都是图片、网页、视频等比较小的文件，但是这些文件的数量非常庞大，而且通常都在持续增加，需要伸缩性设计比较好的分布式文件系统。

2.4.2 关系数据库

大部分网站的主要业务是基于关系数据库开发的，但是关系数据库对集群伸缩性的支持表较差。通过在应用程序的数据访问层增加数据库访问的路由功能，根据业务配置将数据库访问路由到不同的物理数据库上，从而实现关系数据库的分布式访问。

2.4.3 NoSQL数据库

目前各种NoSQL数据库层出不穷，在内存管理、数据模型、集群分布式管理等方面各有优势。

2.4.4 数据同步

拥有多个数据中心的网站必须在多个数据中心之间进行数据同步（CAP），以保证每个数据中心都拥有完整的数据。在实践中，为了减轻数据库压力，将数据库的事务/动作日志（或者NoSQL的写操作Log）同步到其他数据中心，根据Log进行数据重演，实现数据同步，即同步动作，而非同步动作后的数据。

2.5 后台架构

网站应用中，除了要处理用户的实时访问请求外，还有一些后台非实时数据分析要处理。

2.5.1 搜索引擎

对数据进行全量、增量的更新，构建索引等。这些操作通过后台系统定时执行。

2.5.2 数据仓库

根据离线数据，提供数据分析OLAP与数据挖掘服务。

2.5.3 推荐系统

社交网站及购物网站通过挖掘人与人之间的关系，人和商品之间的关系，发展潜在的人际关系和购物兴趣，为用户提供个性化推荐服务。

2.6 数据采集与监控

监控网站访问情况与系统运行情况，为网站运营决策和运维管理提供支持保障。

2.6.1 浏览器数据采集

通过在网站页面中嵌入JS脚本采集用户浏览器环境与操作记录，分析用户行为。

2.6.2 服务器业务数据采集

服务器业务数据包括两种，一种是采集在服务器端记录的用户请求操作日志，如query记录；一种是采集应用程序运行期业务数据，如待处理消息数目等。

2.6.3 服务器性能数据采集

采集服务器性能数据，如系统负载、内存使用率、网卡进、出流量等。

2.6.4 系统监控

将前述采集的数据以图表的方式展示，以便运营和运维人员监控网站运行状况，做到这一步仅仅是系统监视。更先进的做法是根据采集的数据进行自动化运维，自动处理系统异常状况，实现自动化控制。

2.6.5 系统报警

如果采集来的数据超过预设的正常情况的阀值，比如系统负载过高，就通过邮件、短信、语音电话等方式发出警报信号，等待工程师人工干预。

2.7 网站安全架构

保护网站免遭攻击及敏感信息的泄露。

2.7.1 Web攻击

以HTTP请求的方式发起的攻击，危害最大的就是XSS和SQL注入攻击。但是只要措施得当，这两种攻击都是比较容易防范的。

2.7.2 数据保护

敏感信息加密传输与存储，保护网站和用户资产。

2.8 数据中心机房架构

大型网站需要的服务器规模数以十万计，机房物理架构也需要关注。

2.8.1 机房架构

对于一个拥有十万台服务器的大型网站，每台服务器耗电（包括服务器本身耗电及空调耗电）每年大约需要人民币2000元，那么网站每年机房电费就需要两亿人民币。数据中心能耗问题日趋严重，Google、Facebook选择数据中心地理位置的时候趋向选择散热良好，供电充裕的地方。

2.8.2 机柜架构

包括机柜大小，网线布局、指示灯规格、不间断电源、电压规格（是48V直流电还是220V民用交流电）等一系列问题。

2.8.3 服务器架构

大型网站由于服务器采购规模庞大，大都采用定制服务器的方式代替购买服务器整机。根据网站应用需求，定制硬盘、内存、甚至CPU，同时去除不必要的外设接口（显示器输出接口，鼠标、键盘输入接口），并使空间结构利于散热。

3. 大型网站架构的演进

3.1 单机网站：初始阶段的网站架构

小型网站最开始没有太多人访问，只需要一台服务器就绰绰有余，应用程序、数据库、文件等所有资源都在一台服务器上（于小型博客类似），常见的LAMP(Linux+apache+mysql+php)架构。

单机网站架构

3.2 单机负载告警，应用服务与数据服务分离

随着网站业务的发展，一台服务器逐渐不能满足需求。越来越多的用户访问导致性能越来越差，越来越多的数据导致存储空间不足。这时就需要将应用和数据分离。应用和数据分离后整个网站使用3台服务器：应用服务器、文件服务器和数据库服务器。这3台服务器对硬件资源的要求各不相同。

应用服务器需要处理大量的业务逻辑，因此需要更快更强大的CPU

数据库服务器需要快速磁盘检索和数据缓存，因此需要更快的磁盘和更大的内存

文件服务器需要存储大量用户上传的文件，因此需要更大的硬盘

应用与数据服务器分离架构

应用和数据分离后，不同特性的服务器承担不同的服务角色，网站的并发处理能力和数据存储空间得到了很大改善，支持网站业务进一步发展。但是随着用户逐渐增多，网站又一次面临挑战：数据库压力太大导致访问延迟，进而影响整个网站的性能，用户体验受到影响。这时需要对网站架构进一步优化。

3.3 数据库压力太大导致访问延迟，使用缓存改善网站性能

网站访问的特点和现实世界的财富分配一样遵循二八定律：80%的业务访问集中在20%的数据上(热点数据hot data)。既然大部分业务访问集中在一小部分数据上，那么如果把这一小部分数据缓存在内存中，就可以减少数据库的访问压力，提高整个网站的数据访问速度，改善数据库的写入性能了。网站使用的缓存可以分为两种：缓存在应用服务器上的本地缓存和缓存在专门的分布式缓存服务器上的远程缓存。

本地缓存的访问速度更快一些，但是受应用服务器内存限制，其缓存数据量有限，而且会出现和应用程序争用内存的情况

远程分布式缓存可以使用集群的方式，部署大内存的服务器作为专门的缓存服务器，可以在理论上做到不受内存容量限制的缓存服务

应用服务器热点数据缓存架构

使用缓存后，数据访问压力得到有效缓解（大部分request被cache拦截了，不会再深入到DB中检索），但是单一应用服务器能够处理的请求连接有限，在网站访问高峰期，应用服务器成为整个网站的瓶颈。

3.4 应用服务器负载告警，使用应用服务器集群改善网站的并发处理能力

使用集群是网站解决高并发、海量数据问题的常用手段。当一台服务器的处理能力、存储空间不足时，不要企图去更换更强大的服务器，对大型网站而言，不管多么强大的服务器，都满足不了网站持续增长的业务需求。这种情况下，更恰当的做法是增加一台服务器来分担原有服务器的访问及存储压力。对网站架构而言，只要能通过增加一台服务器的方式来改善负载压力，就可以以同样的方式持续增加服务器不断改善系统性能，从而实现系统的可伸缩性。应用服务器实现集群是网站可伸缩架构设计中较为简单成熟的一种。

应用服务器集群的可伸缩架构

通过负载均衡(Nginx)调度服务器，可以将来自用户浏览器的访问请求分发到应用服务器集群中的任何一台服务器上，如果有更多用户，就在集群中加入更多的应用服务器，使应用服务器的压力不再成为整个网站的瓶颈。

3.5 数据库压力变大，数据库读写分离

网站在使用缓存后，使对大部分数据读操作访问都可以不走数据库就能完成，但是仍有一部分读操作（缓存访问不命中、缓存过期）和全部的写操作都需要访问数据库。在网站的用户达到一定规模后，数据库因为负载压力过高而成为网站的瓶颈。目前大部分的主流数据库都提供主从热备功能，通过配置两台数据库主从关系，可以将一台数据库服务器的数据更新同步到另一台服务器上。网站利用数据库的这一功能，实现数据库读写分离，从而改善数据库负载压力，即主写从读，然后主从同步复制。

数据库读写分离架构

应用服务器在写数据的时候，访问主数据库，主数据库通过主从复制机制将数据更新同步到从数据库，这样当应用服务器读数据的时候，就可以通过从数据库获得数据。为了便于应用程序访问读写分离后的数据库，通常在应用服务器端使用专门的数据访问模块，使数据库读写分离对应用透明。提到读写分离，我们更多的是想到数据库层面。事实上，广义的读写分离可以扩展到更多的场景。例如搜索引擎其实是一个读库。搜索引擎的技术解决了站内搜索时某些场景下读的问题，提供了更好的查询效率。缓存系统和搜索引擎、读库的定位是很类似的。

3.6 使用反向代理和CDN加速网站响应

随着网站业务不断发展，用户规模越来越大，由于国内复杂的网络环境，不同地区的用户访问网站时，访问速度有时候差别很大。有研究表明，网站访问延迟和用户流失率正相关，网站访问越慢，用户越容易失去耐心而离开。为了提供更好的用户体验，留住用户，网站需要加速网站访问速度。主要手段有使用CDN和反向代理。

网站前端快速响应架构

CDN 和反向代理的基本原理都是缓存，

CDN 部署在网络提供商的机房，使用户在请求网站服务时，可以从距离自己最近的网络提供商机房获取数据

反向代理则部署在网站的中心机房，当用户请求到达中心机房后，首先访问的服务器是反向代理服务器，如果反向代理服务器中缓存着用户请求的资源，就将其直接返回给用户

使用 CDN 和反向代理的目的都是尽早返回数据给用户，一方面加快用户访问速度，另一方面也减轻后端服务器的负载压力。

3.7 使用分布式文件系统和分布式数据库系统

任何强大的单一服务器都满足不了大型网站持续增长的业务需求。 数据库经过读写分离后，从一台服务器拆分成两台服务器，但是随着网站业务的发展依然不能满足需求，这时需要使用分布式数据库。文件系统也一样，需要使用分布式文件系统。

分布式文件、数据库架构

分布式数据库是网站数据库拆分的最后手段，只有在单表数据规模非常庞大的时候才使用。不到不得已时，网站更常用的数据库拆分手段是业务分库，将不同业务的数据部署在不同的物理服务器上（分库分表）。

分布式文件系统HDFS

分布式数据库系统OceanBase

3.8 弥补关系型数据库的不足，使用NoSQL和搜索引擎

随着网站业务越来越复杂，对数据存储和检索的需求也越来越复杂，网站需要采用一些非关系数据库技术如NoSQL和非数据库查询技术如搜索引擎。

advanced data access架构

NoSQL和搜索引擎都是源自互联网的技术手段，对可伸缩的分布式特性具有更好的支持。应用服务器则通过一个统一数据访问模块访问各种数据，减轻应用程序管理诸多数据源的麻烦。

3.9 业务拆分

大型网站为了应对日益复杂的业务场景，通过使用分而治之的手段将整个网站业务分成不同的产品线。如大型购物交易网站都会将首页、商铺、订单、买家、卖家等拆分成不同的产品线，分归不同的业务团队负责。具体到技术上，也会根据产品线划分，将一个网站拆分成许多不同的应用，每个应用独立部署。应用之间可以通过一个超链接建立关系（在首页上的导航链接每个都指向不同的应用地址），也可以通过消息队列进行数据分发，当然最多的还是通过访问同一个数据存储系统来构成一个关联的完整系统。

业务拆分架构

3.10 分布式服务调用

随着业务拆分得越来越小，存储系统越来越庞大，应用系统的整体复杂度呈指数级增加，部署维护越来越困难。由于所有应用要和所有数据库系统连接，在数万台服务器规模的网站中，这些连接的数目是服务器规模的平方，导致数据库连接资源不足，拒绝服务。既然每一个应用系统都需要执行许多相同的业务操作，比如用户管理、商品管理、订单管理等，那么可以将这些共用的业务提取出来，独立部署。由这些可复用的业务连接数据库，提供共用业务服务，而应用系统只需要管理用户界面，通过分布式服务调用共用业务服务完成具体业务操作。

分布式服务调用架构

大型网站的架构演化到这里，基本上大多数的技术问题都得以解决，诸如跨数据中心的实时数据同步、事务特性支持和具体网站业务相关的问题也都可以通过组合改进现有技术架构解决。在以上十个架构组织当中，有些单个的架构优化之路就很长，如果再多个组合起来，那么模块的兼容耦合衔接都会有不少的challenge。

大数据系统的架构

TODO

大数据处理的关键层次架构

The Hadoop Ecosystem Table

Reference

待读书单

PREVIOUSFlink关注点

NEXTGitHub持续集成CI