架构师大作业

1. 架构方法
1. 架构师的主要职责
  1. 编写架构设计文档
  2. 开发变成框架
  3. 重构软件代码
  4. 设计系统架构
  5. 进行技术选型，解决技术应用中的问题
  6. 优化系统性能
  7. 模块分解与微服务架构重构
  8. 保障系统安全与高可用
  9. 大数据应用
  10. 技术创新
  11. 沟通管理
2. 架构师的主要能力
  1. 编程能力
  2. 基础技术掌握能力
  3. 常用技术产品的理解与应用能力
  4. 性能优化与分析故障的能力
  5. 常用架构模式和框架的理解与应用能力
  6. 建模以及设计文档的方法和能力
  7. 业务理解与功能模块及非功能模块的拆解能力
  8. 快速学习能力
  9. 沟通与领导能力
3. 软件架构
  1. 4+1架构视图
    1. 逻辑视图(logical view), 设计的对象模型
    2. 过程视图(process view), 捕捉设计的并发和同步特征
    3. 物理视图(physical view), 描述软件到硬件的映射，反映部署特性
    4. 开发视图(development view)，描述在开发环境中软件的静态组织结构
    5. 场景设图(scenarios), 描述用例场景
4. 使用UML进行软件架构设计与建模
  1. UML图的分类-静态建模
    1. 用例图
    2. 组件图
    3. 部署图
    4. 对象图
    5. 类图
    6. 包图
  2. UML图的分类-动态建模
    1. 时序图
    2. 协作图
    3. 活动图
    4. 状态图
  3. UML工具
    1. 使用ProcessOn快速绘制UML，如项目初期、草稿期间等
    2. 使用PlantUML(插件集成在VSCode, GoLand中，类似Markdown编程式画图)版本管理与团队协作
2. 软件设计原则
1. 面向对象编程与面向对象分析
2. 设计原则 - SOLID
  1. 单一职责原则
    1. 一个类只有一个引起他变化的原因
    2. 类的职责单一
  2. 开闭原则
    1. 对扩展开放，对修改关闭
    2. 不需修改代码就可以增加新功能
    3. 使用抽象去编程，如策略模式、适配器模式、观察者模式
  3. 里式替换原则
    1. 使用父类的地方，都可以用子类进行替换
    2. 主要用于衡量抽象或继承是否合理
    3. 设计时，类不是为了继承而设计，最好不要去继承他
    4. 子类比父类更严格
  4. 接口隔离原则
    1. 使用者只需关注自己需要使用到的接口
    2. 不强迫用户依赖他们不需要的方法
  5. 依赖倒置原则
    1. 高层不依赖于低层，低层也不依赖于高层，都依赖于抽象，而不依赖具体实现，由使用者来定义自己需要的接口
    2. service（低层）定义接口，controller（高层）去实现接口，这不属于依赖倒置
    3. controller定义自己的抽象，service去实现抽象，这是依赖倒置
    4. 常应用于框架的开发，使用框架时不需要调用框架提供的代码，针对框架提供的接口进行编程，框架通过接口调用我们的代码
    5. 架构师开发框架，制定规范，让别人依赖此规范进行开发
3. 设计模式
1. Reactor Framework - Flower
2. 设计模式
  1. 简单工厂
    1. 可通过配置文件配置关系，对简单工厂做一些改进。
  2. 单例模式
    1. 饿汉、懒汉、静态内部类、枚举等方式。
  3. 适配器模式
    1. 将一个已有的类（接口）的方法，以目前已经定好的方法（接口）提供出去。
    2. 类的适配器很有可能违反了里式替换原则。一般建议使用对象的适配器。
  4. 模板方法模式
    1. 以TestCase为例，实现了模版方法模式，子类只需要实现setUp/runTest/tearDown等方法，而调用流程由父类进行控制。
  5. 组合模式
    1. 树形结构，分为叶子节点还是非叶子节点。在组合模式中，进行父组件方法的调用，通过父组件包含子组件而遍历子组件，完成到子组件的调用。
    2. 将对象组合成树形结构以表示‘部分-整体’的层次结构。组合模式使得用户对单个对象和组合对象的使用具有一致性。
  6. 装饰模式
4. 系统架构
1. 互联网系统面临的挑战
  1. 高并发：大流量需要面对高并发用户，大流量访问不能设计一个高并发的系统，高并发是特征可以设计一个高性能高可用的系统
  2. 高可用：系统7x24小时不间断服务。服务器可以停机，系统不可以停机。不管有什么问题，系统服务不能停，这是有挑战的。高可用的架构有它的一套解决方案。
  3. 海量数据：需要存储、管理海量的数据
  4. 用户分布复杂，网络情况复杂
  5. 安全环境恶劣
  6. 需求快速变更，发布频繁
  7. 渐进式发展：好的互联网产品都是逐步运营出来的，不是一开始就开发好的。对技术提出了挑战。要求足够的技术支撑大部分技术在十年前就成熟了，在网站渐进式的发展过程中，在挑战下不断发展起来的。
2. 技术方向
  1. 垂直伸缩
  2. 水平伸缩
3. 架构演化
  1. 单体架构, 应用程序、文件存储、数据库都在一台服务器上
  2. 应用数据分离
  3. 使用缓存改善系统性能
  4. 使用应用服务器集群改善系统的并发处理能力
  5. 数据库读写分离，分摊读写压力，系统可用性增加
  6. 使用反向代理和CDN加速网站响应
  7. 使用分布式文件系统和分布式数据库服务器
  8. 使用NoSQL和搜索引擎
  9. 业务拆分
  10. 微服务及中台化
  11. 大数据与智能化
4. 架构模式
  1. 分层：将系统在横向维度上切分成几个部分，每个部分负责一部分相对比较单一的职责，然后通过上层对下层依赖和调用组成一个完整的系统。
  2. 分割：纵向切分。将不同的功能和服务分割开来，包装成高内聚低耦合的模块单元。有助于软件的开发和维护，也便于分布式部署，提高网站的并发处理能力和功能扩展能力。
  3. 分布式：将不同模块部署在不同的服务器上，通过远程调用协同工作。
  4. 集群：多台服务器部署相同应用构成一个集群，通过负载均衡共同对外提供服务。
  5. 异步：将一个业务操作分成多个阶段，每个阶段之间通过共享数据而不是直接调用的方法进行协作。从而加快响应速度，削峰，提供系统可用性。
  6. 冗余：保证服务器在出现故障的时候可以继续服务，数据不会丢失，就需要一定程度的服务器冗余、数据冗余备份。
  7. 自动化：无人值守的情况下网站可以正常运行。目前主要集中在运维方面。（例如自动监控，自动启动）
  8. 安全：通过密码手机验证码进行身份认证；网络通讯加密、敏感信息加密，使用验证码验证非机器操作，对于XSS、SQL注入进行编码转换，对于垃圾信息、敏感信息过滤，交易信息的风控等。
5. 核心要素
  1. 高性能：影响用户请求的所有环节都可以进行优化
  2. 高可用：当出现服务器宕机，服务或应用仍然可用。应用冗余，部署在多台服务器上构建集群。数据冗余，存储在多台服务器上互相备份。任何一台服务器宕机都不会影响应用的整体可用，也不会导致数据丢失。
  3. 可伸缩：不断向集群中加入服务器缓解不断上升的用户并发访问压力和不断增长的数据存储需求。可容易地向集群中添加新的服务器，并提供与原来的服务器无差别的服务。可容纳总的服务器数量无限制。
  4. 可扩展：系统增加新的业务产品时，对现有产品透明无影响，不需要任何改动或很少改动既有业务功能就可以上线新产品。少耦合。可通过事件驱动架构和分布式服务解决。
  5. 安全：针对现存和潜在的各种攻击与窃密手段，有可靠的应对策略。
5. 技术选型
1. 缓存
  1. 缓存特点
    1. 技术简单
    2. 性能提升显著
  2. 缓存关键指标
    1. 缓存键集合
    2. 缓存空间
    3. 缓存寿命
  3. 缓存类型
    1. 代理缓存
    2. 反向代理缓存
    3. CDN缓存
    4. 对象缓存
  4. 分布式缓存
    1. 分布式缓存架构
    2. 分布式缓存模型
    3. 一致性Hash算法
  5. 缓存注意事项
    1. 频繁修改的数据
    2. 没有热点的数据
    3. 数据不一致
    4. 缓存雪崩
2. 异步
  1. 异步回调
  2. 消息队列，基本角色：消息生产者，消息队列，消息消费者
  3. 消息队列的优势在于：实现异步处理，提升处理性能；更好的伸缩性；削峰填谷；失败隔离和自我修复；解耦；
  4. 主流产品：RabbitMQ、ActiveMQ、RocketMQ、Kafka
3. 负载均衡
  1. LB（Load Balance）的最终目的，是希望请求能均匀分发到每个服务器，以此提高性能、可用性、可靠性。
  2. 负载均衡架构：HTTP重定向负载均衡、DNS负载均衡、反向代理负载均衡、IP负载均衡、数据链路层负载均衡
  3. 负载均衡算法：轮询、加权轮询、随机、最少连接、原地址散列
4. 数据库
  1. 主从复制
    1. MySQL复制：主从复制、一主多从复制、主主复制
    2. MySQL一主多从的优点分摊负载专机专用（应用读请求，数据分析等场景可以分开，避免互相影响）便于冷备和热备高可用
    3. 主主复制两个数据库不能并发写入；复制只是增加读并发处理能力，没有增加写并发处理能力和存储能力；更新表结构会导致巨大的同步延迟；
  2. 数据分片
    1. 实现分片的方式
      1. 硬编码实现数据分片
      2. 映射表外部存储
  3. 分布式数据库中间件
  4. 数据库部署方案
    1. 单一服务与单一数据库
    2. 主从复制实现伸缩
    3. 两个web服务与两个数据库
    4. 综合部署
  5. 数据库架构
    1. 聚簇索引
    2. 非聚簇索引
5. CAP原理
  1. CAP原理介绍
    1. 一致性
    2. 可用性
    3. 分区耐受性
  2. CAP原理与数据一致性冲突
    1. 最终一致性
    2. 最终一致写冲突
    3. 客户端冲突解决
    4. 投票解决冲突（Cassandra）
    5. Cassandra分布式架构
    6. HBase架构
  3. 分布式系统脑裂
    1. 分布式一致性算法Paxos
    2. ZooKeeper
6. 性能优化
1. 性能测试
  1. 响应时间
  2. 并发数
  3. 吞吐量
  4. 性能计数器
  5. 性能测试方法
    1. 性能测试，负载测试，压力测试，稳定性测试
2. 性能优化
  1. 基本原则
    1. 你不能优化一个没有测试的软件
    2. 你不能优化一个你不了解的软件
  2. 一般方法
    1. 性能测试，获得性能指标（吞吐量，响应时间，并发数，性能计数器等）
    2. 指标分析，发现性能与资源瓶颈点
    3. 架构与代码分析，寻找性能与资源瓶颈关键所在
    4. 架构与代码优化，优化关键技术点，平衡资源利用
    5. 性能测试，进入性能优化闭环
  3. 分层思想
    1. 机房与骨干网络性能优化
    2. 服务器与硬件性能优化
  4. 软件架构性能优化三板斧
    1. 缓存
    2. 异步
    3. 集群
3. 程序运行时架构
  1. 进程运行时状态
    1. 运行：进程正在CPU上运行
    2. 就绪：进程获得了除CPU以外的一切所需资源，只要得到CPU，就能运行
    3. 阻塞：也称为等待或睡眠状态，当进程正在等待某一事件发生（如IO完成，锁等），此时即使把CPU分配给进程也无法执行
  2. 进程VS线程
  3. 线程安全
    1. 临界区
    2. 阻塞导致高并发系统崩溃
    3. 锁原语CAS
    4. 多CPU情况下的锁
  4. 文件控制块
    1. Linux inode文件控制块
    2. RAID独立硬盘冗余阵列
    3. 分布式文件系统HDFS
4. 数据结构和算法
  1. 复杂度
    1. 时间复杂度
    2. 空间复杂度
  2. NP问题
    1. 多项式时间
    2. P问题
    3. NP问题
    4. NP-hard问题
    5. NP完全问题
  3. 数据结构
    1. 数组
    2. 链表
      1. 跳表
    3. 哈希表
    4. 栈
    5. 堆
    6. 队列
    7. 树
      1. 二叉排序树
      2. 红黑(排序)树
  4. 常用算法
    1. 穷举算法
    2. 递归算法
    3. 贪心算法
      1. 改进贪心算法-迪杰斯特拉算法(最快路径)
    4. 动态规划
5. 网络
  1. 协议
    1. OSI七层协议
    2. TCP/IP四层协议
  2. 网络数据包的格式
  3. 物理层
  4. 链路层
  5. 传输层
  6. TCP/IP
    1. TCP建立连接的3次握手
    2. TCP关闭连接的4次挥手
  7. HTTP
    1. HTTP请求的7种方法
    2. HTTP协议版本
  8. I/O
    1. BIO
    2. NIO
    3. Select(Poll)
    4. ePoll
7. JVM 与秒杀
1. JVM组成结构
  1. 类加载的过程
  2. 自定义类加载器
2. Java字节码文件
  1. 字节码执行流程
3. 双亲委派机制
  1. 双亲委派机制如何被打破
4. JVM垃圾回收
  1. JVM垃圾回收器算法
    1. 分代收集算法
    2. 标记整理算法
    3. 标记清除算法
    4. 标记复制算法
5. Java启动参数
6. Java内存泄漏
7. 秒杀
  1. 秒杀系统设计原则
    1. 静态化
    2. 并发控制，防秒杀器
    3. 简化流程
    4. 前端优化
8. 微服务与 DDD
1. 微服务
  1. 互联网架构的演化
    1. 单体应用架构
      1. 技术扩展性
      2. 业务扩展性
    2. 分布式架构
      1. 每个应用都是从头到尾，自搭一套完整的体系，导致业务之间重复造轮子，造成资源浪费
      2. 各个应用数据相对集中且对外的服务和接口不完善，容易造成应用系统间东西向集成困难，产生信息孤岛
    3. SOA—面向服务
      1. 业务封装：通过服务化思想，提供更好的业务封装性，并通过标准技术，能更友好地对外输出业务能力
      2. 业务独立：SOA 服务不依附于某个具体应用，它可以独立地部署和扩展，这样避免了直接影响现有的系统
      3. 业务共享：服务通过封装通用的业务逻辑，可以供所有应用共享，解决了重复造轮子的问题
    4. 微服务架构
      1. 小服务+小应用
      2. 简单的技术实现手段
  2. 微服务架构评判标准
    1. 系统当前能支持现有业务，能带来收益。系统未来能方便扩展，持续带来收益。而要满足这个目标，微服务系统服务的拆分和关系至关重要
2. DDD
  1. DDD是什么
  2. DDD如何指导系统设计
    1. 专家参与
    2. 统一思想
      1. 现实对应：设计中名词和概念都是源于实际业务
      2. 充分讨论：讨论过程中可以将各放意见统一聚合，让各方充分了解对方想法，并最终统一思想
      3. 达成一致：达成一致的概念就是系统的稳定点，而未能达成充分一致的可能就是系统的变化点或扩展点，主要我们在设计上充分考虑
9. 系统安全与高可用
1. 软件组织原则
  1. 组件内聚原则
  2. 复用发布等同原则
  3. 版本号约定建议
  4. 共同封闭原则
  5. 共同复用原则
  6. 组件耦合原则
  7. 无循环依赖原则
  8. 稳定依赖原则
  9. 稳定抽象原则
2. 系统安全
  1. 常见攻击
    1. XSS攻击
    2. SQL注入攻击
    3. CSRF攻击
  2. 防御手段
    1. Web应用防火墙
    2. 网站安全漏洞扫描
    3. 加密
      1. 单向散列加密
      2. 对称加密
      3. 非对称加密
      4. 秘钥安全管理与加解密服务系统架构
    4. 反垃圾邮件
    5. 布隆过滤器黑名单
    6. 电子商务风险控制
    7. 规则引擎
    8. 机器学习
3. 系统高可用
  1. 可用性指标
    1. 故障分管理
    2. 故障处理流程及考核
    3. 引起故障的原因
  2. 高可用系统架构思路
    1. 解耦
      1. 高内聚、低耦合的组件设计原则
      2. 面向对象基本设计原则
      3. 面向对象设计模式
      4. 领域驱动设计建模
    2. 隔离
      1. 业务与子系统隔离
      2. 微服务与中台架构
      3. 生产者与消费者隔离
      4. 虚拟机与容器隔离
    3. 异步
      1. 多线程编程
      2. 反应式编程
      3. 异步通信网络编程
      4. 事件驱动异步架构
    4. 重试
    5. 备份（冗余）
      1. 集群设计
      2. 数据库复制（CAP原理）
    6. Failover（失效转移）
      1. 数据库主主失效转移
      2. 负载均衡失效转移
    7. 事务补偿
      1. 传统事务的ACID
      2. 分布式事务BASE
    8. 熔断
    9. 限流
      1. 限流算法
      2. 计数器（固定窗口、滑动窗口）
      3. 令牌桶算法
      4. 漏桶算法
      5. 自适应限流
    10. 降级
    11. 异地多活
  3. 高可用系统的运维策略
    1. 发布高可用
    2. 自动化测试
    3. 自动化部署
    4. 预发布验证
    5. 自动化发布
    6. 灰度发布
    7. 网站运行监控
      1. 监控系统架构
  4. 高可用价值观
    1. 保持简单，使问题易于发现，快速解决。
    2. 目标明确，解决特定环境下的具体问题。
    3. 价值回归，成本收益要合理。
10. 数据
1. 大数据
  1. 大数据技术
    1. 大数据技术介绍
      1. 1、大数据技术的起源
      2. 2、大数据技术体系
      3. 3、大数据技术的应用历史
      4. 4、大数据技术的应用领域
    2. 大数据存储之HDFS介绍
      1. 1、面临的问题
      2. 2、HDFS设计
      3. 3、如何存储一个大文件
      4. 4、如何保证系统的高可用以及存储文件的高可用
    3. 大数据计算之MapReduce介绍
      1. 1、需要解决的问题
      2. 2、MapReduce设计
      3. 3、MapReduce处理过程
      4. 4、MapReduce编程
    4. 大数据技术--Yarn的介绍
      1. 1、Yarn的诞生
      2. 2、Yarn的设计
    5. 大数据技术--Hive的介绍
      1. 1、Hive的诞生
      2. 2、Hive架构
      3. 3、Hive执行流程
  2. 大数据平台
    1. 数据采集与导入
    2. 数据处理
    3. 数据输出与展示
    4. 大数据平台Lamda架构原型
      1. 用Sqoop导入导出数据库数据
      2. 用Canal实时导入MySQL数据
      3. 用Flume从日志导入数据
      4. Flume级联部署
      5. FLume分布式部署
      6. 前端埋点采集数据
      7. 网络爬虫收集外部数据
2. Spark
  1. 1、spark的生态体系
  2. 2、Spark的特点
    1. 1）使用内存存储中间计算结果，更高效
    2. 2）基于RDD的编程模型
    3. 3）基于DAG切分的多阶段计算过程
  3. 3、Spark整体结构
  4. 4、Spark编程
3. 流计算
  1. Storm
    1. Storm的目标
    2. Storm的基本概念
    3. Storm的整体结构
    4. Storm应用场景
  2. Spark Streaming
  3. Flink
4. 数据可视化
  1. 互联网运营常用数据指标
    1. 1）新增用户数
    2. 2）用户留存率
    3. 3）用户流失率
    4. 4）活跃用户数
    5. 5）PV
    6. 6）GMV
    7. 7）转换率
  2. 数据可视化图表
    1. 1）折线图
    2. 2）散点图
    3. 3）热力图
    4. 4）漏斗图
5. 机器学习
  1. 1、网页排名算法 PageRank
  2. 2、KNN分类算法
  3. 3、贝叶斯分类算法
  4. 4、K-means聚类算法
  5. 5、推荐引擎算法
  6. 6、机器学习系统架构
11. 区块链
1. 数字货币的挑战
  1. 交易
2. 区块链
  1. 工作量证明
  2. 矿工
3. 以太坊
  1. 以太坊应用于企业级开发存在的问题
  2. Taireum重构以太坊
    1. Taireum联盟共识控制台
    2. 联盟共识智能合约是Taireum联盟链的宪法
    3. Taireum区块头
    4. Taireum联盟新成员许可入网
    5. Taireum记账共识算法
4. 联盟链技术 HyperLedger