什么是降级?

QA

Step 1

Q:: 什么是降级？

A:: 降级是指当系统负载超出预期，或者某些功能无法正常运行时，通过有策略地减少或关闭部分非核心功能，以保证系统整体的可用性和核心功能的正常运行。降级通常在流量高峰、系统故障或资源不足的情况下进行。

Step 2

Q:: 什么是熔断？

A:: 熔断是指当某个服务的错误率达到设定阈值时，自动停止该服务的调用，以防止错误继续传播或资源浪费。熔断机制类似于电路中的熔断器，通过快速切断故障点，保护系统整体的稳定性。

Step 3

Q:: 降级和熔断的区别是什么？

A:: 降级是从系统功能优先级的角度，逐步降低系统的负载，以保障核心功能的正常运行；而熔断则是在检测到服务错误率异常时，直接切断对该服务的调用，防止故障扩散。简而言之，降级是主动减少负载，熔断是被动停止调用。

Step 4

Q:: 降级策略有哪些常见的方式？

A:: 常见的降级策略包括延迟服务、服务功能关闭、页面异步请求降级、页面跳转降级、写操作降级和读操作降级。这些策略通过调整服务的优先级或功能，来缓解系统压力。

Step 5

Q:: 熔断机制如何配置和实现？

A:: 熔断机制通常通过配置错误率阈值、时间窗口和熔断持续时间等参数来实现。当服务的错误率在指定时间窗口内超过设定的阈值时，熔断器会触发，停止对该服务的调用。常见的实现方法包括使用Hystrix、Sentinel等工具。

用途

高可用性是系统设计的核心目标之一。在生产环境中，尤其是在高并发、大流量的场景下，系统可能会面临超负荷的风险，或出现不可预见的故障。此时，降级和熔断机制可以帮助系统稳定运行，避免全局性崩溃。降级通常在系统资源不足或业务流量激增时使用，以保证关键功能的正常运行；熔断则用于快速隔离故障服务，防止错误扩散，保护其他依赖服务的稳定性。这些机制在电商大促、抢购、金融支付等对系统稳定性要求极高的场景中尤为重要。\n

大规模分布式系统如何降级?

QA

Step 1

Q:: 大规模分布式系统中，如何进行有效的降级策略设计？

A:: 在大规模分布式系统中，降级策略的设计需要考虑业务的重要程度、服务的依赖关系以及可能的影响范围。通常的做法是对系统进行详细梳理，确定哪些业务是核心业务，哪些业务是辅助或非核心业务。对于核心业务，应尽量避免降级，而对于非核心业务则可以通过限流、降级或熔断等方式保护系统。降级策略可以包括手动降级、自动降级（基于预设的阈值），以及批量降级顺序管理。为了确保降级策略的有效性，建议在生产环境中进行定期演练。

Step 2

Q:: 什么是熔断机制？它在降级策略中起到什么作用？

A:: 熔断机制是一种保护系统的措施，当某个服务的失败率或响应时间超过设定的阈值时，会自动中断对该服务的调用，从而避免因为一个服务的故障导致整个系统崩溃。在降级策略中，熔断机制可以作为一种自动化的降级手段，当系统负载过高或某个服务不可用时，熔断机制可以快速切断对故障服务的调用，减轻系统负载并防止故障蔓延。

Step 3

Q:: 限流在分布式系统中的作用是什么？如何设置限流阈值？

A:: 限流是一种保护系统免受过载的方法，通过限制单位时间内的请求数来控制系统的负载。限流阈值的设置需要根据系统的承载能力、历史数据以及当前的业务需求来动态调整。通常可以使用令牌桶算法或漏桶算法来实现限流。限流的主要目的是确保系统在高并发情况下仍能稳定运行，防止因请求过多导致系统崩溃。

Step 4

Q:: 在分布式系统中，哪些情况需要触发降级操作？

A:: 触发降级操作的情况通常包括：1) 某个服务出现不可用或响应时间过长的情况；2) 系统整体负载过高，超过预设的承载能力；3) 外部依赖的第三方服务不可用或延迟过高；4) 大促期间流量激增，预期系统无法承受全部流量时；5) 监控报警频繁，系统健康状况恶化时。根据不同情况，降级操作可以是手动触发，也可以是自动触发。

用途

在面试中考察候选人对降级策略的理解，主要是为了评估其应对大规模分布式系统在高并发和故障情况下的处理能力。在实际生产环境中，降级策略经常用于应对流量激增（如大促活动）、部分服务故障以及外部依赖不稳定的情况。通过降级可以确保系统的核心业务在极端情况下仍能正常运行，而非核心业务则可以通过降级减少对系统的影响。\n

什么是熔断?

QA

Step 1

Q:: 什么是熔断？

A:: 熔断是一种微服务架构中的保护机制，用于应对雪崩效应。它可以防止服务调用链中的某个服务在不可用或响应时间过长时影响到整个系统。通过熔断机制，当检测到某个微服务不可用或响应超时时，系统会停止对该服务的调用，并快速返回错误响应。熔断机制可以在服务恢复后自动恢复调用，从而保障系统的稳定性。

Step 2

Q:: 熔断机制如何保护系统？

A:: 熔断机制通过在服务调用失败或超时次数达到设定阈值时，主动停止对该服务的调用，避免更多请求的积压和系统资源的浪费。当服务恢复正常时，熔断器会允许部分请求通过，以检测服务的恢复情况，直到完全恢复正常后，解除熔断状态。这样可以有效防止因单个服务故障导致的系统级别的雪崩效应。

Step 3

Q:: 熔断器和重试机制有什么区别？

A:: 熔断器是为了保护系统，在检测到服务不稳定时，主动停止对该服务的调用；而重试机制则是在调用失败时，尝试重新发起请求，通常会有一定的重试次数限制和延迟。两者可以结合使用，在一定次数的重试失败后触发熔断，避免进一步加重服务的负担。

用途

面试这个内容的原因是，微服务架构在生产环境中应用广泛，而熔断机制是确保微服务系统稳定性和高可用性的重要手段。特别是在大型分布式系统中，任何一个微服务的故障都可能引发连锁反应，导致系统整体性能下降甚至崩溃。掌握和理解熔断机制对于设计和维护高可靠性的微服务系统至关重要。在实际生产环境中，当服务调用链上的某个服务发生故障或响应过慢时，熔断机制会被触发，以保护系统的其他部分不受影响。\n

降级和熔断有什么区别?

QA

Step 1

Q:: 什么是降级？

A:: 降级是指在系统负载过高或者某些非核心服务出现故障的情况下，主动降低或关闭部分非核心功能，从而保证核心功能的可用性。降级的目标是让系统在部分服务不可用的情况下仍然能够提供基本的服务，避免整体崩溃。

Step 2

Q:: 什么是熔断？

A:: 熔断是一种保护机制，主要用于防止系统因为依赖的外部服务或第三方服务不可用而导致自身的资源耗尽。熔断器会监控调用外部服务的失败率，当失败率达到一定阈值时，会自动断开对该外部服务的调用，避免影响到主系统的稳定性。熔断器通常会有一个恢复机制，在外部服务恢复正常后会自动重新连接。

Step 3

Q:: 降级和熔断的区别是什么？

A:: 降级和熔断的主要区别在于应对的目标不同。降级是应对系统内部的故障或高负载情况，通过减少功能来保持系统的核心功能可用性。熔断则是应对外部依赖服务的故障，通过停止调用问题服务来保护自身系统的稳定性。简单来说，降级是从功能角度减少压力，熔断是从调用角度减少风险。

Step 4

Q:: 什么时候应该选择降级？

A:: 当系统自身面临高并发压力，或者某些非关键功能出现问题时，应该选择降级。比如，电商网站在大促期间可能会选择关闭推荐系统等非核心功能，以确保购物车和支付等关键功能的正常运行。

Step 5

Q:: 什么时候应该选择熔断？

A:: 当系统依赖的外部服务或第三方服务出现异常，导致调用失败率升高时，应该选择熔断。比如，支付系统依赖的第三方银行接口响应变慢或不可用时，熔断器会暂时停止调用该接口，以免拖垮整个支付系统。

用途

有哪些现成解决方案?

QA

Step 1

Q:: 为什么在微服务架构中需要熔断器？

A:: 在微服务架构中，服务之间的依赖非常紧密。如果某个服务出现故障而没有及时处理，可能会导致连锁反应，影响整个系统的稳定性。熔断器作为一种保护机制，可以在检测到服务调用失败时，自动熔断与该服务的调用，避免故障传播，并在服务恢复后自动恢复调用。这样可以提高系统的容错性和稳定性。

Step 2

Q:: Hystrix 和 Sentinel 的主要区别是什么？

A:: Hystrix 和 Sentinel 都是熔断降级的工具，但它们有一些关键的区别： 1. 隔离策略：Hystrix 主要通过线程池隔离，Sentinel 则支持信号量隔离。 2. 熔断降级策略：Hystrix 基于失败比率触发熔断，Sentinel 支持基于响应时间或失败比率触发。 3. 限流：Sentinel 支持基于 QPS 和调用关系的限流，而 Hystrix 支持有限。 4. 系统负载保护：Sentinel 提供系统负载保护，而 Hystrix 不支持。 5. 控制台：Sentinel 提供开箱即用的控制台，支持配置规则、查看监控数据等功能，Hystrix 控制台的功能相对较弱。

Step 3

Q:: 为什么选择 Sentinel 而不是 Hystrix？

A:: 虽然 Hystrix 曾经是熔断降级的标准选择，但由于其已经停止维护，且 Sentinel 提供了更强大的功能（如系统负载保护、限流、控制台支持等），在新项目中选择 Sentinel 会更具优势。此外，Sentinel 提供了丰富的扩展点，易于集成和扩展。

Step 4

Q:: Sentinel 如何实现限流？

A:: Sentinel 支持基于 QPS 的限流，同时支持根据调用关系进行限流。它通过滑动窗口的机制实时监控请求流量，并根据预设的限流规则决定是否拒绝请求。还支持慢启动模式，在流量突然增加时，逐步放开限流，避免系统负载突增。

Step 5

Q:: 如何从 Hystrix 迁移到 Sentinel？

A:: 从 Hystrix 迁移到 Sentinel 相对简单，主要步骤包括： 1. 将 Hystrix 相关依赖替换为 Sentinel 依赖。 2. 将 Hystrix 注解或代码逻辑替换为 Sentinel 提供的相应注解或 API。 3. 根据项目需要，配置 Sentinel 的限流、熔断等规则。 4. 测试并优化迁移后的系统性能。可以参考 Sentinel 官方提供的迁移指南，详细了解具体步骤和注意事项。

用途

在微服务架构中，熔断器是保证系统稳定性和高可用性的重要组件。当某个服务出现异常或性能问题时，熔断器可以快速隔离故障，避免问题扩散，并在服务恢复后自动恢复请求调用。因此，熔断器在大多数分布式系统中都是必不可少的，特别是在高并发、大规模微服务场景下。了解和掌握熔断器的实现和使用，能够帮助开发人员设计出更加健壮的系统，同时提高面试中的竞争力。\n

参考

QA

Step 1

Q:: 什么是服务降级，为什么需要服务降级？

A:: 服务降级是指在系统资源不足或出现异常情况下，通过限制或暂停部分非核心服务来保障核心服务的稳定运行。通常情况下，当系统负荷过重，某些服务出现故障或延迟时，为了保障重要功能的正常运作，我们会选择对一些不太重要的服务进行降级。服务降级可以有效地避免系统在高并发或异常情况下崩溃，确保核心任务的正常执行。

Step 2

Q:: 服务降级的常见方式有哪些？

A:: 常见的服务降级方式包括：1. 延迟服务，比如在高峰期延迟执行不紧急的操作。2. 关闭部分功能，比如关闭某些推荐功能。3. 页面异步请求降级，将一些次要的异步请求延迟或取消。4. 页面跳转，将部分页面直接跳转到固定的静态页面。5. 写降级，只进行缓存更新，异步处理写操作。6. 读降级，使用只读缓存替代实时数据查询。

Step 3

Q:: 服务降级和熔断有什么区别？

A:: 服务降级是为了在系统本身资源不足或故障时保证核心功能的稳定运行，通过降低或停止非核心功能的方式实现。而熔断则是为了保护系统不受外部依赖服务的故障影响。当一个外部服务不可用或响应时间过长时，熔断机制会中断与该服务的连接，避免它的异常蔓延到整个系统中。简而言之，降级主要是为了内部资源优化，而熔断则是为了应对外部服务故障。

Step 4

Q:: 什么是熔断机制？它的作用是什么？

A:: 熔断机制是为防止系统因外部依赖服务的故障而发生雪崩效应的一种保护措施。当某个服务的响应时间过长或频繁失败时，熔断器会中断对该服务的调用，直接返回错误响应。这种机制可以避免因单个服务的问题而导致整个系统的崩溃。当检测到该服务恢复正常后，熔断器会重新允许调用。熔断的核心作用在于隔离故障，避免故障蔓延。

Step 5

Q:: 有哪些常用的熔断器工具或框架？

A:: 常用的熔断器工具或框架包括：1. Hystrix：Netflix开源的熔断器组件，主要用于隔离系统故障。2. Sentinel：阿里巴巴开源的熔断和限流组件，具有更多的功能和更强的扩展性。3. Resilience4J：轻量级的熔断器框架，支持多种故障处理模式。4. Spring Retry：Spring提供的重试机制，可以结合熔断器使用，提供更加灵活的故障处理策略。

Step 6

Q:: Hystrix 和 Sentinel 有什么区别？

A:: Hystrix 和 Sentinel 都是用于熔断和服务降级的框架，但它们有一些关键区别。Hystrix 采用线程池隔离或信号量隔离的方式进行服务隔离，而 Sentinel 则支持信号量隔离。Sentinel 还具备更丰富的功能，如流量整形、系统负载保护等。此外，Sentinel 提供了一个更完善的控制台，可以实时监控和配置规则。而 Hystrix 虽然稳定，但目前已经停止维护，因此 Sentinel 更加适用于现代化的微服务架构。

用途

服务降级和熔断机制是保障高并发分布式系统稳定性的关键技术，特别是在电商大促销、流量高峰期或系统故障频发时尤为重要。这类技术可以帮助企业在极端情况下确保核心业务的连续性，避免因系统过载或外部服务故障导致的全面崩溃。面试这一内容的目的是考察候选人对高并发场景下系统可靠性保障措施的理解和实践能力，以及对分布式架构下的故障处理经验。\n

什么是降级?