基于 Crossplane 声明式管理 Node.js 与 Couchbase 实现的 Saga 分布式事务

分布式系统

文章字数: 3.3k

阅读时长: 14 分

一个看似简单的业务需求——“用户下单时，必须同时扣减库存”，在微服务架构下会迅速演变成一个棘手的一致性问题。订单服务和库存服务是两个独立的部署单元，各自拥有独立的数据库。当订单记录成功创建后，库存服务却因网络抖动或自身故障扣减失败，数据就会陷入不一致的脏状态。传统的两阶段提交（2PC）因其同步阻塞模型和对协调者的强依赖，在追求高可用的分布式环境中往往不是理想选择。

我们团队遇到的挑战正是如此。订单数据存储在 Couchbase 中，利用其键值型的高性能特性；而库存服务是另一个独立的 Node.js 应用。我们的目标是构建一个既能保证最终一致性，又能避免跨服务同步锁的事务方案。Saga 模式成了最终的技术选型。

然而，Saga 模式本身也引入了新的复杂性：补偿逻辑的健壮性、Saga 执行状态的跟踪，以及整个应用栈（包括数据库、消息队列、应用本身）在多个环境（开发、测试、生产）中一致性部署的难题。后者尤其致命，任何环境的基础设施差异都可能导致 Saga 流程在生产环境中出现意料之外的失败。

这篇日志记录了我们如何通过 Node.js 实现一个轻量级的 Saga 协调器，利用 Couchbase 7.x 的原生 ACID 事务保证单个服务内操作的原子性，并最终使用 Crossplane 将整个高可用、事务性的应用栈封装成一个单一的、声明式的 API，从根本上解决环境一致性与部署复杂性的问题。

Saga 模式的核心实现：协调器与补偿逻辑

我们的 Saga 流程包含两个主要步骤和它们对应的补偿操作：

创建订单 (CreateOrder): 在 Couchbase 中创建一个状态为 PENDING 的订单文档。
- 补偿 (CancelOrder): 将订单文档的状态更新为 CANCELLED 或直接删除。
扣减库存 (DeductInventory): 调用库存服务，减少指定商品的库存量。
- 补偿 (RevertInventory): 调用库存服务，增加对应商品的库存量。

我们选择在订单服务中实现一个“协调式 Saga”。订单服务将驱动整个流程，依次调用各个参与者，并在失败时执行补偿。

下面是 Saga 协调器的核心 Node.js 实现。这段代码并非玩具，它包含了状态管理、重试逻辑的思考以及详尽的日志记录。

// src/saga/saga-coordinator.js

const { v4: uuidv4 } = require('uuid');
const CouchbaseService = require('../services/couchbase-service'); // 封装了 Couchbase SDK 操作
const InventoryService = require('../services/inventory-service'); // 模拟的库存服务客户端
const logger = require('../utils/logger'); // 一个生产级的 logger (e.g., pino)

class SagaCoordinator {
  constructor() {
    this.couchbaseService = new CouchbaseService();
    this.inventoryService = new InventoryService();
  }

  /**
   * 执行完整的下单 Saga 流程
   * @param {object} orderData - { userId, items, total }
   * @returns {Promise<{success: boolean, orderId: string, error?: any}>}
   */
  async executePlaceOrderSaga(orderData) {
    const sagaId = `saga::${uuidv4()}`;
    const context = { sagaId, orderId: null };
    logger.info({ context }, 'Starting PlaceOrderSaga...');

    // 步骤栈，用于记录已成功执行的步骤，以便在失败时反向补偿
    const completedSteps = [];

    try {
      // --- 步骤 1: 创建订单 ---
      const step1 = new CreateOrderStep(this.couchbaseService, orderData);
      context.orderId = await step1.execute(context);
      completedSteps.unshift(step1); // 成功后入栈
      logger.info({ context }, 'Step 1 [CreateOrder] successful.');

      // --- 步骤 2: 扣减库存 ---
      // 在真实项目中，这里可能是调用一个 RPC 接口或发送一条消息
      const step2 = new DeductInventoryStep(this.inventoryService, orderData.items);
      await step2.execute(context);
      completedSteps.unshift(step2);
      logger.info({ context }, 'Step 2 [DeductInventory] successful.');

      // --- Saga 成功，更新最终状态 ---
      // 这一步本身也需要原子性，因此使用 Couchbase 事务
      await this.couchbaseService.updateOrderStatus(context.orderId, 'CONFIRMED');
      logger.info({ context }, 'Saga completed successfully. Order confirmed.');

      return { success: true, orderId: context.orderId };

    } catch (error) {
      logger.error({ context, error: error.message, stack: error.stack }, 'Saga failed. Initiating compensation.');
      await this.compensate(context, completedSteps);
      return { success: false, orderId: context.orderId, error: 'Saga failed and was compensated.' };
    }
  }

  /**
   * 执行补偿逻辑
   * @param {object} context - Saga 的上下文
   * @param {Array<object>} stepsToCompensate - 需要补偿的步骤实例数组
   */
  async compensate(context, stepsToCompensate) {
    logger.warn({ context }, `Starting compensation for ${stepsToCompensate.length} steps.`);
    for (const step of stepsToCompensate) {
      try {
        if (typeof step.compensate === 'function') {
          await step.compensate(context);
          logger.info({ context, step: step.constructor.name }, 'Compensation step successful.');
        }
      } catch (compError) {
        // 补偿失败是一个严重问题。在生产环境中，这需要触发紧急警报。
        // 常见的策略是无限重试，或者记录到死信队列由人工介入。
        logger.fatal({ context, step: step.constructor.name, error: compError.message }, 'CRITICAL: Compensation step FAILED. Manual intervention required.');
        // 抛出异常或进入一个更复杂的重试循环
        // For this example, we stop compensation.
        break;
      }
    }
  }
}

// 定义每个步骤的接口
class SagaStep {
  constructor() {
    if (this.constructor === SagaStep) {
      throw new Error("Abstract classes can't be instantiated.");
    }
  }
  async execute(context) {
    throw new Error("Method 'execute()' must be implemented.");
  }
  async compensate(context) {
    // 补偿不是必须的
  }
}

// --- 具体步骤实现 ---

class CreateOrderStep extends SagaStep {
  constructor(couchbaseService, orderData) {
    super();
    this.couchbaseService = couchbaseService;
    this.orderData = orderData;
  }

  async execute(context) {
    const orderId = `order::${uuidv4()}`;
    const orderDoc = {
      ...this.orderData,
      orderId,
      status: 'PENDING', // 初始状态
      createdAt: new Date().toISOString(),
      sagaId: context.sagaId,
    };

    // Couchbase 7.x 之后提供了强大的分布式 ACID 事务能力。
    // 虽然这里只创建一个文档，但在更复杂的场景下，比如同时更新用户积分和订单，
    // 将这些操作包裹在 Couchbase 事务中能确保服务内部的原子性。
    // 这是一个关键点：Saga 解决服务间的最终一致性，而数据库事务保证服务内的强一致性。
    await this.couchbaseService.createOrderWithinTransaction(orderId, orderDoc);
    return orderId;
  }

  async compensate(context) {
    logger.warn({ context }, 'Compensating CreateOrderStep...');
    // 使用事务来更新状态，确保操作的原子性
    await this.couchbaseService.updateOrderStatus(context.orderId, 'CANCELLED_DUE_TO_SAGA_FAILURE');
  }
}

class DeductInventoryStep extends SagaStep {
  constructor(inventoryService, items) {
    super();
    this.inventoryService = inventoryService;
    this.items = items;
  }

  async execute(context) {
    // 模拟对外部服务的调用
    await this.inventoryService.deduct({
      transactionId: context.sagaId, // 传递 sagaId 以保证幂等性
      items: this.items,
    });
  }

  async compensate(context) {
    logger.warn({ context }, 'Compensating DeductInventoryStep...');
    await this.inventoryService.revertDeduction({
      transactionId: context.sagaId,
      items: this.items,
    });
  }
}

module.exports = SagaCoordinator;

这里的关键设计在于：

步骤的原子化与补偿对：每个 SagaStep 都是一个独立的单元，包含 execute 和 compensate 两个方法。
状态机思想：completedSteps 栈充当了一个简单的状态机。只有成功执行的步骤才会被推入，失败时，我们精确地知道需要从哪个状态开始回滚。
幂等性：对库存服务的调用传递了 sagaId 作为 transactionId。库存服务必须实现幂等性，确保即使我们的协调器因网络问题重试 deduct 操作，库存也只会被扣减一次。
Couchbase 事务：在 CreateOrderStep 中，创建订单和未来可能涉及的其他文档操作（如更新用户积分）被包裹在 Couchbase 的事务 API 中。这防止了服务内部出现部分成功的情况，简化了 Saga 步骤本身的设计。

基础设施的梦魇：从代码到声明式定义

Saga 的代码逻辑只是故事的一半。一个完整的应用栈还包括：

一个高可用的 Couchbase 集群。
Node.js 应用的 Kubernetes Deployment 和 Service。
可能用于解耦 Saga 步骤的消息队列（如 RabbitMQ 或 NATS）。
服务发现、配置、密钥管理等。

传统上，这些都需要通过复杂的 Helm Charts、Terraform 脚本或手动的 kubectl apply 来管理。在多环境中保持这些配置的同步是一项极易出错的繁重工作。

这正是 Crossplane 发挥作用的地方。Crossplane 允许我们将所有基础设施定义为 Kubernetes 的自定义资源（CRD）。我们可以创建一个更高层次的抽象，比如一个名为 CompositeTransactionalApp 的资源，它封装了部署一个完整 Saga 应用所需的一切。

我们的目标是让应用开发者只需提交一个简单的 YAML 文件，就能在任何 Kubernetes 集群上获得一个功能完整的、配置正确的、包含数据库和应用的环境。

graph TD
    subgraph "Developer's View (Single YAML)"
        A[AppClaim.yaml]
    end

    subgraph "Crossplane Control Plane"
        B(Composition: CompositeTransactionalApp)
        C{XRD: Defines AppClaim Schema}

        A --Creates--> K8sAPI --Watches--> C
        C --Defines--> B

        B --> D[Patches & Transforms Data]

        subgraph "Managed Resources (Generated by Composition)"
            E[CouchbaseCluster]
            F[KubernetesApplication]
            G[Secret]
            H[ConfigMap]
        end

        D --> E
        D --> F
        D --> G
        D --> H
    end

    subgraph "Infrastructure Providers"
        I[Provider-Couchbase]
        J[Provider-Kubernetes]
    end

    E --Managed by--> I
    F --Managed by--> J
    G --Managed by--> J
    H --Managed by--> J

1. 定义抽象资源 (XRD)

首先，我们定义 CompositeTransactionalApp 这个新 API 的 schema。

# xrds/composite-transactional-app.yaml
apiVersion: apiextensions.crossplane.io/v1
kind: CompositeResourceDefinition
metadata:
  name: compositetransactionalapps.platform.acme.corp
spec:
  group: platform.acme.corp
  names:
    kind: CompositeTransactionalApp
    plural: compositetransactionalapps
  claimNames:
    kind: AppClaim
    plural: appclaims
  versions:
  - name: v1alpha1
    served: true
    referenceable: true
    schema:
      openAPIV3Schema:
        type: object
        properties:
          spec:
            type: object
            properties:
              parameters:
                type: object
                properties:
                  namespace:
                    type: string
                    description: "The namespace to deploy all resources into."
                  image:
                    type: string
                    description: "The Docker image for the Node.js application."
                  couchbase:
                    type: object
                    properties:
                      version:
                        type: string
                        description: "Couchbase cluster version."
                        default: "7.2.0"
                      servers:
                        type: integer
                        description: "Number of servers in the Couchbase cluster."
                        default: 3
                required:
                  - namespace
                  - image
            required:
              - parameters

这个 XRD 定义了一个名为 AppClaim 的资源，开发者可以通过它来申请部署我们的应用。它暴露了几个可配置的参数，如部署的命名空间、应用镜像和 Couchbase 集群的规模。

2. 实现 Composition

Composition 是将抽象资源映射到具体基础设施资源（如 CouchbaseCluster、Deployment）的模板。

# compositions/transactional-app.yaml
apiVersion: apiextensions.crossplane.io/v1
kind: Composition
metadata:
  name: transactional-app.platform.acme.corp
  labels:
    provider: mixed
spec:
  compositeTypeRef:
    apiVersion: platform.acme.corp/v1alpha1
    kind: CompositeTransactionalApp
  resources:
    # --- 1. Couchbase Cluster ---
    - name: couchbase-cluster
      base:
        apiVersion: couchbase.crossplane.io/v1alpha1 # Assuming a Couchbase provider exists
        kind: CouchbaseCluster
        spec:
          forProvider:
            clusterSpec:
              # ... detailed couchbase cluster configuration ...
              security:
                adminSecret: couchbase-admin-credentials
              servers:
              - size: 1
                name: all_services
                services:
                - data
                - index
                - query
                - search
                - analytics
                - eventing
      patches:
        - fromFieldPath: "spec.parameters.namespace"
          toFieldPath: "metadata.namespace"
        - fromFieldPath: "spec.parameters.couchbase.version"
          toFieldPath: "spec.forProvider.clusterSpec.version"
        - fromFieldPath: "spec.parameters.couchbase.servers"
          toFieldPath: "spec.forProvider.clusterSpec.servers[0].size"

    # --- 2. Couchbase Admin Secret ---
    # In a real setup, this would come from a secret store like Vault.
    - name: couchbase-secret
      base:
        apiVersion: v1
        kind: Secret
        metadata:
          name: couchbase-admin-credentials
        type: Opaque
        stringData:
          username: "Administrator"
          password: "password" # NEVER do this in production. Use a secret generator.
      patches:
        - fromFieldPath: "spec.parameters.namespace"
          toFieldPath: "metadata.namespace"

    # --- 3. Node.js Application Deployment ---
    - name: nodejs-app
      base:
        apiVersion: kubernetes.crossplane.io/v1alpha1
        kind: Object
        spec:
          forProvider:
            manifest:
              apiVersion: apps/v1
              kind: Deployment
              spec:
                replicas: 2
                selector:
                  matchLabels:
                    app: saga-app
                template:
                  metadata:
                    labels:
                      app: saga-app
                  spec:
                    containers:
                    - name: app
                      ports:
                      - containerPort: 3000
                      env:
                      - name: COUCHBASE_HOST
                        value: "couchbase-cluster-service.default.svc" # This needs to be dynamic
                      - name: COUCHBASE_USER
                        valueFrom:
                          secretKeyRef:
                            name: couchbase-admin-credentials
                            key: username
                      - name: COUCHBASE_PASSWORD
                        valueFrom:
                          secretKeyRef:
                            name: couchbase-admin-credentials
                            key: password
      patches:
        - fromFieldPath: "spec.parameters.namespace"
          toFieldPath: "spec.forProvider.manifest.metadata.namespace"
        - fromFieldPath: "spec.parameters.image"
          toFieldPath: "spec.forProvider.manifest.spec.template.spec.containers[0].image"
        # Patch the Couchbase service DNS name based on the namespace
        - fromFieldPath: "spec.parameters.namespace"
          toFieldPath: "spec.forProvider.manifest.spec.template.spec.containers[0].env[0].value"
          transforms:
            - type: string
              string:
                fmt: "cb-example-srv.%s.svc"

这个 Composition 定义了三个核心资源：Couchbase 集群、一个用于存储管理员凭证的 Secret，以及应用的 Deployment。patches 字段是关键，它将开发者在 AppClaim 中指定的参数（如 image、namespace）动态地注入到基础设施模板中。

3. 开发者体验

现在，任何需要部署这套 Saga 应用的团队，只需向 Kubernetes API 提交一个极其简单的 YAML：

# claims/my-app-claim.yaml
apiVersion: platform.acme.corp/v1alpha1
kind: AppClaim
metadata:
  name: my-order-processing-app
  namespace: production-orders
spec:
  compositionRef:
    name: transactional-app.platform.acme.corp
  parameters:
    namespace: production-orders
    image: my-registry/order-app:v1.2.3
    couchbase:
      version: "7.2.4"
      servers: 5

当开发者执行 kubectl apply -f claims/my-app-claim.yaml，Crossplane 的控制器会检测到这个 AppClaim，找到匹配的 Composition，然后自动地、有序地创建出 Couchbase 集群和 Node.js 应用，并将它们正确地连接起来。整个过程是声明式的，并且由 Crossplane 持续地进行协调，确保实际状态始终与期望状态一致。

局限性与未来路径

这套方案并非银弹。我们实现的 Saga 协调器是内存中的，如果协调器服务在 Saga 执行中途崩溃，将会丢失状态，导致事务流程中断，可能需要人工干预。一个更鲁棒的生产级实现，需要将 Saga 的状态持久化。一个有趣的想法是，可以利用 Couchbase 本身来存储 Saga 日志或状态机文档，这样 Saga 状态的持久化也能被包含在平台提供的能力之内。

其次，补偿逻辑的复杂性会随着业务流程的增长而急剧上升。当 Saga 涉及到五六个甚至更多的服务时，协调器的代码会变得难以维护。此时，可能需要引入专门的流程引擎，如 Zeebe 或 Temporal.io，它们提供了更专业的 Saga 编排和状态管理能力。

最后，Crossplane 的生态系统，特别是其 Provider 的成熟度和功能覆盖范围，是决定这套方案能否顺利落地的关键。在选择使用 Crossplane 管理特定基础设施（如 Couchbase）时，必须深入评估对应 Provider 的质量。尽管如此，将基础设施从命令式脚本转变为声明式、可组合的 API，这一范式转变带来的工程效率提升和稳定性增益，是毋庸置疑的。

Couchbase NoSQL Node.js 分布式事务 Crossplane

构建集成 tRPC 与 Fluentd 的 TensorFlow CV 模型可观测服务管道

2023-10-27 MLOps

TensorFlow CV tRPC Fluentd Observability gRPC

采用CockroachDB与容器编排实现GraphQL服务的跨区域韧性架构

2023-10-27 分布式架构

容器编排 GraphQL Client CockroachDB Pinia