基于 Event Sourcing 构建 containerd 运行时事件的可视化追踪架构

分布式架构

文章字数: 3.8k

阅读时长: 16 分

定义一个棘手的问题：超越快照式监控

传统的容器运行时监控，无论是 ctr task ls 还是 Prometheus 指标，本质上都是对系统在某个时间点的“状态快照”。我们看到的是 CPU 使用率、内存占用这些聚合后的结果，但却丢失了导致这些状态变化的“过程”与“因果”。当一个容器因为 OOMKilled 被重启时，Prometheus 记录的是重启后的新状态和一次 container_restarts_total 指标的跃升，但事件发生时的瞬时上下文、紧随其前的其他事件序列，都淹没在了采样周期的间隙中。

我们真正需要的，不是一张张孤立的照片，而是一部连续的、高保真的电影。一个能够让我们回溯、查询、甚至实时“目睹”运行时内部每一个生命周期事件的系统。这个系统需要将容器的创建、启动、停止、销毁等行为，视为一等公民，构建一个不可变的、可追溯的事件日志。这不仅仅是监控，这是对系统动态行为的深度洞察。

方案 A：传统的可观测性堆栈（Metrics + Logs + Traces）

这是最成熟、最常见的方案。使用 Prometheus 采集 cAdvisor 暴露的容器指标，用 Fluentd 或类似工具收集容器日志，通过 Jaeger 或 Zipkin 实现分布式追踪。

优势:
- 生态系统极其成熟，有大量的现成工具和集成方案。
- 社区支持广泛，几乎所有问题都能找到解决方案。
- 部署和运维相对标准化，SRE 团队对此非常熟悉。
劣势:
- 事件保真度低： 指标是聚合和采样的结果，天然会丢失精度。对于生命周期极短的容器或瞬时发生的事件（如 OOM），很可能在采样间隔中被完全错过。
- 因果关系模糊： 日志、指标和追踪数据是三个独立的筒仓。虽然可以通过 traceID 等方式进行关联，但要从海量数据中重建一个特定容器从创建到销毁的完整事件链，成本极高且不直观。
- 查询能力的局限性： PromQL 擅长时间序列的数学运算，但对于“查询过去1小时内所有发生过 OOM 事件并且重启失败的容器列表”这类复杂的、基于事件序列的查询，就显得力不从心。
- 可视化限制： Grafana 这类工具擅长绘制趋势图和仪表盘，但无法构建一个能实时反应系统拓扑和状态变迁的“动态数字孪生”界面。

方案 B：事件溯源（Event Sourcing）架构

这个方案彻底改变了思路。它不记录系统的“当前状态”，而是记录每一个导致状态变化的“事件”。当前状态，仅仅是所有历史事件按顺序聚合（fold/reduce）的结果。

优势:
- 完美的事件保真度： 每个事件都被完整、不可变地记录下来。我们拥有了系统的“完整历史记录”，没有任何信息丢失。
- 天然的因果链： 事件流本身就是一个按时间排序的因果链。分析系统行为变成了对这个事件序列的查询和分析，直观且强大。
- 时间旅行能力： 我们可以随时将系统的状态“重放”到过去的任意一个时间点，这对于调试、审计和复盘问题是无价的。
- 灵活的读取模型： 从单一的事件流，我们可以派生出（Project）无数个不同的读取模型（Read Model）。比如，一个模型用于实时告警，一个用于长期趋势分析，另一个则用于我们设想的实时可视化。
劣势:
- 架构复杂度更高： 需要引入事件总线、事件存储、投影器（Projector）等新组件，增加了系统的复杂性。
- 最终一致性： 读取模型是异步更新的，与事件源之间存在延迟。
- 存储成本： 存储所有事件而不是当前状态，可能会导致更高的存储需求。需要精细的生命周期管理策略。

最终选择与理由：拥抱 Event Sourcing

我们的目标是构建一个前所未有的、能够实时“感知”容器运行时脉搏的系统。传统方案的局限性恰恰是我们想要突破的。Event Sourcing 提供的完美保真度和强大的时序分析能力，是实现这一目标的唯一途径。最酷的是，这种架构让我们能够从根本上改变与系统交互的方式——从被动地查询聚合指标，到主动地探索和可视化事件流。这彻底改变了我们理解和诊断复杂系统行为的方式。

我们将构建一个完整的端到端系统，它由以下几个核心部分组成：

事件源 (Event Source): 一个 Go 服务，直接订阅 containerd 的事件 API。
事件存储 (Event Store): 使用 InfluxDB 作为高性能的时序数据库，存储不可变的事件流。
查询服务 (Query Service): 一个后端的 Go API，提供对事件流的查询和实时推送能力。
可视化前端 (Visualization Frontend): 一个 React 应用，使用 Emotion 库来动态渲染容器的状态，将后台数据流转化为生动的视觉语言。

graph TD
    subgraph Node
        A[containerd] -- gRPC Events API --> B(Event Collector Go Service);
    end

    B -- Publishes Events --> C[NATS Message Queue];
    C -- Subscribes Events --> D(Event Projector Go Service);
    D -- Writes Events as Points --> E[InfluxDB];

    subgraph Visualization Stack
        F[React UI with Emotion.js] -- WebSocket --> G(Real-time Query API Go Service);
        G -- Flux Queries --> E;
    end

    style A fill:#f9f,stroke:#333,stroke-width:2px
    style E fill:#2B2F38,stroke:#02B5E5,stroke-width:2px,color:#fff
    style F fill:#C4F4FE,stroke:#00A0BE,stroke-width:2px

核心实现概览

1. 事件采集器：从 containerd 捕获心跳

我们不通过轮询，而是直接利用 containerd 提供的事件服务。这能保证我们以最低的延迟和最高的保真度获取每一个事件。

collector/main.go:

package main

import (
	"context"
	"log"
	"os"
	"os/signal"
	"syscall"
	"time"
	"encoding/json"

	"github.com/containerd/containerd"
	"github.com/containerd/containerd/events"
	"github.com/nats-io/nats.go"
)

const (
	containerdSocket = "/run/containerd/containerd.sock"
	natsURL          = "nats://127.0.0.1:4222"
	natsSubject      = "containerd.events"
)

// AppEvent defines the structure of the event we publish.
type AppEvent struct {
	Timestamp time.Time   `json:"timestamp"`
	Type      string      `json:"type"`
	Namespace string      `json:"namespace"`
	Topic     string      `json:"topic"`
	ID        string      `json:"id,omitempty"`
	Extra     interface{} `json:"extra,omitempty"`
}

func main() {
	// --- 连接 NATS ---
	nc, err := nats.Connect(natsURL)
	if err != nil {
		log.Fatalf("FATAL: Failed to connect to NATS: %v", err)
	}
	defer nc.Close()
	log.Println("INFO: Connected to NATS server")

	// --- 连接 containerd ---
	client, err := containerd.New(containerdSocket)
	if err != nil {
		log.Fatalf("FATAL: Failed to connect to containerd: %v", err)
	}
	defer client.Close()
	log.Println("INFO: Connected to containerd daemon")

	ctx, cancel := context.WithCancel(context.Background())
	defer cancel()

	// --- 订阅 containerd 事件 ---
	// 我们订阅所有事件，用 "topic~=.*"
	eventCh, errCh := client.EventService().Subscribe(ctx, "topic~=.*")
	log.Println("INFO: Subscribed to containerd event stream")

	// --- 优雅退出处理 ---
	sigCh := make(chan os.Signal, 1)
	signal.Notify(sigCh, syscall.SIGINT, syscall.SIGTERM)

	log.Println("INFO: Event collector is running...")

	for {
		select {
		case envelope := <-eventCh:
			// 这里的 envelope.Event 是一个 any 类型，需要类型断言来获取具体内容
			// 为了通用性，我们先序列化成 JSON 再解析，虽然性能不是最优，但最灵活
			eventBytes, err := json.Marshal(envelope.Event)
			if err != nil {
				log.Printf("WARN: Failed to marshal event payload: %v", err)
				continue
			}
			var extraData interface{}
			json.Unmarshal(eventBytes, &extraData)

			appEvent := AppEvent{
				Timestamp: envelope.Timestamp,
				Type:      envelope.Type,
				Namespace: envelope.Namespace,
				Topic:     envelope.Topic,
				ID:        getEventID(envelope),
				Extra:     extraData,
			}
			
			payload, err := json.Marshal(appEvent)
			if err != nil {
				log.Printf("WARN: Failed to marshal app event: %v", err)
				continue
			}

			// --- 将事件发布到 NATS ---
			if err := nc.Publish(natsSubject, payload); err != nil {
				log.Printf("ERROR: Failed to publish event to NATS: %v", err)
			} else {
				log.Printf("DEBUG: Published event: %s to %s", appEvent.Topic, appEvent.ID)
			}

		case err := <-errCh:
			log.Printf("ERROR: Received error from event stream: %v", err)
			// 在生产环境中，这里应该有重连逻辑
			cancel()
			// 优雅地等待一小段时间再退出，避免日志丢失
			time.Sleep(1 * time.Second)
			os.Exit(1)

		case <-sigCh:
			log.Println("INFO: Received shutdown signal, exiting...")
			cancel()
			// 等待所有goroutine结束
			time.Sleep(1 * time.Second)
			return
		}
	}
}

// getEventID 尝试从不同类型的事件中提取一个唯一的标识符，通常是容器ID。
func getEventID(e *events.Envelope) string {
	switch e.Topic {
	case "/containers/create", "/containers/update", "/containers/delete":
		event, ok := e.Event.(*events.ContainerCreate)
		if ok { return event.ID }
		eventUpd, ok := e.Event.(*events.ContainerUpdate)
		if ok { return eventUpd.ID }
		eventDel, ok := e.Event.(*events.ContainerDelete)
		if ok { return eventDel.ID }
	case "/tasks/start", "/tasks/oom", "/tasks/exit", "/tasks/delete":
		// Task 事件中通常包含 ContainerID
		event, ok := e.Event.(*events.TaskStart)
		if ok { return event.ContainerID }
		eventOOM, ok := e.Event.(*events.TaskOOM)
		if ok { return eventOOM.ContainerID }
		eventExit, ok := e.Event.(*events.TaskExit)
		if ok { return eventExit.ContainerID }
		eventDel, ok := e.Event.(*events.TaskDelete)
		if ok { return eventDel.ContainerID }
	}
	return ""
}

这段代码的核心是创建了一个守护进程，它像一个听诊器一样贴在 containerd 上，将内部发生的每一个事件都实时地、不加修改地转发到 NATS 消息队列中。这是我们事件溯源系统的“事实之源”。

2. 事件投影器：将时序数据写入 InfluxDB

这个服务消费 NATS 中的事件，并将其“投影”成 InfluxDB 中的数据点（Point）。这一步是 Event Sourcing 架构的关键，它将原始事件流转化为一个可供高效查询的读取模型。

projector/main.go:

package main

import (
	"context"
	"encoding/json"
	"log"
	"os"
	"os/signal"
	"syscall"
	"time"

	"github.com/influxdata/influxdb-client-go/v2"
	"github.com/influxdata/influxdb-client-go/v2/api"
	"github.com/nats-io/nats.go"
)

const (
	natsURL     = "nats://127.0.0.1:4222"
	natsSubject = "containerd.events"
	influxURL   = "http://localhost:8086"
	influxToken = "my-super-secret-token" // 生产环境中应使用环境变量或 secrets 管理
	influxOrg   = "my-org"
	influxBucket= "containerd_events"
)

// AppEvent 结构与 collector 中的保持一致
type AppEvent struct {
	Timestamp time.Time   `json:"timestamp"`
	Type      string      `json:"type"`
	Namespace string      `json:"namespace"`
	Topic     string      `json:"topic"`
	ID        string      `json:"id,omitempty"`
	Extra     interface{} `json:"extra,omitempty"`
}

func main() {
	// --- 连接 InfluxDB ---
	client := influxdb2.NewClient(influxURL, influxToken)
	defer client.Close()
	// 使用批处理写入以提高性能
	writeAPI := client.WriteAPI(influxOrg, influxBucket)

	// 捕获写入错误
	go func() {
		for err := range writeAPI.Errors() {
			log.Printf("ERROR: Async write error to InfluxDB: %s", err.Error())
		}
	}()
	log.Println("INFO: Connected to InfluxDB and initialized write API")
	
	// --- 连接 NATS ---
	nc, err := nats.Connect(natsURL)
	if err != nil {
		log.Fatalf("FATAL: Failed to connect to NATS: %v", err)
	}
	defer nc.Close()

	// --- 订阅 NATS 主题 ---
	sub, err := nc.SubscribeSync(natsSubject)
	if err != nil {
		log.Fatalf("FATAL: Failed to subscribe to NATS subject: %v", err)
	}
	log.Printf("INFO: Subscribed to NATS subject '%s'", natsSubject)

	// --- 优雅退出处理 ---
	sigCh := make(chan os.Signal, 1)
	signal.Notify(sigCh, syscall.SIGINT, syscall.SIGTERM)

	log.Println("INFO: Event projector is running...")

	ctx, cancel := context.WithCancel(context.Background())
	defer cancel()

	go func() {
		<-sigCh
		log.Println("INFO: Received shutdown signal, draining NATS subscription...")
		sub.Drain()
		log.Println("INFO: Flushing InfluxDB write buffer...")
		writeAPI.Flush()
		cancel()
	}()

	for {
		// 使用 NextMsgWithContext 以便能被取消
		msg, err := sub.NextMsgWithContext(ctx)
		if err != nil {
			// context.Canceled
			log.Println("INFO: NATS subscription context canceled. Exiting loop.")
			break
		}
		
		var event AppEvent
		if err := json.Unmarshal(msg.Data, &event); err != nil {
			log.Printf("WARN: Failed to unmarshal event from NATS: %v", err)
			continue
		}

		// 将事件转换为 InfluxDB Point
		// Tags 用于索引和快速查询
		tags := map[string]string{
			"namespace": event.Namespace,
			"event_type": event.Type,
			"topic": event.Topic,
		}
		if event.ID != "" {
			tags["container_id"] = event.ID
		}

		// Fields 存储具体数据
		// 将整个 extra payload 序列化为 JSON 字符串存入一个 field
		extraJSON, _ := json.Marshal(event.Extra)
		fields := map[string]interface{}{
			"payload": string(extraJSON),
			"id": event.ID, // 也存一份在 field 里方便提取
		}

		point := influxdb2.NewPoint(
			"lifecycle_events", // Measurement
			tags,
			fields,
			event.Timestamp, // 使用事件自身的时间戳
		)

		// 异步写入 Point
		writeAPI.WritePoint(point)
	}

	log.Println("INFO: Projector has shut down.")
}

我们选择 InfluxDB 是因为它太适合这个场景了。事件天生就带有时间戳，InfluxDB 的数据模型（Measurement, Tags, Fields, Timestamp）能完美地映射我们的事件结构。Tags 提供了极其高效的元数据查询能力，比如 WHERE event_type='tasks/oom'，而 Fields 则可以存储非索引的详细负载。

3. 可视化前端：用 Emotion 赋予数据生命

这是整个架构中最具创造性的部分。我们将不再满足于曲线图和饼图，而是要创造一个“活”的仪表盘。每个容器都是一个组件，它的视觉表现（颜色、大小、边框、动画）由其实时状态驱动。

components/ContainerNode.js:

import React from 'react';
import { css, keyframes } from '@emotion/react';

// 定义一些动画
const fadeIn = keyframes`
  from { opacity: 0; transform: scale(0.8); }
  to { opacity: 1; transform: scale(1); }
`;

const pulseRed = keyframes`
  0% { box-shadow: 0 0 0 0 rgba(255, 82, 82, 0.7); }
  70% { box-shadow: 0 0 0 10px rgba(255, 82, 82, 0); }
  100% { box-shadow: 0 0 0 0 rgba(255, 82, 82, 0); }
`;

// 基础样式
const baseStyle = css`
  padding: 12px 16px;
  margin: 8px;
  border-radius: 6px;
  transition: all 0.3s ease-in-out;
  font-family: 'Fira Code', monospace;
  font-size: 14px;
  color: white;
  min-width: 200px;
  animation: ${fadeIn} 0.5s ease-out;
  border: 1px solid transparent;
`;

// 根据状态派生出不同的样式
const stateStyles = {
  CREATED: css`
    background-color: #5f6c7b;
    border-color: #9ab;
  `,
  RUNNING: css`
    background-color: #28a745;
    border-color: #6ee38a;
  `,
  PAUSED: css`
    background-color: #ffc107;
    border-color: #ffe083;
    color: #333;
  `,
  STOPPED: css`
    background-color: #dc3545;
    border-color: #f1808b;
    opacity: 0.8;
  `,
  DELETED: css`
    background-color: #343a40;
    border-color: #6c757d;
    opacity: 0.6;
    transform: scale(0.95);
  `,
};

// 瞬时事件的视觉效果
const eventEffects = {
  'tasks/oom': css`
    animation: ${fadeIn} 0.5s ease-out, ${pulseRed} 1.5s ease-out;
  `,
};

const ContainerNode = ({ container }) => {
  const { id, state, lastEvent } = container;

  // 组合样式：基础样式 + 状态样式 + 事件效果
  const combinedCss = css`
    ${baseStyle};
    ${stateStyles[state] || stateStyles.CREATED};
    ${lastEvent && eventEffects[lastEvent.topic]};
  `;

  return (
    <div css={combinedCss}>
      <strong>ID:</strong> {id.substring(0, 12)}...
      <br />
      <strong>State:</strong> {state}
      {lastEvent && (
        <span css={css`display: block; font-size: 12px; opacity: 0.9; margin-top: 4px;`}>
          Last Event: {lastEvent.topic}
        </span>
      )}
    </div>
  );
};

export default ContainerNode;

这段代码的魅力在于，UI 组件的 css 属性是动态计算出来的。当一个容器的 state 变为 RUNNING，它的背景色会平滑过渡到绿色。如果它收到了一个 tasks/oom 事件，eventEffects 会给它加上一个红色的脉冲动画，即使这个事件非常短暂，也能在视觉上被清晰地捕捉到。这正是 Emotion 这样的 CSS-in-JS 库的强大之处：它让样式成为应用状态的函数，实现了前所未有的动态性和表现力。

架构的扩展性与局限性

这个架构最令人兴奋的是它的扩展性。我们今天可视化的是 containerd 的事件，明天就可以接入 Kubernetes API Server 的事件流、CI/CD 流水线的事件流，甚至是业务应用的领域事件。通过为不同的事件源编写新的投影器，我们可以将所有这些异构的事件流汇聚到 InfluxDB 中，在同一个可视化界面中观察它们之间的相互作用和因果关系。这为我们理解复杂的分布式系统打开了一扇全新的窗户。

当然，这套方案并非没有代价。它的实现复杂度远高于传统的监控堆栈。事件流的数据量可能非常庞大，对 InfluxDB 的写入性能和存储容量提出了很高的要求，必须设计精细的数据保留策略（Retention Policies）和降采样（Downsampling）任务。此外，构建一个高性能、信息密度高且不混乱的前端可视化界面本身就是一项复杂的前端工程挑战。它更适合作为一个专用的诊断和分析工具，而不是通用的监控仪表盘。

InfluxDB containerd Event Sourcing Emotion

为 Docker Swarm 集群构建基于 OpenSearch 和 GraphQL 的分布式追踪前端

2023-10-27 可观测性

Styled-components Docker Swarm OpenSearch GraphQL Express.js

构建异构请求合并网关 Tornado Micronaut 与 Ray 的协同实践

2023-10-27 分布式架构

Ray Tornado Micronaut 分布式计算高性能网关