drvively
本站致力于IT相关技术的分享
融合C++与ScyllaDB构建为机器学习模型服务的亚毫秒级实时特征管道 融合C++与ScyllaDB构建为机器学习模型服务的亚毫秒级实时特征管道
一、 定义问题:不可能的延迟三角项目需求明确而严苛:为一套在线交易欺诈检测系统构建后端引擎。核心指标是P99延迟必须控制在5毫秒以内,从接收到交易事件到输出欺诈评分。数据源是每秒数万笔交易的原始数据流,同时需要关联用户过去1秒、1分钟、1小
2023-11-21
构建事件驱动的 Serverless 数据湖管道 Hudi 与 Iceberg 的架构权衡与实现 构建事件驱动的 Serverless 数据湖管道 Hudi 与 Iceberg 的架构权衡与实现
我们需要一个机制,将线上 PostgreSQL 数据库的变更数据(CDC)近乎实时地同步到数据湖中,用于后续的分析和模型训练。传统的 T+1 式 ETL 批处理延迟太高,无法满足业务对数据新鲜度的要求。而引入 Flink 或 Spark S
2023-10-27
基于OpenCV与ChromaDB构建具备反压机制的实时图像向量化管道 基于OpenCV与ChromaDB构建具备反压机制的实时图像向量化管道
我们团队的第一个迭代版本在一个关键问题上栽了跟头:系统在处理突发图像流时会周期性地崩溃。最初的架构很简单,一个消费者从RabbitMQ队列中拉取图片消息,调用一个预训练模型进行特征提取,然后将生成的向量存入ChromaDB。在敏捷开发的背景
2023-10-27
构建基于Delta Lake与Milvus的实时向量特征管道并实现Prometheus深度监控 构建基于Delta Lake与Milvus的实时向量特征管道并实现Prometheus深度监控
模型效果的衰减,往往不是从复杂的算法层面开始,而是从不起眼的数据管道延迟开始。在构建一个实时推荐系统中,我们面临的第一个核心挑战就是特征的“时效性”,尤其是对于向量化特征。一个用户的行为刚刚发生,我们期望在秒级内就能更新其向量表达,并投入到
2023-10-27
构建从Oracle到云端MariaDB的实时数据同步管道:基于Debezium与Kafka的生产实践 构建从Oracle到云端MariaDB的实时数据同步管道:基于Debezium与Kafka的生产实践
我们面临的第一个硬性约束,是必须在不中断核心业务的前提下,将一个承载了多年交易数据的 Oracle 11g 数据库逐步迁移至云服务商提供的 MariaDB 集群上。直接的“停机迁移”方案在项目启动的第一天就被否决了。业务方要求新旧系统并行运
2023-10-27
使用Ansible自动化部署基于Pandas与Azure Service Bus的容器化流式数据处理单元 使用Ansible自动化部署基于Pandas与Azure Service Bus的容器化流式数据处理单元
我们面临一个棘手的遗留系统集成问题。一个老旧的ERP系统以一种近乎实时的方式,将结构复杂、深度嵌套的JSON格式业务事件吐出。最初的解决方案是通过定时任务批量拉取文件,但这导致数据延迟高达数小时,分析团队对此怨声载道。我们需要一个更接近流式
2023-10-27