当前位置: 首页 > 产品大全 > QCon北京2018 Apache Pulsar——实现实时数据处理中消息、计算与存储的统一

QCon北京2018 Apache Pulsar——实现实时数据处理中消息、计算与存储的统一

QCon北京2018 Apache Pulsar——实现实时数据处理中消息、计算与存储的统一

在QCon北京2018大会上,Apache Pulsar作为一个新兴的分布式消息流平台,吸引了众多开发者与架构师的关注。其核心愿景在于解决现代数据驱动型应用面临的复杂挑战——如何高效、统一地处理实时数据流,并弥合消息传递、实时计算与持久化存储之间的鸿沟。Pulsar的设计哲学并非简单替代现有的消息队列或流处理系统,而是旨在提供一个融合性的平台,将消息、计算和存储三层架构统一起来,构建下一代的数据处理和存储服务。

传统架构中,消息系统(如Kafka、RabbitMQ)、计算框架(如Flink、Spark Streaming)与存储系统(如HDFS、数据库)往往是分离的。这种分离导致了数据冗余、运维复杂、端到端延迟增加以及一致性保障困难等问题。Apache Pulsar通过其独特的架构设计,试图从根本上改变这一局面。

分层架构与统一模型
Pulsar的核心创新之一是其分层的系统架构。它将服务层(Broker)存储层(BookKeeper) 分离。Broker集群是无状态的,专门负责消息的传递、路由和轻量级处理;而持久化存储职责则由Apache BookKeeper负责,这是一个专为高吞吐、低延迟持久化日志数据而设计的分布式存储系统。这种分离带来了极佳的弹性扩展能力——计算(Broker)和存储(BookKeeper)可以独立扩展,互不影响。

在此架构基础上,Pulsar实现了消息、计算和存储的统一抽象。对于应用而言,Pulsar提供了一个统一的“流”模型。无论是作为消息队列(Queue)、发布订阅(Pub-Sub)还是更高级的流处理(Streaming)场景,都可以通过同一套API和主题(Topic)语义来操作。这意味着开发者无需在不同的系统间进行繁琐的数据搬运和格式转换,数据从摄入、处理到存储,可以在Pulsar内部高效流转。

统一的数据处理服务
Pulsar Functions 是Pulsar实现“计算统一”的关键组件。它是一个轻量级的计算框架,允许用户以简单的函数形式(Java、Python、Go等)直接在Pulsar集群上对数据流进行处理。这些函数可以消费来自一个或多个主题的消息,进行处理、转换、聚合后,将结果写入另一个主题。Pulsar Functions 的引入,使得一些简单的ETL、实时聚合或事件响应逻辑无需引入庞大的外部流处理引擎,直接在消息系统内部完成,极大地简化了架构,降低了延迟和运维成本。

对于更复杂的流处理任务,Pulsar通过原生的Pulsar IO 连接器框架和与主流计算引擎(如Apache Flink、Apache Spark、Apache Storm)的深度集成,无缝地将数据流桥接到外部计算框架中。Pulsar的“无限”数据保留策略(得益于BookKeeper的持久化能力)意味着历史数据可以直接在存储层进行访问,为批流一体(如Apache Flink的批流统一处理)和回溯分析提供了便利,进一步模糊了实时与离线处理的边界。

统一的存储服务
在存储层面,Apache BookKeeper 提供了坚实、可扩展的基石。它将数据以日志段(Ledger)的形式存储在多个存储节点(Bookie)上,保证了数据的强一致性和高可用性。Pulsar利用这一特性,实现了:

  1. 无限的积压(Backlog):消息可以被持久化存储任意长时间,而不像传统消息系统通常受内存或本地磁盘限制。
  2. 即时扩展与均衡:由于存储与计算分离,当需要增加存储容量时,只需添加新的Bookie节点,数据会自动进行再平衡,无需迁移整个Broker。
  3. 分层存储(Tiered Storage):Pulsar支持将较旧的数据从BookKeeper卸载到更廉价的存储系统(如AWS S3、Google Cloud Storage或HDFS)中,而对客户端完全透明。这实现了冷热数据的自动分层管理,在保证低延迟访问热数据的大幅降低了海量历史数据的存储成本,真正统一了在线和近线存储。

与展望
在QCon北京2018的分享中,Apache Pulsar所展示的“消息、计算和存储的统一”理念,指向了云原生时代数据处理架构的未来。它通过解耦、分层和原生集成的设计,提供了一个高性能、高弹性、易运维的一站式平台,用于构建实时数据管道和流式应用。

采用Pulsar意味着可以减少技术栈的复杂性,降低多系统间数据同步的延迟与风险,并能够灵活应对业务规模的增长。随着Pulsar生态的持续完善(如事务支持、Schema Registry的强化、更多连接器的开发),它正日益成为构建统一数据处理和存储服务的强力候选,为从物联网、实时分析到金融交易等广泛场景提供坚实的数据基础设施。

如若转载,请注明出处:http://www.ad-bdd.com/product/52.html

更新时间:2026-01-13 09:14:55

产品列表

PRODUCT