Atlas Stream Processing 提供监控和警报功能,以便用户可以利用性能和状态见解来优化其工作流程。
在 Atlas 用户界面中监控流处理器实例
对于您的每个 Stream Processing 实例,您都可以在 Atlas 用户界面中监控您的流处理器:
单击 Monitoring(私有端点)标签页。
Monitoring 选项卡显示有关所选流处理器的各种运行时统计信息,包括但不限于:
摄取的消息数量
成功处理的消息数量
发送到您的 死信队列的消息数量
如果源连接是Apache Kafka ,则可以监控主题分区代理的当前偏移量和最新偏移量之间的延迟以及所有分区延迟的总和。
流处理器监控方法
Atlas Stream Processing 提供以下方法来按需报告有关流处理器的信息:
sp.processor.sample()
方法允许您查看所选的当前正在运行的流处理器输出的一小部分文档示例。用户可以将示例结果与预期结果进行比较,以诊断聚合管道设计中的任何错误。
sp.processor.stats()
方法会返回有关所选流处理器的各种运行时统计信息,包括但不限于:
摄取的消息数量
成功处理的消息数量
发送到您的死信队列的消息数量
管道状态的内存大小
管道定义
如果源连接是Apache Kafka,则可以监控以下可选指标:
partitionOffsetLag
表示主题分区的当前偏移量与代理上的最新偏移量之间的滞后。kafkaTotalOffsetLag
表示所有分区滞后的总和。
Datadog 中的流处理器指标
您可以向 Datadog 发送指标来监控您的流处理器。要了解如何配置集成以及哪些指标可用,请参阅与 Datadog 集成。
流处理器警报
当处理器状态发生变化或满足各种输入或输出阈值时,Atlas Stream Processing 会触发警报。有关可用的 Atlas Stream Processing 警报列表,请参阅 Atlas Stream Processing 警报。要了解有关警报配置的更多信息,请参阅配置警报设置。
您可以通过以下方式处理 Atlas Stream Processing 警报:
项目中的所有流处理器
在流处理实例中与配置的谓词匹配的所有流处理器
所有名称符合配置谓词的流处理器
对于除所有流处理器之外的目标,您可以为同一警报配置多个目标。