监控 – 白盒子

Linux系统性能问题排查思路（面试必备）

其他 first

主要方便排查系统问题，了解性能优化的思路和方法，掌握常用的 linux 性能工具。
CPU
常用的分析 CPU 使用情况的工具包括 top 、 ps 和 pid…

全栈声明式可观测：KubeVela开箱即用且灵活定制的云原生应用洞察

后端开发阿里云开发者

‍‍
KubeVela 是一个开箱即用的现代化应用交付与管理平台。本文我们将聚焦 KubeVela 的可观测体系，介绍云原生时代的可观测挑战及 KubeVel…

ElastAlert 基于Elasticsearch的监控告警

后端开发 java小王

Elastalert是Yelp公司用python2写的一个报警框架(目前支持python2.6和2.7，不支持3.x).
GitHub地址为 https://g…

打造融合式监控平台满足99%企业对监控告警的需求

后端开发河马

大家好，我是小斐呀。
在前面的文章中分享了一些基于 Prometheus 体系如何对网络设备的监控告警案例，后台私信也收到了很多粉丝朋友们的一些疑问和咨询，随着…

什么是分布式的“三围”？

后端开发二进制跳动

在分布式系统中，几个关键的衡量指标包括性能、资源、可用性和可扩展性。这些指标至关重要，因为性能直接影响系统的响应速度和吞吐量；资源衡量系统对计算和存储资源的有效…

一次访问Redis延时高问题排查与总结

后端开发阿里云开发者

作者抽丝剥茧的记录了一次访问Redis延时高问题的排查和总结。
背景
20230308 在某地域进行了线上压测, 发现接口RT频繁超时, 性能下降严重, P5…

实战总结｜记一次消息队列堆积的问题排查

后端开发阿里云开发者

本文记录了一次问题的排查过程，从中可以学到不少共性的方法论和经验教训，所以做了提炼归纳。（文末有活动）
一、背景

本次问题涉及的系统链路如上图，各系统的基本…

Redis 可观测最佳实践

后端开发北纬45度

Redis 介绍
Redis 是一个开源的高性能键值对（key-value）数据库。它通常用作数据库、缓存和消息代理。Redis 支持多种类型的数据结构，Red…

看了那些大厂做的监控，反观自己我陷入了沉思…

领域架构小南瓜

大家好，我是小斐呀。
7月26日，我有幸受邀出席了由中国计算机学会主办的第二届 CCF 夜莺开发者创新论坛。在此次会议中，我分享了一些关于网络可观测性的思考与实…

【完整教程】Prometheus+Grafana监控系统搭建

监控APM tim

一. 概述
1.1 Grafana介绍
Grafana是一个跨平台的开源的度量分析和可视化工具，可以通过将采集的数据查询然后可视化的展示，并及时通知。它主要有以…

干货 | 故障召回率提升34%，携程智能异常检测实践

监控APM 携程技术

作者简介
零一，携程算法工程师，专注于智能告警、容量管理、根因定位等领域。
一、背景
携程作为在线旅游公司，对外提供机票、酒店、火车票、度假等丰富的旅游产品，其…

可观测平台如何存储时序曲线？滴滴实践全历程分享

后端开发滴滴技术

滴滴的时序曲线量从 2017 年到 2023 年增长了几十倍。整个过程中我们不断地调整和改进以应对这样的增长。例如时序数据库的选型从最初的 InfluxDB，…

滴滴可观测平台 Metrics 指标实时计算如何实现了又准又省？

后端开发滴滴技术

在滴滴，可观测平台的 Metrics 数据有一些实时计算的需求，承载这些实时计算需求的是一套又一套的 Flink 任务。之所以会有多套 Flink 任务，是因为…

浅谈弹性计算管控可观测性体系建设

后端开发阿里云开发者

阿里妹导读
为什么需要可观测性？可观测性技术对业务团队的价值有哪些？如何建设一个可观测性技术体系？本文将从整体架构到核心设计一一为大家讲解。
前言
为什么需要…

三万字长文：JVM内存问题排查Cookbook

Java 阿里云开发者

阿里妹导读
本文主要系统性地整理了排查思路，为大家遇到问题时提供全面的排查流程，不至于漏掉某些可能性误入歧途浪费时间。
一、前言
本文又名《如何让对JVM一…

10倍性能提升-SLS Prometheus 时序存储技术演进

后端开发阿里云开发者

阿里妹导读
本文将介绍近期SLS Prometheus存储引擎的技术更新，在兼容 PromQL 的基础上实现 10 倍以上的性能提升。同时技术升级带来的成本红…

阿里技术：Khronos: 面向万亿规模时间线的性能监控引擎建设实践

监控APM 阿里技术

阿里巴巴智能引擎事业部自研的 Khronos 系统是阿里内部接入规模最大的性能数据存储引擎。Khronos 支持动态生命周期的存储计算分离架构，采用 schem…

被报警大量骚扰？来看看治理方法论

后端开发阿里云开发者

阿里妹导读
本文记录了作者组内监控治理过程和治理心得。
一、监控降噪背景
五月六月以来，蚂蚁开启监控治理主题，推进监控进一步完善，做到既能即时响应告警——五分…

实战总结｜一次访问Redis延时高问题排查与总结（续）

后端开发阿里云开发者

本文是一次访问Redis延时高问题排查与总结的续篇，主要讲述了当时没有发现的一些问题和解决方案。
背景
在今年4月份，笔者写的一次访问Redis延时高问题排…

揭秘盒马销量预测核心算法的技术演进

算法阿里技术

（本文阅读时间：20分钟）
销量预测作为供应链域的核心算法，目前已服务于全国百家级店仓，每日百万量级SKU的补货作业，在提升人效、降低缺货和损耗方面发挥了…