kubeCon 2022 北美可观测相关 talks 观后感(1)

2022 KubeCon 北美站于十月在底特律召开。可观测性(observability)作为一个热门主题,有多达 7 个 talk。 最近 kubecon 官方也把所有 talk 的录像都放出了,所以在这篇文章主要就是记录了一下我对这几个 talk 录像的观后感,以及引发的思考。 Talk 1: Customer Centric Observability: How Intuit Reduced Time To Detect Customer Impact From 30+ Minutes To Under 3 Minutes. 直译:以客户为核心的可观测: Intuit 公司是如何将对客户体验有损情况的发现速度从30分钟+提速到3分钟 Intuit 公司是一家以财务软件为主的大型 SAAS 公司。并且根据讲者的介绍,所有 SAAS 子产品都是在 Intuit 的5大基础平台之上所构建出来的。 讲者所在的部门,就是5个基础平台之一,开发平台。他们的目标就是:让研发人员更快更稳的进行开发迭代。从他所提供的平台规模数据来看(百万核,2000+的微服务,900+团队,6000+开发人员,16000+命名空间),要达成这个目标是非常有挑战的。其中,可观测性建设就是挑战之一。 讲者总结了在优化前,他们的可观测能力建设的思路是 “以服务为中心进行监控” (system centric monitoring),而这种思路也确实让他们遇到很多问题。 缺乏对客户影响面的理解 MTTD 超过 30min 难以定位根因 更高额的可观测成本 不能充分利用可观测数据的价值 所以他们重新思考,从用户体验出发,采取以用户为核心的新思路进行可观测性建设,从而能更加直观的判断对于用户体验的影响面。当然,并不是要把产品中用户每一个可能的动作都视作为核心用户动作,他们为核心用户动作也制定了自己的定义:只有真正会带来 “价值” 的动作才是核心用户动作。 以这个新的思想为基础,他们建设了一个 FCI(Failed Customer Interactions) 平台,专注于监测核心用户动作的可用性,整体架构如下 首先平台提供了一个基于 OpenTelemtry 的监控埋点库。所有 app 或者浏览器都通过这套埋点库进行 trace 数据埋点。当终端用户进行操作时,所有重点操作都会以 span 的形式上传到 FCI 平台,并且会通过两种方式进行二次处理。...

2 min · 306 words · Me