Kubernetes Pod 异常重启巡检

背景

Kubernetes 帮助用户自动调度和扩展容器化应用程序，但现代 Kubernetes 环境正变得越来越复杂，当平台和应用工程师需要调查动态、容器化环境中的事件时，寻找最有意义的信号可能涉及许多试错步骤。通过智能巡检可以根据当前的搜索上下文过滤异常，从而加快事件调查、减轻工程师的压力、减少平均修复时间并改善最终用户体验。

前置条件

在观测云中开启「容器数据采集」
自建 DataFlux Func 的离线部署
开启自建 DataFlux Func 的脚本市场
在观测云「管理 / API Key 管理」中创建用于进行操作的 API Key
在自建的 DataFlux Func 中，通过「脚本市场」安装「观测云自建巡检 Core 核心包」「观测云算法库」「观测云自建巡检（K8S-Pod重启检测）」
在自建的 DataFlux Func 中，编写自建巡检处理函数
在自建的 DataFlux Func 中，通过「管理 / 自动触发配置」，为所编写的函数创建自动触发配置。

如果考虑采用云服务器来进行 DataFlux Func 离线部署的话，请考虑跟当前使用的观测云 SaaS 部署在同一运营商同一地域

配置巡检

在自建 DataFlux Func 创建新的脚本集开启 Kubernetes Pod 异常重启巡检配置

Python
from guance_monitor__runner import Runner
from guance_monitor__register import self_hosted_monitor
import guance_monitor_k8s_pod_restart__main as k8s_pod_restart


# 观测云空间 API_KEY 配置(用户自行配置)
API_KEY_ID  = 'wsak_xxx'
API_KEY     = '5Kxxx'

# 函数 filters 参数过滤器和观测云 studio 监控\智能巡检配置中存在调用优先级，配置了函数 filters 参数过滤器后则不需要在观测云 studio 监控\智能巡检中更改检测配置了，如果两边都配置的话则优先生效脚本中 filters 参数

def filter_namespace(cluster_namespaces):
    '''
    过滤 namespace 自定义符合要求 namespace 的条件，匹配的返回 True，不匹配的返回 False
    return True｜False
    '''

    cluster_name = cluster_namespaces.get('cluster_name','')
    namespace = cluster_namespaces.get('namespace','')
    if cluster_name in ['k8s-prod']:
        return True

'''
任务配置参数请使用：
@DFF.API('K8S-Pod异常重启巡检', fixed_crontab='*/30 * * * *', timeout=900)

fixed_crontab：固定执行频率「每 30 分钟一次」
timeout：任务执行超时时长，控制在 15 分钟
'''

# Kubernetes Pod 异常重启巡检配置 用户无需修改
@self_hosted_monitor(API_KEY_ID, API_KEY)
@DFF.API('K8S-Pod异常重启巡检', fixed_crontab='*/30 * * * *', timeout=900)
def run(configs=[]):
    """
    参数：
        configs：
            配置需要检测的 cluster_name （集群名称，可选，不配置根据 namespace 检测）
            配置需要检测的 namespace （命名空间，必选）

        配置示例： namespace 可以配置多个也可以配置单个
        configs = [
        {
            "cluster_name": "xxx",
            "namespace": ["xxx1", "xxx2"]
        },
        {
            "cluster_name": "yyy",
            "namespace": "yyy1"
        }
        ]

    """
    checkers = [
         # 配置 Kubernetes Pod 异常重启巡检
        k8s_pod_restart.K8SPodRestartCheck(configs=configs, filters=[filter_namespace]),
    ]

    Runner(checkers, debug=False).run()

开启巡检

在观测云中注册检测项

在 DataFlux Func 中在配置好巡检之后可以通过直接再页面中选择 run() 方法点击运行进行注册，在点击发布之后就可以在观测云「监控 / 智能巡检」中查看并进行配置

在观测云中配置 Kubernetes Pod 异常重启巡检

启用/禁用

智能巡检默认是「禁用」状态，可手动「启用」，开启后，就可以对配置好的 Kubernetes 集群中 Pod 进行巡检了。

导出

智能巡检支持“导出 JSON 配置”。在智能巡检列表右侧的操作菜单下，点击「导出」按钮，即可导出当前巡检的 JSON 代码，导出文件名格式：智能巡检名称.json 。

编辑

智能巡检「Kubernetes Pod 异常重启巡检」支持用户手动添加筛选条件，在智能巡检列表右侧的操作菜单下，点击「编辑」按钮，即可对巡检模版进行编辑。

筛选条件：配置需要巡检 Kubernetes 的 cluster_name（集群名称，可选，不配置时检测所有 namespace）和需要检测的 namespace （命名空间，必填）
告警通知：支持选择和编辑告警策略，包括需要通知的事件等级、通知对象、以及告警沉默周期等

配置入口参数点击编辑后在参数配置中填写对应的检测对象点击保存开始巡检：

可以参考如下的 JSON 配置多个集群及命名空间信息

JSON
 // 配置示例： namespace 可以配置多个也可以配置单个
    configs =[
        {"cluster_name": "xxx", "namespace": ["xxx1", "xxx2"]},
        {"cluster_name": "yyy","namespace": "yyy1"}
    ]