背景 最近在全面接手估计有1k+的生产日志的运维工作,每天面临着大量的投诉,大部分的诉求都是日志突然没了,为了对生产故障进行排查要紧急查看日志,由于应用系统数量和种类繁多,以及所有日志系统的网络架构的复杂性导致出现这种问题有时并不能快速解决,与其每天被动的的接受开发的投诉,还不如主动的对这1K+应用产生的Elasticsearch索引进行运维治理。 其实应用突然没日志无外乎下面几种: k8s pod里面的log挂载点发生了变化 log4j里面的日志路径发生了变化 应用上云后log4j里面的路径没有进行同步变更 还有…