运维说给研发测试的心底话

互联网，讲究快速迭代，快速上线，敏捷开发。

有些固定上线时间的项目，可能因为技术方案变化，导致测试时间压缩，最终导致上线出问题，而由运维来背锅。

为保住KPI，运维有很多心里话想和研发测试说一说：

（1）“敏捷开发，频繁交付”的KPI，真不是增加运维人手就能解决的，需要自动化回归的支持，需要自动化上线的支持

（2）“上线失败，快速回滚”的KPI，真不是增加运维人手就能解决的，需要回滚方案的支持，而回滚方案真的测试过么

（3）“快速扩容，快速响应”的KPI，真不是增加运维人手就能解决的，需要架构设计的支持（很多系统无法水平扩展，来了机器，无法扩容），需要快速部署的支持，需要服务发现的支持（所有上游修改配置重启肯定是不行的），需要压力测试和容量评估的支持

（4）“系统高可用”的KPI，真不是增加运维人手就能解决的，需要优雅降级的支持，需要架构设计的支持，如何评判系统是否高可用？这个简单，关掉线上任何一台机器试试，看用户服务是否受影响，如果受影响，研发哥哥们拜托了

（5）“快速故障报警”的KPI，真不是增加运维人手就能解决的，需要监控系统的支持（操作系统和运维层面的监控，我们可以实施，但错误日志、接口、业务的监控呢？），另外报警短信能少一点么，过度报警会让人变得“麻木不仁”的

（6）“快速故障定位”的KPI，真不是增加运维人手就能解决的，需要数据量化健康信息的支持（58到家的守望者平台做的还是不错的），需要快速诊断的支持（58到家的调用链跟踪系统做的还是不错的）

（7）“快速故障恢复”的KPI，真不是增加运维人手就能解决的，需要故障转移的支持，相信我们，故障发生时，如果运维人员不知道怎么抉择，且又必须做出抉择，这时的抉择往往是错的（我们能做的，是重启），我们也不想凌晨打给你们，但希望你们能实现自动化方案

（8）“内审合规”的KPI，真不是增加运维人手就能解决的，在资源允许的情况下，请不要手动删除任何资源，数据是很重要的资源。访问控制和权限申请的流程，真的不是限制大家，相反，哪一次数据的误删除，不是我们加班来恢复的？宝宝心里苦呀

我们的KPI都掌握在大家的手里，技术一家人，希望研发测试的同学理解。

w3cschool 编程狮，随时随地学编程

运维说给研发测试的心底话

架构师通用设计与方法论

架构师典型架构实践

架构师数据库与缓存

架构师服务化与微服务

架构师消息系统

架构师消息总线架构

架构师搜索架构

架构师架构实践

架构师一致性问题

架构师一分钟系列

架构师通用素质

w3cschool 编程狮，随时随地学编程

运维说给研发测试的心底话

架构师 通用设计与方法论

架构师 典型架构实践

架构师 数据库与缓存

架构师 服务化与微服务

架构师 消息系统

架构师 消息总线架构

架构师 搜索架构

架构师 架构实践

架构师 一致性问题

架构师 一分钟系列

架构师 通用素质

架构师通用设计与方法论

架构师典型架构实践

架构师数据库与缓存

架构师服务化与微服务

架构师消息系统

架构师消息总线架构

架构师搜索架构

架构师架构实践

架构师一致性问题

架构师一分钟系列

架构师通用素质