对运维工作的理解_对运维工作的理解是什么-程序员宅基地

技术标签: 运维  总结+笔记  技术管理系列  

背景

  • 2023年年初起,运维部合并为服务端研发部的一个小组。作为部门负责人第一次接管运维部门,虽然对运维人员的定位和工作职责有一定了解,但仍存在不清晰的地方。因此,重新对运维部门的定位和工作进行梳理,以便后续更好的开展工作。

运维行业的核心问题

  • 对运维行业而言,其所面临的问题本质上都是系统工程问题。是为了解决 IT 系统快速交付的问题、解决伸缩性的问题、解决稳定性的问题、解决运行维护成本不断提高的问题。
  • 目前来看,云计算、微服务对于运维行业的改变,要比ChatGPT来的要更实质性一些。

运维部门的定位

  • 在合理的成本范围内,最大限度的保障系统可用性和服务能力。
  • 建立一套持续改进机制,不断提高运维效率,不断降低运维成本。

运维的工作职责

  • 经典的运维领域,最主要的几个工作职责
    • 代码发布和交付(delivery),做好最后一公里的价值交付;
    • 提升架构的可伸缩性(scalability)并付诸实施;
    • 保障系统的稳定性(reliability)并不断改善;
    • 在满足前三项目标的同时,不断优化并降低系统的运行成本(finops);
  • 如何度量运维的工作(目标设定)
    • 针对代码发布和交付,可以简单的用发布次数来度量
      • 发布频率:每10天一次,每日一次,每日10次
    • 针对系统的伸缩性,可以用扩容的时效性来度量
      • 扩容时长:10个pod扩容到20个,花费30分钟,花费10分钟,花费1分钟
    • 针对稳定性,可以通过观察核心功能的不可用时长来度量
      • 不可用时长,越小越好
      • 服务恢复时长,越小越好

如何体现运维价值

观点:要做对公司和业务最有价值的事情。

  • 如何把这个价值说清楚,我们从站位、目标设定、投入产出比上来分别着手分析。
  • 首先,运维人要转变的是态度和立场:坚定和业务站在一起,争取共背业务目标。
  • 其次,价值这个事情,永远都是和“成本投入”相对应的。你如果组建了一个很大的运维团队,人力成本在公司很显眼,那么你就很容易成为老板眼中的“重点关注对象”,也会受到业务方更苛刻的挑战,正所谓,楚人无罪怀璧其罪。客观上来讲,运维团队的资源投入,一定是要和业务收入相匹配的,过高过低都是不健康的,不利于团队发展的。所以,“运维的价值创造”最后会落到运维效率的竞争上来。
  • 最后,关于价值,定量和定性的描述都得有。譬如和行业水平的定量对比,来自公司内业务部门满意度调查的定量数据。也要有比如对公司战略项目支撑中的“存在感”这些定性数据。

高效运维的要求:效率、稳定、成本、安全和体验

运维可以在哪些事情上发力,更好的呈现运维价值?

  • 效率
    • 运维自动化,目标就是解放运维的生产力,提升运维效率,降低人为失误,让运维的同学可以有更多的精力去做更有价值的事情。
    • 如资源分配&回收、域名配置、VIP配置、持续集成&发布、应用部署、应用扩容&缩容等
    • 开发环境和测试环境,由开发或测试发布新版本?
  • 稳定(质量)
    • 让业务运行更加稳定,目标是最大程度的保障系统的稳定和运行质量,即使出现问题,也能够快速发现、快速响应、快速(自动)恢复。
    • 如监控(仪表盘)、全链路、强弱依赖、限流降级、容量评估、预案平台等
    • 怎么保证比业务部门先发现问题?业务监控?短信、电话、飞书、钉钉告警?
  • 成本
    • 成本问题,也就是技术ROI(投入产出比)的问题,当系统规模和体量变大之后,掌控在运维手中的各类资源,将占整个研发团队支出的大头。如果没有很好的成本控制意识和策略,资源体量将会持续增大,甚至是翻倍或指数级的增长,对于公司成本会是非常大的负担和压力。
  • 安全
    • 安全是与运维同等级别的一块专业领域,但同时又是跟运维紧密相关的,运维同样要关注安全,因为安全出现导致的问题,往往也会给运维带来沉重地防护和修复成本。
    • 如各类主机安全、DB安全、Web安全、应用安全等,与此相关的还有漏洞、DDos、CC等关键词。
  • 体验
    • 这里提到的体验,指的是终端用户的访问体验,非功能或产品使用体验,对于运维来说就是要关注访问速度。作为开发的同学来讲,可能更多的注意力会放在自己负责的代码以及该部分的性能问题,不会关注到端到端全流程的性能和体验。但是运维可以站在全局的角度来审视和治理整个端到端全链路的性能情况,并给出对应的性能优化建议。

运维应该具备的思维

  • 对运维来说技术不是问题,重要的是思路上的转变。因为各种开源技术,各类商业软件,可供选择的余地非常大。

  • 不要抛开实际问题和场景谈技术,这样的技术方案是没有意义的。一定是从问题和业务的角度出发,找到痛点所在,用合理的技术解决掉,而不是把技术强加到业务上,让业务来适配技术。

如何选择使用哪种技术呢?回答下面几个问题,基本就清楚了。

  1. 你的技术团队现在存在的最大或者最让人头疼的TOP的问题是什么(3或5个都可以)?
  2. 这些问题中你认为哪些是运维应该也可以解决的?
  3. 如果你认为有应该是运维解决的,那你觉得解决这个问题,应该采用什么样的方案?至少给出两个2备选
  4. 分别从方案的优劣和成本上评估哪个方案最佳
  5. 到了这个问题上,貌似用什么技术已经不是问题了吧

运维需要长期做的事情

  • 就是不断的跟开发和业务团队去沟通,他们有什么问题?痛点在哪里?然后不断的思考,问题背后的原因是什么?我们应该怎么解决?业界是怎么解决的?什么样的方案最适合我们?

  • 这些问题想清楚了,讨论清楚了,该做什么也就清晰了。

自动化运维是什么意思?

  • 自动化运维简单来说就是把周期性、重复性、规律性的工作都交给工具或平台去做,把过去的手工执行转为自动化操作。

  • 自动化运维是IT运维工作的升华,其不单纯是一个维护过程,更是一个管理的提升过程,也是未来的发展趋势。

自动化运维有什么作用?

  • 1、提高IT运维工作人员工作效率,提升整体项目效率;
  • 2、提升运维工作价值,管理更多资源,更多服务对象;
  • 3、让运维工作更轻松、灵动;
  • 4、减少人为误操作,让IT资产更安全;
  • 5、事务留痕,方便跟踪,追溯;
  • 6、方便信息传递,配置类信息聚合,信息链更完整。

对成本优化的理解

  • 很多节省了上百万上千万的成本优化,可能在老板眼里就是应该的。以前浪费太大了,现在只是消除浪费,这自然就得不到价值认可。

  • 因此,要用精益的理念去指导开展工作。精益有一个核心的理念,一切不产生价值的都是浪费,持续消除浪费, 这样在工作开展过程中,其实就不用搞运动式的成本优化。

  • 成本优化实践过程中的几点总结

    • 要用精益的理念去持续指导成本优化,而不是简单的运动式降本增效。
    • 要拉齐价值共识,要和相关部门比如总办,财务等监管部门达成共识。
    • 成本优化的计算模型不能太复杂,模型计算太复杂,很难去达成共识。
    • 数据要统一按照财务口径进行核对,不能我们从技术角度想当然。

参考文档

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/icansoicrazy/article/details/130349481

智能推荐

稀疏编码的数学基础与理论分析-程序员宅基地

文章浏览阅读290次,点赞8次,收藏10次。1.背景介绍稀疏编码是一种用于处理稀疏数据的编码技术,其主要应用于信息传输、存储和处理等领域。稀疏数据是指数据中大部分元素为零或近似于零的数据,例如文本、图像、音频、视频等。稀疏编码的核心思想是将稀疏数据表示为非零元素和它们对应的位置信息,从而减少存储空间和计算复杂度。稀疏编码的研究起源于1990年代,随着大数据时代的到来,稀疏编码技术的应用范围和影响力不断扩大。目前,稀疏编码已经成为计算...

EasyGBS国标流媒体服务器GB28181国标方案安装使用文档-程序员宅基地

文章浏览阅读217次。EasyGBS - GB28181 国标方案安装使用文档下载安装包下载,正式使用需商业授权, 功能一致在线演示在线API架构图EasySIPCMSSIP 中心信令服务, 单节点, 自带一个 Redis Server, 随 EasySIPCMS 自启动, 不需要手动运行EasySIPSMSSIP 流媒体服务, 根..._easygbs-windows-2.6.0-23042316使用文档

【Web】记录巅峰极客2023 BabyURL题目复现——Jackson原生链_原生jackson 反序列化链子-程序员宅基地

文章浏览阅读1.2k次,点赞27次,收藏7次。2023巅峰极客 BabyURL之前AliyunCTF Bypassit I这题考查了这样一条链子:其实就是Jackson的原生反序列化利用今天复现的这题也是大同小异,一起来整一下。_原生jackson 反序列化链子

一文搞懂SpringCloud,详解干货,做好笔记_spring cloud-程序员宅基地

文章浏览阅读734次,点赞9次,收藏7次。微服务架构简单的说就是将单体应用进一步拆分,拆分成更小的服务,每个服务都是一个可以独立运行的项目。这么多小服务,如何管理他们?(服务治理 注册中心[服务注册 发现 剔除])这么多小服务,他们之间如何通讯?这么多小服务,客户端怎么访问他们?(网关)这么多小服务,一旦出现问题了,应该如何自处理?(容错)这么多小服务,一旦出现问题了,应该如何排错?(链路追踪)对于上面的问题,是任何一个微服务设计者都不能绕过去的,因此大部分的微服务产品都针对每一个问题提供了相应的组件来解决它们。_spring cloud

Js实现图片点击切换与轮播-程序员宅基地

文章浏览阅读5.9k次,点赞6次,收藏20次。Js实现图片点击切换与轮播图片点击切换<!DOCTYPE html><html> <head> <meta charset="UTF-8"> <title></title> <script type="text/ja..._点击图片进行轮播图切换

tensorflow-gpu版本安装教程(过程详细)_tensorflow gpu版本安装-程序员宅基地

文章浏览阅读10w+次,点赞245次,收藏1.5k次。在开始安装前,如果你的电脑装过tensorflow,请先把他们卸载干净,包括依赖的包(tensorflow-estimator、tensorboard、tensorflow、keras-applications、keras-preprocessing),不然后续安装了tensorflow-gpu可能会出现找不到cuda的问题。cuda、cudnn。..._tensorflow gpu版本安装

随便推点

物联网时代 权限滥用漏洞的攻击及防御-程序员宅基地

文章浏览阅读243次。0x00 简介权限滥用漏洞一般归类于逻辑问题,是指服务端功能开放过多或权限限制不严格,导致攻击者可以通过直接或间接调用的方式达到攻击效果。随着物联网时代的到来,这种漏洞已经屡见不鲜,各种漏洞组合利用也是千奇百怪、五花八门,这里总结漏洞是为了更好地应对和预防,如有不妥之处还请业内人士多多指教。0x01 背景2014年4月,在比特币飞涨的时代某网站曾经..._使用物联网漏洞的使用者

Visual Odometry and Depth Calculation--Epipolar Geometry--Direct Method--PnP_normalized plane coordinates-程序员宅基地

文章浏览阅读786次。A. Epipolar geometry and triangulationThe epipolar geometry mainly adopts the feature point method, such as SIFT, SURF and ORB, etc. to obtain the feature points corresponding to two frames of images. As shown in Figure 1, let the first image be ​ and th_normalized plane coordinates

开放信息抽取(OIE)系统(三)-- 第二代开放信息抽取系统(人工规则, rule-based, 先抽取关系)_语义角色增强的关系抽取-程序员宅基地

文章浏览阅读708次,点赞2次,收藏3次。开放信息抽取(OIE)系统(三)-- 第二代开放信息抽取系统(人工规则, rule-based, 先关系再实体)一.第二代开放信息抽取系统背景​ 第一代开放信息抽取系统(Open Information Extraction, OIE, learning-based, 自学习, 先抽取实体)通常抽取大量冗余信息,为了消除这些冗余信息,诞生了第二代开放信息抽取系统。二.第二代开放信息抽取系统历史第二代开放信息抽取系统着眼于解决第一代系统的三大问题: 大量非信息性提取(即省略关键信息的提取)、_语义角色增强的关系抽取

10个顶尖响应式HTML5网页_html欢迎页面-程序员宅基地

文章浏览阅读1.1w次,点赞6次,收藏51次。快速完成网页设计,10个顶尖响应式HTML5网页模板助你一臂之力为了寻找一个优质的网页模板,网页设计师和开发者往往可能会花上大半天的时间。不过幸运的是,现在的网页设计师和开发人员已经开始共享HTML5,Bootstrap和CSS3中的免费网页模板资源。鉴于网站模板的灵活性和强大的功能,现在广大设计师和开发者对html5网站的实际需求日益增长。为了造福大众,Mockplus的小伙伴整理了2018年最..._html欢迎页面

计算机二级 考试科目,2018全国计算机等级考试调整,一、二级都增加了考试科目...-程序员宅基地

文章浏览阅读282次。原标题:2018全国计算机等级考试调整,一、二级都增加了考试科目全国计算机等级考试将于9月15-17日举行。在备考的最后冲刺阶段,小编为大家整理了今年新公布的全国计算机等级考试调整方案,希望对备考的小伙伴有所帮助,快随小编往下看吧!从2018年3月开始,全国计算机等级考试实施2018版考试大纲,并按新体系开考各个考试级别。具体调整内容如下:一、考试级别及科目1.一级新增“网络安全素质教育”科目(代..._计算机二级增报科目什么意思

conan简单使用_apt install conan-程序员宅基地

文章浏览阅读240次。conan简单使用。_apt install conan