一个运维工程师必须要知道的(工作职责与应用场景)干货整理_运维知识库应用场景-程序员宅基地

技术标签: Linux  运维  linux  

目录:

一.Linux运行

1. 什么是linux运维?

在这里插入图片描述

  • 运维是指大型组织已经建立好的网络软硬件的维护,就是要保证业务的上线与运作的正常。
  • 在他运转的过程中,对他进行维护,他集合了网络、系统、数据库、开发、安全、监控、应用架构、存储 于一身的技术。
  • 运维分类:
    • 运维开发:是给应用运维开发运维工具和运维平台的
    • 应用运维:是给业务上线、维护和做故障排除的,用开发运维开发出来的工具给业务上线、维护、做故障排查
    • 系统运维:是给应用运维提供业务上的基础设施,比如:系统、网络、监控、硬件等等
    • 数据库运维: 负责数据存储方案设计、数据库表设计、索引设计和SQL优化
    • 安全运维: 进行常规的安全扫描、渗透测试,进行安全工具和系统研发以及安全事件应急处理

2.运维的职责

  • 保证服务的稳定运行;
  • 考虑服务的可扩展性;
  • 从系统的稳定性和可运维性的角度,提出开发需求;
  • 定位系统的问题,甚至可以直接修正bug;
  • 对突然出现的问题做到快速响应和处理;

二. 工作中运维应用场景

1. Devops交付环常识普及

  • 我们把开发交付划分为: 计划 --> 编码 --> 构建 --> 测试 --> 版本 --> 部署 --> 运维 --> 监控 的一个闭环
  • DevOps的目标是通过建立并不断完善持续交付的流水线
  • 运维的职责覆盖了产品从设计到发布、运行维护、变更升级及至下线的生命周期

在这里插入图片描述

2.产品发布前

注:这个阶段运维工程师的职责是参与设计并把关运维准入,主要包括下面类容

  1. 产品的业务熟悉
  2. 产品架构设计的合理性评估,包括是否存在单点,是否可容错,是否有强耦合等,
  3. 资源评估,包括所需的服务器资源网络资源以及资源的分布等,同时把相关产品对资源预算申请的合理性,控制服务成本;
  4. 资源就位,将申请的服务器及基础环境/域名准备就位。

3.产品发布过程中

  1. 产品发布阶段运维工程师负责发布的具体工作,将具体的软件和系统/硬件资源整合形成产品并对外提供服务。
  2. 对于已在线服务的更新也属于发布范畴,这个时候的产品发布一般要保障在线发布,在不中断对外服务的情况下完成产品的升级。
  3. 对于大型复杂的变更也存在中止服务部署完成后再重新提供服务的情况,但这种情况需要运维工程师通过尽可能的技术手段来避免。

4.产品运行维护

  • 监控:
    • 对服务运行的状态进行实时的监控,随时发现服务的运行异常和资源消耗情况;
    • 输出重要的日常服务运行报表以评估服务/业务整体运行状况,发现服务隐患;
  • 故障处理:
    • 对服务出现的任何异常进行及时处理,尽可能避免问题的扩大化甚至中止服务。
    • 这之前运维工程师需要针对各类服务异常,如机房/网络故障、程序bug等问题制定处理的预案,问题出现时可以自动或手动执行预案达到止损的目的。
  • 容量管理:
    • 包括服务规模扩张后的资源评估、扩容、机房迁移、流量调度等规划和具体实施。

5.产品性能/成本优化

  1. 产品对外提供服务最重要的一点是用户体验,用户体验中非常重要的是产品的可用性和响应速度。
  2. 而如何用最**合理的资源(如机器、带宽等)**支持产品提供高可用和高速度的用户体验,这也是运维工程师的重要职责。

6.产品下线

1. 发展良好的互联网产品将始终在线对外提供服务,但互联网产品快速迭代,也存在相当多孵化的产品最后被淘汰的情况
2. 这些产品都需要做下线处理,这个过程运维工程师主要做好**资源回收**的工作,将**机器/网络等资源回收后纳入资源池中**供其它服务使用

三. 运维的发展过程–为什么需要运维?

1.手工管理阶段

  • 业务规模( 几十台机器)
    • 业务流量不大,服务器数量相对较少,系统复杂度不高。
    • 对于日常的业务管理操作,大家更多的是逐台登录服务器进行手工操作,属于各自为战。
    • 每个人都有自己的操作方式,缺少必要的操作标准、流程机制,比如业务目录环境都是各式各样的。
  • 职责
    • 早期的运维团队在人员较少的情况下,主要是进行数据中心建设、基础网络建设、服务器采购和服务器安装交付工作。
    • 几乎很少涉及线上服务的变更、监控、管理等工作
    • 这个时候的运维团队更多的属于基础建设的角色,提供一个简单、可用的网络环境和系统环境即可。

2.工具批量操作阶段

  • 业务规模( 几百台机器)
    • 随着服务器规模、系统复杂度的增加,全人工的操作方式已经不能满足业务的快速发展需要。
    • 因此,运维人员逐渐开始使用批量化的操作工具,针对不同操作类型出现了不同的脚本程序
    • 此时,虽然效率提升了一部分,但很快又遇到了瓶颈,操作的质量并没有太多的提升。
    • 我们开始建立大量的流程规范,比如复查机制,先上线一台服务器观察10分钟后再继续后面的操作,一次升级完成后至少要观察20分钟等。
    • 这些主要还是靠人来监督和执行,但在实际过程中执行往往不到位,反而降低了工作效率。
  • 工作职责
    • 这个时候的运维团队还会承担一些服务器监控的工作,同时会负责LVS、Nginx等与业务逻辑无关的4/7层运维工作
    • 这个时候服务变更更多的是借助saltstack、ansible批量管理工具工操作。
    • 监控的焦点更多的在服务器状态和资源使用情况上,对服务应用状态的监控几乎很少,监控更多的使用各种开源系统如Nagios、Cacti、openfalcon、等。

3.平台管理阶段

  • 业务规模( 几千台机器)
    • 在这个阶段,我们决定开始建设运维平台,通过平台承载标准、流程,进而解放人力和提高质量
    • 这个时候对服务的变更动作进行了抽象,形成了操作方法、服务目录环境、服务运行方式等统一的标准
    • 通过平台来约束操作流程,如上面提到的上线一台服务器观察10分钟,程序的启停接口必须包括启动、停止、重载等。
    • 在平台中强制设定暂停检查点,在第一台服务器操作完成后,需要运维人员填写相应的检查项,然后才可以继续执行后续的部署动作。
  • 工作职责
    • 由于业务规模和复杂度的持续增加,运维团队会逐渐划分为应用运维系统运维两大块。
    • 应用运维开始接手线上业务,逐步开展服务监控梳理、数据备份以及服务变更的工作
    • 同时,为了应对每天大量的服务变更,我们也开始编写各类运维工具,针对某些特定的服务能够很方便的批量变更。
    • 随着业务规模的增大,基础设施由于容量规划不足或抵御风险能力较弱导致的故障也越来越多,
      运维人员开始将更多的精力投入到多数据中心容灾、预案管理的方向上。

4.系统自调度阶段

  • 工作环境(上万台机器)
    • 更大规模的服务数量、更复杂的服务关联关系、各个运维平台的林立,原有的将批量操作转化成平台操作的方式已经不再适合
    • 需要对服务变更进行更高一层的抽象,将每一台服务器抽象成一个容器,由调度系统根据资源使用情况,将服务调度、部署到合适的服务器上
    • 自动化完成与周边各个运维系统的联动,比如监控系统、日志系统、备份系统等
    • 通过自调度系统,根据服务运行情况动态伸缩容量,能够自动化处理常见的服务故障
    • 运维人员的工作也会前置到产品设计阶段,协助研发人员改造服务使其可以接入到自调度系统中。
  • 工作职责
    • 业务规模达到一定程度后,开源的监控系统在性能和功能方面,已经无法满足业务需求
    • 大量的服务变更、复杂的服务关系,以前靠人工记录、工具变更的方式不管在效率还是准确性方面也都无法满足业务需求;
    • 在安全方面也出现了各种大大小小的事件,迫使我们投入更多的精力在安全防御上。
    • 逐渐的,运维团队形成之前提到的5个大的工作分类,每个分类都需要有专精的人才
    • 这个时候系统运维更专注于基础设施的建设和运维,提供稳定、高效的网络环境,交付服务器等资源给应用运维工程师。
    • 应用运维更专注于服务运行状态和效率,数据库运维属于应用运维工作的细化,更专注于数据库领域的自动化、性能优化和安全防御。
    • 运维研发和运维安全提供各类平台、工具,进一步提升运维工程师的工作效率,使业务服务运行得更加稳定、高效和安全。

四. 运维分类与工作职责

1.系统运维(SYS):

  • 负责IDC、网络、CDN和基础服务的建设(LVS、NTP、DNS);
  • 负责资产管理,服务器选型、交付和维修,网络建设、LVS负载均衡和SNAT建设

2.应用运维(SRE):

  • 应用运维负责线上服务的变更、服务状态监控、服务容灾和数据备份等工作,对服务进行例行排查、故障应急处理等工作
  • 工作职责如下:设计评审、服务管理、资源管理、例行检查、预案管理、数据备份。
  • 业务运维工作细则
    • 监控线上的服务质量
    • 响应异常/处理突发故障
    • 在线发布/升级产品
    • 和相应产品线的研发和测试协调处理产品问题

3.运维开发

  • 是给应用运维开发运维工具和运维平台的
  • 主要平台:工单系统、CMDB、监控系统、ELK日志系统、CI/CD、LDAP、FAQ、培训系统、OpenStack平台等

4.数据库运维(DBA):

  • 数据库运维负责数据存储方案设计、数据库表设计、索引设计和SQL优化
  • 对数据库进行变更、监控、备份、高可用设计等工作,详细的工作内容如下
  • 设计评审、容量规划、数据备份与灾备、数据库监控、数据库安全、数据库高可用和性能优化

5.运维安全(SEC):

  • 运维安全负责网络、系统和业务等方面的安全加固工作
  • 进行常规的安全扫描、渗透测试,进行安全工具和系统研发以及安全事件应急处理
  • 工作内容如下:安全制度建立、安全培训、风险评估、安全建设、安全合规、应急响应。

五. 运维工程师使用的运维平台和工具

1.运维工程师使用的运维平台和工具

  • Web服务器:apache、tomcat、nginx
  • 负载均衡:keepalive、lvs、haproxy、nginx
  • 监控:prometheus、zabbix、openfalcon、nagios、cacti
  • 自动部署:ansible、saltstack、sshpt
  • 配置管理:puppet
  • 备份工具:rsync、wget
  • 分布式数据库:hbase、redis、MongoDB
  • 容器:docker、k8s、docker-compose、swarm
  • 安全:kerberos、selinux、acl、iptables
  • 虚拟化:openstack、xen、kvm
  • 问题追查:netstat、top、tcpdump、last

2.运维工程师要掌握的技能

  • 扎实的计算机基础知识,包括计算机系统架构,操作系统,网络技术等;
  • 通用应用方面需要了解操作系统、网络、安全,存储,CDN,DB等,知道其相关原理;
  • 编程能力小到运维工具的开发大到大型运维系统/平台的开发都需要有良好的编程能力;
  • 数据分析能力:能够整理、分析系统运行的各项数据,从中发现问题及找到解决方向
  • 丰富的系统知识,包括系统工具、典型系统架构、常见的平台选型等;

3.运维工程师的软素质要求

  • 时间管理能力,特别是碎片化时间的处理能力;
  • 沉稳的心态,面对紧急情况时需要处变不惊;
  • 沟通能力、团队协作,运维工作跨部门、跨工种工作很多,需善于沟通、并且团队协作能力要强;
  • 工作中需胆大心细:胆大才能创新、不走寻常路,特别对于运维这种新的工种,更需创新才能促进发展;
  • 心细,运维工程师是最高线上权限者,需要谨慎心细;
  • 主动性、执行力,能够主动学习国际国内的运维技术,并引入到工作中,提高运维的质量和效率;
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/longlong6682/article/details/104877538

智能推荐

从MIF文件直接读取道路数据-程序员宅基地

文章浏览阅读344次。stringfile=@"C:\Inetpub\wwwroot\SSWeb\node\Road.MIF";//载入数据,使用绝对路径(单独制作的综合节点图层)StreamReadersr=newStreamReader(file);stringnextLine,sTmp;longnTmp,mTmp;..._mif路网数据

为什么要用Python来处理数据分析_用python处理数据的意义是什么-程序员宅基地

文章浏览阅读947次。如果你对数据分析有所了解,一定听说过一些亲民的工具如Excel、Tableau、PowerBI等,都能成为数据分析的得力助手。但它们的不足也是显而易见的:操作繁琐,复用性差,功能相对局限单一。怎么解决呢?——PythonPython有很多优点,如果你能很好的运用到工作中,会发现工作效率大大提升,涨薪也是再正常不过的事情。Python优点一:“流程可控,工作高效”举个例子,Excel做分析..._用python处理数据的意义是什么

Openlayer加载WFS图层及C#编写ASP.net代理解决跨域问题,好长的题目-程序员宅基地

文章浏览阅读283次。NND,openlayers跨域访问geoserver居然要用到代理,貌似Felx就不用,用C#编写代理网上普遍是这样的: public class GeoServerProxy1 : IHttpHandler { public void ProcessRequest(HttpContext context) { ..._asp.net 引入 openlayers

SEC7120: 在 Access-Control-Allow-Origin 标头中未找到源_sec7120 无法支持-程序员宅基地

文章浏览阅读7.6k次。SEC7120: 在 Access-Control-Allow-Origin 标头中未找到源 https://b.test.com。SCRIPT7002: XMLHttpRequest: 网络错误 0x80070005, 拒绝访问。SEC7119: https://api.test.com/api/product/single/queryPageRecommendProductPop?typeId=图文 的 XMLHttpRequest 需要飞行前 CORS。SEC7118: https://api._sec7120 无法支持

kubrnetes集群管理系列之pod详解(三)_集群和pod的关系-程序员宅基地

文章浏览阅读585次。k8s集群的最重要的管理工作都是围绕着pods这个资源来进行的,可以说是最根本的东西,没有之一,pods的地位可以简单理解为docker里的容器,但和容器又有所不同(当然是有所不同了嘛,要不干嘛还叫pods,直接叫容器得了,不是更方便???),因此,在进行管理工作前,我们需要明确pods到底是什么玩意,能干什么,为什么要用它,然后才是对pods的增删改查等等这些具体的管理工作了。pod是一组并置的容器,代表了Kubernetes中的基本构建模 块。在实际应用中我们并不会单独部署容器,更多的是针对组pod 的_集群和pod的关系

笔记——idea修改相关配置(字节码,SDK)的版本_idea修改项目sdk-程序员宅基地

文章浏览阅读3.1k次,点赞4次,收藏4次。1,file→setting中的Java Compiler内,设置项目字节码版本和目标字节码版本。(目标字节码版本在点击maven中刷新时,会被还原成1.5,还没解决。)2,file→project structure→project中,设置SDK以及语言等级This SDK is default for all project modules.对于所有项目模块,这个SDK都是默认的。A module specific SDK can be configured for each of the m_idea修改项目sdk

随便推点

影视处理计算机配置,影视后期制作电脑配置需要什么-程序员宅基地

文章浏览阅读3.4k次。说起电脑配置大家应该都不陌生,配置直译文是配备布置的意思,就是把缺少的不足并且设置好。在这里我们说到的是影视后期制作电脑配置,这是关于影视后期制作的电脑配置,是专门对于后期制作中的电脑的配置方法,下面我们就系统的看一下。电脑配置:主板:映泰 Hi-Fi Z87W,大板,Z87芯片组,4条DDR3插槽,2条显卡插槽,¥699。CPU:酷睿i7-4770K ,最新Haswell架构 第四代i7,四核八..._做视频需要电脑什么配置

Android 自定义漂亮的Seekbar样式_android seekbar 覆盖线条-程序员宅基地

文章浏览阅读2.9k次,点赞2次,收藏18次。Android自定义漂亮的Seekbar样式Seekbar通常用于与用户有交互的操作,便于拖拉进度,显示当前进度,当然一个漂亮的seekbar无疑会增加许多用户体验性,下面我就通过一个实例,展示一下怎么自定义一个漂亮的seekbar.一、Seekbar的属性:android:max[integer]//设置拖动条的最大值android:progress[integer]//设置当前的进度值andro_android seekbar 覆盖线条

Java(TM) 已被阻止,因为它已过时并且需要更新_已阻止java,因为它已过时并且需要更新-程序员宅基地

文章浏览阅读1.9w次,点赞2次,收藏3次。1、问题原因Internet Explorer (IE) 提供了一项新的安全功能,称为 ActiveX 控件阻止,用来检查 IE插件的版本是否为最新版本,如果不是最新版本,则要求用户升级组件。如果此功能发现 Java 已过时,则将阻止应用程序或 Web 页的加载,并且将提供更新 Java 的选项。2、解决方案建议您先更新 Java,然后再允许应用程序运行。单击更新并下载最新_已阻止java,因为它已过时并且需要更新

elasticsearch得分设置以及分词器不同层次定义_elasticsearch 分词词性权重-程序员宅基地

文章浏览阅读1k次。GET _cat/indicesGET hotel/_searchGET /_search{ "query": { "constant_score": { "filter": { "term": { "lvg_mc": "酒店" } }, "boost": 1.2 } }}DELETE /my_index PUT /my_index{ "settings": { "numbe_elasticsearch 分词词性权重

RPI.GPIO使用手册_rpi.gpio用法-程序员宅基地

文章浏览阅读1.6w次,点赞5次,收藏71次。目录(?)[+]RPiGPIO模块基本使用导入模块引脚编号方式设置一个通道输入输出设置多个通道的输出清空GPIO 输入上拉或者下拉电阻测试输入轮询中断与边沿检测线程回调开关去抖GPIO 输出设置RPiGPIO设置为高电平输出设置低电平输出同时设置多个通道的输出清空PWM脉冲宽度调制1.RPi.GPIO模块基本使用导入模_rpi.gpio用法

JavaMail发送邮件和附件(源码)-程序员宅基地

文章浏览阅读8.6k次。JavaMail是Sun发布的处理电子邮件的应用程序接口,它预置了一些最常用的邮件传送协议的实现方法,并且提供了很容易的方法去调用它们。JavaMail是Sun发布的应用程序接口,所以目前它还没有被JDK包含。因此你需要从Sun的官方网站上下载到JavaMail类文件包。除此之外还需要Sun的JAF(JavaBeans Activation Framework ),否则JavaMail将不能运行。

推荐文章

热门文章

相关标签