site_logo

Управление инцидентами: процессы, примеры, инструменты

ITSM

Обновлено: 30 сентября 2024

    Инциденты в ИТ-сфере — сбои в работе сети,  сервисов, ИТ-инфраструктуры — могут серьезно нарушать функционирование бизнес-процессов и ставить под угрозу стабильность компании. Несмотря на то, что технологический прогресс и соответствующая «безопасность» значительно снижают риски, полностью исключить возможность возникновения таких инцидентов невозможно.

    Внедрение ITSM-практик играет важную роль в обеспечении управляемости и контроля за инцидентами, позволяя не только быстро решать возникающие сбои, но и использование их для повышения стабильности ИТ-инфраструктуры.

    В этой статье мы подробно разберем, что такое управление инцидентами и какую роль оно играет в обеспечении стабильной работы ИТ-сервисов. Рассмотрим типы инцидентов, процесс управления инцидентами и приоритизацию инцидентов. Особое внимание уделим работе со значительными инцидентами.

    Что такое управление инцидентами?

    Управление инцидентами — это процесс, используемый ИТ-командами для реагирования на инциденты и устранения непредвиденных сбоев в работе, которые могут повлиять на качество обслуживания или работу услуг. Его цель — сократить уровень негативного влияния инцидентов путем быстрого восстановления нормальной работы ИТ-услуги. Управление инцидентами входит в основные процессы ITSM, позволяющие обеспечить интегрированный подход к управлению всеми аспектами обслуживания и поддержки ИТ-услуг.

    «Инциденты могут стать причиной множества проблем для организаций — от временного простоя до потери данных. При правильном подходе управление инцидентами обеспечивает их быстрое устранение с минимальными перебоями в предоставлении услуг и позволяет организациям быть более подготовленными к будущим сбоям»

    mask-group-11@3x-1.jpg
    Андрей Вишняков

    Директор по бизнес продуктам SimpleOne ITIL ® SL, MP, Expert

    Управление инцидентами по ITIL

    Библиотека инфраструктуры информационных технологий (ITIL) — признанный во всем мире свод лучших практик управления ит-процессами, который предлагает полный набор передовых методов управления инцидентами в рамках управления ИТ-услугами (ITSM - IT Service Management). Следуя структурированному подходу ITIL, организации могут быстро справляться с инцидентами, обеспечивая при этом четкое соответствие ИТ-услуг потребностям бизнеса. Управление инцидентами является одним из основных компонентов сервисной поддержки, одной из важнейших практик поставщика услуг.

    Типовой процесс управления инцидентами

    В большинстве случаев процесс управления инцидентами включает в себя следующие шаги:

    Эти этапы обеспечивают структурированный и последовательный подход к управлению инцидентами, минимизируют их влияние на бизнес и помогают в быстром восстановлении ИТ-услуг.

    В следующем разделе мы подробнее разберем этапы выявления, регистрации и приоритизации инцидентов.

    Выявление и приоритизация инцидентов

    Чаще всего, существует два пути выявления инцидентов:

    1. Обращения пользователей

    Наиболее распространенный источник информации об инцидентах — это сообщения от пользователей ИТ-услуг. Пользователи могут оповещать о проблемах через различные каналы, такие как портал самообслуживания, электронная почта, телефонные звонки или чат-боты.

    1. Инфраструктурные инциденты

    Вторым источником являются инциденты, выявленные на инфраструктурном уровне. Они обнаруживаются автоматизированными системами мониторинга, которые отслеживают доступность, производительность и функционирование ИТ-сервисов. Кроме того, инциденты могут регистрировать самостоятельно специалисты ИТ-отделов.

    После регистрации инцидента из любого источника следующим шагом является определение его приоритета. Для этого используется матрица "Влияние/Срочность":

    На основе этих параметров по заранее установленным правилам рассчитывается итоговый приоритет инцидента, в соответствии с которым планируются и выполняются дальнейшие действия по их обработке. Обычно используется шкала из 3-4 уровней, например:

    Инциденты с минимальным влиянием и срочностью, которые могут быть разрешены без срочного вмешательства. Реакция на такие события происходит согласно регулярному графику обслуживания.

    Инциденты умеренной серьезности ограничивают некоторые функции или сервисы, но имеют небольшое влияние на бизнес в целом. Реакция на такие инциденты запланирована и осуществляется в установленные сроки, чтобы восстановить полную функциональность системы.

    Инциденты приводят к значительному снижению производительности или функциональности. Они требуют быстрого реагирования для минимизации влияния на операционную деятельность.

    Значительные инциденты (Major incident)

    Следует отдельно выделить категорию значительных инцидентов (Major Incidents) — критических событий, которые приводят к недоступности ключевых систем, сервисов, затрагивают множество пользователей и напрямую угрожают бизнесу. Они характеризуются максимальными показателями влияния, срочности и приоритета, а также требуют особых процедур эскалации и разрешения.

    Менеджер инцидентов отвечает за качественное выполнение всех процедур, связанных с процессом управления инцидентами, в том числе за обработку значительных инцидентов. Как правило, именно этот специалист определяет, является ли инцидент значительным.

    «Учитывая максимальное влияние инцидента на нормальную работу организации, требуется выделенная по отношению к общей практики процедура реагирования для ускорения решения и минимизации последствий для бизнеса, а также восстановления доступности услуг. Этим Major incident и отличается от обычного инцидента, который хоть и может иметь высокий приоритет, но оказывает влияние в меньшей степени на бизнес-процессы организации и решается в рамках стандартных процедур оперативного реагирования без необходимости мобилизации дополнительных ресурсов»

    mask-group-11@3x-1.jpg
    Андрей Вишняков

    Директор по бизнес продуктам SimpleOne ITIL ® SL, MP, Expert

    Задача организации — иметь эффективную и оперативную схему реагирования на значительные инциденты. Процедура обработки значительных инцидентов направлена на достижение следующих целей:

    • Обеспечение классификации потенциально значительных инцидентов как значительных, с целью уменьшения риска ложного срабатывания процедуры;
    • Обеспечение немедленного привлечения всех необходимых организационных и технических ресурсов для быстрого устранения значительного инцидента и минимизации его последствий;
    • Запуск процесса анализа причин возникновения значительного инцидента;
    • Минимизировать вероятность повторного возникновения аналогичных значительных инцидентов, улучшить ITSM-процессы в области управления инцидентами, изменениями и решением проблем.

    Swarming-сессии при значительных инцидентах

    В традиционной модели менеджмента инцидентами с помощью обработки заявок тикеты проходят несколько уровней: L1, L2, L3. Эта модель создает очереди, которые удлиняют время реагирования и приводят к передаче тикетов, в результате чего теряется важная составляющая работы каждой группы. В сложных системах и при сбоях тикет с задержкой попадает к нужным исполнителям. Конечный результат — длительное время реагирования и недовольство пользователей. В этом случае стоит перейти к свормингу (swarming, «муравейник»).

    Swarming — методика эскалации ресурсов, позволяющая обеспечить скорейшую выработку решения по задаче, а также привлечь всех возможных специалистов, связанных с проблематикой задачи в онлайн-режиме (swarming-сессия). В процессе диагностики ситуации в совместной работе продолжают участвовать только необходимые специалисты до тех пор, пока не будет найдено подходящее решение задачи.

    Менеджер инцидентов обеспечивает эффективное проведение встречи swarming-сессии, координирует привлечение нужных специалистов, определяет препятствия и требования для их решения.  Участники swarming (если их компетенция связана с областью данного значительного инцидента) активно сотрудничают, предоставляя необходимую информацию в решение значимых инцидентов. Если экспертиза участника не требуется для данной задачи, он имеет право покинуть встречу.

    Благодаря ITSM-платформа SimpleOne стало возможным организовать сворминг-сессию прямо из формы значительного инцидента. В результате, в Telegram автоматически формируется группа для значительных инцидентов, куда также можно добавить участников, не являющихся пользователями системы. Помимо участников, в группу уже добавлен бот-маршрутизатор, который будет присылать информацию обо всех важных изменениях, произошедших на форме инцидента.

    https://www.youtube.com/watch?v=bbzOljJ9yKg

    SimpleOne ITSM

    SimpleOne ITSM — это система для автоматизации IT-процессов, разработанная в соответствии с передовыми практиками ITIL. Этот инструмент значительно повышает качество оказания ИТ-услуг путем эффективной автоматизации бизнес-процессов и повышения качества работы ИТ-департамента и Service Desk.

    Система помогает в раннем обнаружении инцидентов, их быстром и эффективном устранении, что позволяет минимизировать влияние на бизнес-процессы. Инциденты классифицируются на основе уровней серьезности и управляются в соответствии с приоритетом, что гарантирует непрерывное и качественное функционирование услуг.

    Заключение

    Хотя управление инцидентами необходимо всем организациям, оно особенно важно для компаний, которые активно использование технологии в рамках своих бизнес-процессов. В современном мире почти все организации в той или иной степени полагаются на технологии. Поэтому управление инцидентами необходимо для обеспечения бесперебойной работы компании. Эффективный процесс управления инцидентами помогает несколькими способами: снижает влияние инцидентов на работу, повышает общую эффективность организации, улучшает способность реагировать на непредвиденные ситуации и находить оптимальное решение.