Блог

Управление инцидентами: процессы, примеры, инструменты

Инциденты в ИТ-сфере — сбои в работе сети,  сервисов, ИТ-инфраструктуры — могут серьезно нарушать функционирование бизнес-процессов и ставить под угрозу стабильность компании. Несмотря на то, что технологический прогресс и соответствующая «защита» значительно снижают риски, полностью исключить возможность возникновения таких инцидентов невозможно.

Внедрение ITSM-практик играет важную роль в обеспечении управляемости и контроля за инцидентами, позволяя не только быстро решать возникающие сбои, но и использовать их для повышения стабильности ИТ-инфраструктуры.

В этой статье мы подробно разберем, что такое управление инцидентами и какую роль оно играет в обеспечении стабильной работы ИТ-сервисов. Рассмотрим типы инцидентов, процесс их обработки и приоритизации. Особое внимание уделим работе со значительными инцидентами.

Что такое управление инцидентами?

Управление инцидентами — это процесс, используемый ИТ-командами для реагирования и устранения непредвиденных сбоев в работе, которые могут повлиять на качество обслуживания или работу услуг. Его цель — сократить уровень негативного влияния инцидентов путем быстрого восстановления нормальной работы ИТ-услуги. Управление инцидентами входит в основные процессы ITSM, позволяющие обеспечить интегрированный подход к управлению всеми аспектами обслуживания и поддержки ИТ-услуг.

«Инциденты могут стать причиной множества проблем для организаций — от временного простоя до потери данных. При правильном подходе управление инцидентами обеспечивает их быстрое устранение с минимальными перебоями в предоставлении услуг и позволяет организациям быть более подготовленными к будущим сбоям»,

— прокомментировал Андрей Вишняков, директор по бизнес продуктам SimpleOne, ITIL ® SL, MP, Expert.

Управление инцидентами по ITIL

Библиотека инфраструктуры информационных технологий (ITIL) — признанный во всем мире свод лучших практик, который предлагает полный набор передовых методов управления инцидентами в рамках управления ИТ-услугами (ITSM). Следуя структурированному подходу ITIL, организации могут быстро справляться с инцидентами, обеспечивая при этом четкое соответствие ИТ-услуг потребностям бизнеса. Управление инцидентами является одним из основных компонентов сервисной поддержки, одной из важнейших практик поставщика услуг.

Типовой процесс управления инцидентами

В большинстве случаев процесс управления инцидентами включает в себя следующие шаги:

  • Выявление. Обнаружение и определение событий, которые могут быть классифицированы как инциденты. Информация может поступать от пользователей или из систем мониторинга.
  • Регистрация. После идентификации инцидент должен быть зарегистрирован в системе учета и обработки инцидентов, что позволяет обеспечить документирование и консолидацию данных.
  • Классификация. На этом этапе инцидент категоризируется для определения способа его обработки. Классификация помогает управлять знаниями службы поддержки и формировать стратегию решения инцидента.
  • Определение приоритета. На основе степени влияния на бизнес-процессы компании и срочности инцидента определяется его приоритет, что позволяет выделить ресурсы для обработки  в первую очередь самых критических ситуаций.
  • Первичная диагностика инцидентов. Включает в себя оценку инцидента с целью определения возможности быстрого решения или необходимости эскалации.
  • Эскалация инцидентов. Если инцидент не может быть «решен» на первой линии поддержки или требуется срочное вмешательство, он передается на следующую линию.
  • Исследование и поиск решения инцидентов. Поиск оптимального способа управления инцидентом, включая анализ причин его возникновения и разработку стратегии управления.
  • Разрешение инцидентов и восстановление нормальной работы ИТ-услуги. После нахождения решения осуществляется его внедрение и последующее тестирование для подтверждения успешного восстановления функционирования сервисов компании.

Эти этапы обеспечивают структурированный и последовательный подход к управлению инцидентами, минимизируют их влияние на бизнес и помогают в быстром восстановлении ИТ-услуг.

В следующем разделе мы подробнее разберем этапы выявления, регистрации и приоритизации инцидентов.

Выявление и приоритизация инцидентов

Чаще всего, существует два пути выявления инцидентов:

  1. Обращения пользователей

Наиболее распространенный источник информации об инцидентах — это сообщения от пользователей ИТ-услуг. Пользователи могут оповещать о проблемах через различные каналы, такие как портал самообслуживания, электронная почта, телефонные звонки или чат-боты.

  1. Инфраструктурные инциденты

Вторым источником являются инциденты, выявленные на инфраструктурном уровне. Они обнаруживаются автоматизированными системами мониторинга, которые отслеживают доступность, производительность и функционирование ИТ-сервисов. Кроме того, инциденты могут регистрировать самостоятельно специалисты ИТ-отделов.

После регистрации инцидента из любого источника следующим шагом является определение его приоритета. Для этого используется матрица «Влияние/Срочность»:

  • Уровень влияния (Impact) — степень воздействия инцидента на бизнес-процессы и пользователей. Обычно определяется ИТ-специалистом на основе оценки масштабов и критичности затронутых систем и сервисов.
  • Срочность (Urgency) — мера того, насколько быстро нужно устранить инцидент. Устанавливается пользователем при создании обращения, учитывая степень нарушения его работы.

На основе этих параметров по заранее установленным правилам рассчитывается итоговый приоритет инцидента, в соответствии с которым планируются и выполняются дальнейшие действия по их обработке. Обычно используется шкала из 3-4 уровней, например:

  • Низкий приоритет:

Инциденты с минимальным влиянием и срочностью, которые могут быть разрешены без срочного вмешательства. Реакция на такие события происходит согласно регулярному графику обслуживания.

  • Средний приоритет:

Инциденты умеренной серьезности ограничивают некоторые функции или сервисы, но имеют небольшое влияние на бизнес в целом. Реакция на такие инциденты запланирована и осуществляется в установленные сроки, чтобы восстановить полную функциональность системы.

  • Высокий приоритет:

Инциденты приводят к значительному снижению производительности или функциональности. Они требуют быстрого реагирования для минимизации влияния на операционную деятельность.

Значительные инциденты (Major incident)

Следует отдельно выделить категорию значительных инцидентов (Major Incidents) — критических событий, которые приводят к недоступности ключевых систем, сервисов, затрагивают множество пользователей и напрямую угрожают бизнесу. Они характеризуются максимальными показателями влияния, срочности и приоритета, а также требуют особых процедур эскалации и разрешения.

Менеджер инцидентов отвечает за качественное выполнение всех процедур, связанных с процессом управления инцидентами, в том числе за обработку значительных инцидентов. Как правило, именно этот специалист определяет, является ли инцидент значительным.

«Учитывая максимальное влияние инцидента на нормальную работу организации, требуется выделенная по отношению к общей практики процедура реагирования для ускорения решения и минимизации последствий для бизнеса, а также восстановления доступности услуг. Этим Major incident и отличается от обычного инцидента, который хоть и может иметь высокий приоритет, но оказывает влияние в меньшей степени на бизнес-процессы организации и решается в рамках стандартных процедур оперативного реагирования без необходимости мобилизации дополнительных ресурсов»,

— прокомментировал Андрей Вишняков, директор по бизнес продуктам SimpleOne, ITIL ® SL, MP, Expert.

Задача организации — иметь эффективную и оперативную схему реагирования на значительные инциденты. Процедура обработки значительных инцидентов направлена на достижение следующих целей:

  • Обеспечение классификации потенциально значительных инцидентов как значительных, с целью уменьшения риска ложного срабатывания процедуры;
  • Обеспечение немедленного привлечения всех необходимых организационных и технических ресурсов для быстрого устранения значительного инцидента и минимизации его последствий;
  • Запуск процесса анализа причин возникновения значительного инцидента;
  • Минимизировать вероятность повторного возникновения аналогичных значительных инцидентов, улучшить ITSM-процессы в области управления инцидентами, изменениями и решением проблем.

Swarming-сессии при значительных инцидентах

В традиционной модели управления инцидентами с помощью обработки заявок тикеты проходят несколько уровней: L1, L2, L3. Эта модель создает очереди, которые удлиняют время реагирования и приводят к передаче тикетов, в результате чего теряется важная составляющая работы каждой группы. В сложных системах и при сбоях тикет с задержкой попадает к нужным исполнителям. Конечный результат — длительное время реагирования и недовольство пользователей. В этом случае стоит перейти к свормингу (swarming, «муравейник»).

Swarming — методика эскалации ресурсов, позволяющая обеспечить скорейшую выработку решения по задаче, а также привлечь всех возможных специалистов, связанных с проблематикой задачи в онлайн-режиме (swarming-сессия). В процессе диагностики ситуации в совместной работе продолжают участвовать только необходимые специалисты до тех пор, пока не будет найдено подходящее решение задачи.

Менеджер инцидентов обеспечивает эффективное проведение встречи swarming-сессии, координирует привлечение нужных специалистов, определяет препятствия и требования для их решения.  Участники swarming (если их компетенция связана с областью данного значительного инцидента) активно сотрудничают, предоставляя необходимую информацию в решение значимых инцидентов. Если экспертиза участника не требуется для данной задачи, он имеет право покинуть встречу.

Благодаря ITSM-системе SimpleOne стало возможным организовать сворминг-сессию прямо из формы значительного инцидента. В результате, в Telegram автоматически формируется группа для значительных инцидентов, куда также можно добавить участников, не являющихся пользователями системы. Помимо участников, в группу уже добавлен бот-маршрутизатор, который будет присылать информацию обо всех важных изменениях, произошедших на форме инцидента.

SimpleOne ITSM

SimpleOne ITSM — это система для автоматизации IT-процессов, разработанная в соответствии с передовыми практиками ITIL. Этот инструмент значительно повышает качество оказания ИТ-услуг путем эффективной автоматизации бизнес-процессов и повышения качества работы ИТ-департамента и Service Desk.

Система помогает в раннем обнаружении инцидентов, их быстром и эффективном устранении, что позволяет минимизировать влияние на бизнес-процессы. Инциденты классифицируются на основе уровней серьезности и управляются в соответствии с приоритетом, что гарантирует непрерывное и качественное функционирование услуг.

Заключение

Хотя управление инцидентами необходимо всем организациям, оно особенно важно для компаний, которые активно используют технологии в рамках своих бизнес-процессов. В современном мире почти все организации в той или иной степени полагаются на технологии. Поэтому управление инцидентами необходимо для обеспечения бесперебойной работы компании. Эффективный процесс управления инцидентами помогает несколькими способами: снижает влияние инцидентов на работу, повышает общую эффективность организации, улучшает способность реагировать на непредвиденные ситуации и находить оптимальное решение.

У вас остались вопросы?
Свяжитесь с нами, и наши менеджеры проконсультируют вас.
Пользуясь настоящим сайтом, вы даете свое согласие на использование файлов cookies