Управление инцидентами: процессы, примеры, инструменты
Обновлено: 30 сентября 2024
Инциденты в ИТ-сфере — сбои в работе сети, сервисов, ИТ-инфраструктуры — могут серьезно нарушать функционирование бизнес-процессов и ставить под угрозу стабильность компании. Несмотря на то, что технологический прогресс и соответствующая «безопасность» значительно снижают риски, полностью исключить возможность возникновения таких инцидентов невозможно.
Внедрение ITSM-практик играет важную роль в обеспечении управляемости и контроля за инцидентами, позволяя не только быстро решать возникающие сбои, но и использование их для повышения стабильности ИТ-инфраструктуры.
В этой статье мы подробно разберем, что такое управление инцидентами и какую роль оно играет в обеспечении стабильной работы ИТ-сервисов. Рассмотрим типы инцидентов, процесс управления инцидентами и приоритизацию инцидентов. Особое внимание уделим работе со значительными инцидентами.
Что такое управление инцидентами?
Управление инцидентами — это процесс, используемый ИТ-командами для реагирования на инциденты и устранения непредвиденных сбоев в работе, которые могут повлиять на качество обслуживания или работу услуг. Его цель — сократить уровень негативного влияния инцидентов путем быстрого восстановления нормальной работы ИТ-услуги. Управление инцидентами входит в основные процессы ITSM, позволяющие обеспечить интегрированный подход к управлению всеми аспектами обслуживания и поддержки ИТ-услуг.
«Инциденты могут стать причиной множества проблем для организаций — от временного простоя до потери данных. При правильном подходе управление инцидентами обеспечивает их быстрое устранение с минимальными перебоями в предоставлении услуг и позволяет организациям быть более подготовленными к будущим сбоям»
Андрей Вишняков Директор по бизнес продуктам SimpleOne ITIL ® SL, MP, Expert
Управление инцидентами по ITIL
Библиотека инфраструктуры информационных технологий (ITIL) — признанный во всем мире свод лучших практик управления ит-процессами, который предлагает полный набор передовых методов управления инцидентами в рамках управления ИТ-услугами (ITSM - IT Service Management). Следуя структурированному подходу ITIL, организации могут быстро справляться с инцидентами, обеспечивая при этом четкое соответствие ИТ-услуг потребностям бизнеса. Управление инцидентами является одним из основных компонентов сервисной поддержки, одной из важнейших практик поставщика услуг.
Типовой процесс управления инцидентами
В большинстве случаев процесс управления инцидентами включает в себя следующие шаги:
- Выявление. Обнаружение и определение событий, которые могут быть классифицированы как инциденты. Информация может поступать от пользователей либо из систем мониторинга.
- Регистрация. После идентификации инцидент должен быть зарегистрирован в системе учета и обработки инцидентов, что позволяет обеспечить документирование и консолидацию данных.
- Классификация. На этом этапе инцидент категоризируется для определения способа его обработки. Классификация помогает управлять знаниями службы поддержки и формировать стратегию решения инцидента.
- Определение приоритета. На основе степени влияния на бизнес-процессы компании и срочности инцидента определяется его приоритет, что позволяет выделить ресурсы для обработки в первую очередь самых критических ситуаций.
- Первичная диагностика инцидентов. Включает в себя оценку инцидента с целью определения возможности быстрого решения или необходимости эскалации.
- Эскалация инцидентов. Если инцидент не может быть «решен» на первой линии поддержки или требуется срочное вмешательство, он передается на следующую линию.
- Исследование и поиск решения инцидентов. Поиск оптимального способа управления инцидентом, включая расследования причин инцидентов и разработку стратегии управления.
- Разрешение инцидентов и восстановление нормальной работы ИТ-услуги. После нахождения решения осуществляется его внедрение и последующее тестирование для подтверждения успешного восстановления функционирования сервисов компании.
Эти этапы обеспечивают структурированный и последовательный подход к управлению инцидентами, минимизируют их влияние на бизнес и помогают в быстром восстановлении ИТ-услуг.
В следующем разделе мы подробнее разберем этапы выявления, регистрации и приоритизации инцидентов.
Выявление и приоритизация инцидентов
Чаще всего, существует два пути выявления инцидентов:
- Обращения пользователей
Наиболее распространенный источник информации об инцидентах — это сообщения от пользователей ИТ-услуг. Пользователи могут оповещать о проблемах через различные каналы, такие как портал самообслуживания, электронная почта, телефонные звонки или чат-боты.
- Инфраструктурные инциденты
Вторым источником являются инциденты, выявленные на инфраструктурном уровне. Они обнаруживаются автоматизированными системами мониторинга, которые отслеживают доступность, производительность и функционирование ИТ-сервисов. Кроме того, инциденты могут регистрировать самостоятельно специалисты ИТ-отделов.
После регистрации инцидента из любого источника следующим шагом является определение его приоритета. Для этого используется матрица "Влияние/Срочность":
- Уровень влияния (Impact) — степень воздействия инцидента на бизнес-процессы и пользователей. Обычно определяется ИТ-специалистом на основе оценки масштабов и критичности затронутых систем и сервисов.
- Срочность (Urgency) — мера того, насколько быстро нужно устранить инцидент. Устанавливается пользователем при создании обращения, учитывая степень нарушения его работы.
На основе этих параметров по заранее установленным правилам рассчитывается итоговый приоритет инцидента, в соответствии с которым планируются и выполняются дальнейшие действия по их обработке. Обычно используется шкала из 3-4 уровней, например:
- Низкий приоритет:
Инциденты с минимальным влиянием и срочностью, которые могут быть разрешены без срочного вмешательства. Реакция на такие события происходит согласно регулярному графику обслуживания.
- Средний приоритет:
Инциденты умеренной серьезности ограничивают некоторые функции или сервисы, но имеют небольшое влияние на бизнес в целом. Реакция на такие инциденты запланирована и осуществляется в установленные сроки, чтобы восстановить полную функциональность системы.
- Высокий приоритет:
Инциденты приводят к значительному снижению производительности или функциональности. Они требуют быстрого реагирования для минимизации влияния на операционную деятельность.
Значительные инциденты (Major incident)
Следует отдельно выделить категорию значительных инцидентов (Major Incidents) — критических событий, которые приводят к недоступности ключевых систем, сервисов, затрагивают множество пользователей и напрямую угрожают бизнесу. Они характеризуются максимальными показателями влияния, срочности и приоритета, а также требуют особых процедур эскалации и разрешения.
Менеджер инцидентов отвечает за качественное выполнение всех процедур, связанных с процессом управления инцидентами, в том числе за обработку значительных инцидентов. Как правило, именно этот специалист определяет, является ли инцидент значительным.
«Учитывая максимальное влияние инцидента на нормальную работу организации, требуется выделенная по отношению к общей практики процедура реагирования для ускорения решения и минимизации последствий для бизнеса, а также восстановления доступности услуг. Этим Major incident и отличается от обычного инцидента, который хоть и может иметь высокий приоритет, но оказывает влияние в меньшей степени на бизнес-процессы организации и решается в рамках стандартных процедур оперативного реагирования без необходимости мобилизации дополнительных ресурсов»
Андрей Вишняков Директор по бизнес продуктам SimpleOne ITIL ® SL, MP, Expert
Задача организации — иметь эффективную и оперативную схему реагирования на значительные инциденты. Процедура обработки значительных инцидентов направлена на достижение следующих целей:
- Обеспечение классификации потенциально значительных инцидентов как значительных, с целью уменьшения риска ложного срабатывания процедуры;
- Обеспечение немедленного привлечения всех необходимых организационных и технических ресурсов для быстрого устранения значительного инцидента и минимизации его последствий;
- Запуск процесса анализа причин возникновения значительного инцидента;
- Минимизировать вероятность повторного возникновения аналогичных значительных инцидентов, улучшить ITSM-процессы в области управления инцидентами, изменениями и решением проблем.
Swarming-сессии при значительных инцидентах
В традиционной модели менеджмента инцидентами с помощью обработки заявок тикеты проходят несколько уровней: L1, L2, L3. Эта модель создает очереди, которые удлиняют время реагирования и приводят к передаче тикетов, в результате чего теряется важная составляющая работы каждой группы. В сложных системах и при сбоях тикет с задержкой попадает к нужным исполнителям. Конечный результат — длительное время реагирования и недовольство пользователей. В этом случае стоит перейти к свормингу (swarming, «муравейник»).
Swarming — методика эскалации ресурсов, позволяющая обеспечить скорейшую выработку решения по задаче, а также привлечь всех возможных специалистов, связанных с проблематикой задачи в онлайн-режиме (swarming-сессия). В процессе диагностики ситуации в совместной работе продолжают участвовать только необходимые специалисты до тех пор, пока не будет найдено подходящее решение задачи.
Менеджер инцидентов обеспечивает эффективное проведение встречи swarming-сессии, координирует привлечение нужных специалистов, определяет препятствия и требования для их решения. Участники swarming (если их компетенция связана с областью данного значительного инцидента) активно сотрудничают, предоставляя необходимую информацию в решение значимых инцидентов. Если экспертиза участника не требуется для данной задачи, он имеет право покинуть встречу.
Благодаря ITSM-платформа SimpleOne стало возможным организовать сворминг-сессию прямо из формы значительного инцидента. В результате, в Telegram автоматически формируется группа для значительных инцидентов, куда также можно добавить участников, не являющихся пользователями системы. Помимо участников, в группу уже добавлен бот-маршрутизатор, который будет присылать информацию обо всех важных изменениях, произошедших на форме инцидента.
https://www.youtube.com/watch?v=bbzOljJ9yKg
SimpleOne ITSM
SimpleOne ITSM — это система для автоматизации IT-процессов, разработанная в соответствии с передовыми практиками ITIL. Этот инструмент значительно повышает качество оказания ИТ-услуг путем эффективной автоматизации бизнес-процессов и повышения качества работы ИТ-департамента и Service Desk.
Система помогает в раннем обнаружении инцидентов, их быстром и эффективном устранении, что позволяет минимизировать влияние на бизнес-процессы. Инциденты классифицируются на основе уровней серьезности и управляются в соответствии с приоритетом, что гарантирует непрерывное и качественное функционирование услуг.
Заключение
Хотя управление инцидентами необходимо всем организациям, оно особенно важно для компаний, которые активно использование технологии в рамках своих бизнес-процессов. В современном мире почти все организации в той или иной степени полагаются на технологии. Поэтому управление инцидентами необходимо для обеспечения бесперебойной работы компании. Эффективный процесс управления инцидентами помогает несколькими способами: снижает влияние инцидентов на работу, повышает общую эффективность организации, улучшает способность реагировать на непредвиденные ситуации и находить оптимальное решение.