Технологии · 2 min read · Sep 21, 2025

Неправильно настроенный код стал причиной сбоя Azure 18 ноября – Microsoft

Table Of Contents

  • Microsoft говорит, что сбой Azure 18 ноября вызван неправильно настроенным кодом
  • Превышение полномочий
  • Заявление

Microsoft говорит, что сбой Azure 18 ноября вызван неправильно настроенным кодом

Microsoft Azure, облачная платформа для бизнеса, столкнулась с серьезным сбоем 18 ноября, который оставил многих пользователей в затруднительном положении. В заявлении Microsoft утверждала, что сбой был вызван тем, что ее разработчики внедрили плохой код.

Превышение полномочий

Разработчики Microsoft, похоже, работали над исправлением ошибки в своем программном обеспечении. Решение проблемы, по-видимому, вызвало массовый сбой облачных сервисов Azure. Microsoft заявила, что протестировала обновление перед его развертыванием. Но не всегда возможно точно предсказать результат обновления программного обеспечения на такой огромной платформе в условиях контролируемого тестирования. Поэтому Microsoft придерживается политики развертывания любого нового обновления поэтапно, то, что они называют flighting, то есть ограничением развертывания. На этот раз, вероятно, из-за чрезмерного рвения, разработчики развернули полный пакет обновлений сразу, что вызвало каскадный эффект на всех серверах. В заявлении, опубликованном в блоге Azure, Джейсон Зандер, CVP, команда Azure, отметил,

В результате, уровень подключений к Azure 18 ноября упал с 97% до 7%-8% после 19:00 по восточному времени в Северной Вирджинии. Центр обработки данных Azure в Далласе на короткое время полностью вышел из строя. Центры обработки данных в Европе не восстановились до глубокой ночи следующего дня.

Он также добавил, что, хотя у них есть стандартная политика развертывания для обновления/патчей ошибок, имели место явные недоразумения. «Стандартная политика развертывания flighting, предполагающая поэтапное развертывание изменений по небольшим частям, не была соблюдена», - написал Зандер. Зандер сказал, что их команда выявила ключевую проблему, которая заключалась в проблеме конфигурации в интерфейсах хранения таблиц Azure. «Конфигурационный переключатель был неправильно включен для интерфейсов хранения Blob Azure», - написал Зандер.

Интерфейсы хранения таблиц записывают последовательность различных типов данных, поступающих в Blob (сервис для хранения больших объемов неструктурированных данных), и могут использоваться для управления извлечением данных. Ошибка в конфигурационном переключателе, по-видимому, вызвала бесконечный цикл, который в конечном итоге привел к сбою облачного сервиса Azure.

Заявление

Первоначальное обновление было предназначено для исправления некоторых ошибок, выявленных командой Azure, и улучшения производительности облачной платформы. Обновление показало себя на всех тестах в фазе альфа-тестирования. Успешные результаты альфа-тестирования, вероятно, чрезмерно воодушевили разработчиков отказаться от метода развертывания flighting, и они внедрили обновление сразу. Результат, как видно 18 ноября, стал полным сбоем, вызвавшим проблемы у пользователей. В ответ администраторы Azure теперь внедрили автоматизированную практику обновлений, которая не позволит повториться такому событию.

В, возможно, самом ясном результате инцидента, Зандер написал: «Microsoft Azure имела четкие операционные инструкции, но существовал разрыв в инструментах развертывания, которые зависели от человеческих решений… С обновлениями инструментов политика теперь обеспечивается самой платформой развертывания».

Зандер признал, что облачные операции должны стать более надежными и сказал, что Microsoft продолжит работать над этой целью. «Мы искренне извиняемся и признаем значительное влияние, которое это прерывание сервиса могло оказать на ваши приложения и сервисы», - написал он.

Зандер, возможно, искренне извинился за чрезмерное воодушевление своей команды разработчиков, но факт остается фактом: Microsoft спешит с патчами и обновлениями без необходимого тестирования. Эта проблема уже привела Microsoft к выпуску ошибочных патчей/обновлений, которые вызывают BSOD, в обновлениях Patch Tuesday дважды, один раз в октябре с KB 2949927 и в декабре с KB 3004394, только чтобы удалить их позже. Пользователи надеются, что Microsoft разработает стандартные операционные процедуры для выпуска только тех обновлений/патчей, которые были проверены в реальной рабочей среде.

Share: X/Twitter LinkedIn

Get new posts in your inbox

No spam. Unsubscribe anytime.