Amazon S3 отключился на два часа.

Амазон S3 — это крутая компания, предоставляющая сервера под интернет-проекты. Они гарантируют высокую надёжность своих сервисов, готовы даже деньги платить за каждый час простоя. Так вот, в прошлую пятницу они сломались, стали недоступны сотни всемирно известных сайтов. Отключение произошло в 15-30 по Москве, в 18-00 все последствия аварии уже были устранены.

Лично меня порадовал официальный пресс-релиз по этому поводу.

[more]

Я перевёл достаточно вольно:

-Утром, в 3-30 по Тихоокеанскому времени, мы наблюдали повышение количества авторизованных запросов (то есть, когда пользователь ввёл имя-пароль и начинает под своим логином пользоваться сайтом, прим. пер.). Мы тщательно следим за общим количеством запросов, и эти показатели укладывались в норму. Но мы не отслеживали количество авторизованных запросов, а они более требовательны к ресурсам: требуется шифрование всех передаваемых данных.

В 4-00 количество запросов продолжило расти и вскоре наши мощности закончились: в 4-31 сервера стали отказывать в обслуживании. К 6-48 мы собрали дополнительные сервера и вернулись к нормальному функционированию.

Мы очень гордимся нашей непрерывной работой в течение двух последних лет, авария любой продолжительности для нас недопустима. В рамках расследования случившегося мы выработали тактические и стратегические улучшения. Прямо сейчас мы изменим наши системы мониторинга и увеличим наши мощности.

С уважением, Команда Амазона.

(оригинал)

Наверняка многие сталкивались в своей жизни с авариями различных сервисов, звонили в тех-поддержку и не могли добиться удовлетворительного ответа. Мы сами грешим этим — отвечаем «да, сломалось, да чиним, не знаем когда починим». Когда мои ребята звонят в техподдержку магистрального канала, там вообще говорят «это сломалось не у нас, но мы звонили тем, у кого сломалось, они обещали починить». Что нам после этого отвечать своим клиентам? )

Будем брать пример, в общем.

 

 

Amazon S3 отключился на два часа.: 0 комментариев

  1. (из моей практики) По сути клиента интересует: ни что случилось, а когда всё будет. И из той же практики: Что случилось интересует только тех кому : во первых-не понятно чойто ваще, во вторых-кому надо всё на пять минут а остальное время не чем занять, вот и разговаривают умными словами

  2. mega_na, когда будут звонить и спрашивать «почему нет интернета» ты отвечай «Утром, в 3-30 по Тихоокеанскому времени, мы наблюдали повышение количества авторизованных запросов.»

  3. Как-то странно получается — сотрудники AmazonS3 сидели и смотрели как у них кончаются мощности, пока они совсем не иссякли, и почему, спрашивается, они не отслеживают количество авторизованных запросов?
    И почему такая ситуация раньше не произошла, какой-то бум посещаемости чтоли?
    Такая огромная контора, и никто не мог предвидеть большого числа авторизованных запросов.
    Вобщем, такое ощущение, что им надо было как-то объяснить аварию, вот и сочинили красивую сказку.

  4. N, почему же? Как раз наоборот, всё похоже на правду. Никогда не угадаешь, что конкретно нужно мониторить — пока оно не выстрелит.
    А нагрузка на серверы всегда вычисляется вероятностно — как в теории массового обслуживания. Чем выше вероятность закладывается — тем дороже система. Поэтому проектировщики в проекте пишут «рассчитываем, что максимально систему будет использовать 80% клиентов»

    Авария — она и есть авария, никто не застрахован. И сказки обычно сочиняются, когда стыдно сознаться в собственной безграмотности. А здесь видимо им не стыдно.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *