Удивительная история про то, как никто не проверял дисковое пространство. Ваш сисадмин, кстати, давно проверял?
Toyota заявляет, что причиной остановки 14 заводов в Японии 27-29 августа стала нехватка дискового пространства на серверах компании.
«Где сервера, а где конвейер!», скажут некоторые. Но современные экономика и бизнес – это экономика данных, бизнес данных. Нет сервера для обмена этими данными (сломался, переполнен, обесточен), и все процессы останавливаются: заказы не делаются, проекты становятся недоступны, обмена информацией не происходит… А в случае Toyota еще и комплектующие на конвейер не поставляются, потому что никто не знает, какие машины, в каком количестве и в каких комплектациях сегодня должны были собираться. Вся эта информация собирается на серверах, исходя из заказов от дилеров и дистрибуторов, складских остатков компонентов и тому подобного.
И «Тойота» – не единственная компания, бизнес которой основан, в том числе, на работоспособности серверов. От этого фактора сегодня зависят все, включая и Сбербанк, и вашу компанию, и TexTerra.
Так что же произошло с серверами Toyota? Уборщица бежала, шваброй махнула? Нет. Спустя неделю компания рассказала о причине сбоя.
Производство было приостановлено на 28 линиях всех 14 заводов с 27 по 29 августа – на три дня. 27 августа проводились плановые работы по техническому обслуживанию серверов, но что-то пошло не так. В Toyota объяснили, что данные, собранные в базе, но уже ненужные, были удалены, как и много раз до этого. Однако система вдруг остановилась из-за ошибки «Нехватка дискового пространства».
Поскольку серверы работали в одной системе, функция резервного копирования не сработала, и автоматического переключения не произошло. У Toyota не было другого выхода, кроме как остановить производство на своих заводах в Японии. Выпуск автомобилей возобновили только после того, как данные были перенесены на другой сервер с большей емкостью хранилища.
Как оказалось, сбой произошел в системе производственных заказов (какие автомобили, в каком количестве, в каких комплектациях и каких цветов должны собрать на конвейере сегодня). Toyota заявляет, что специалисты компании приняли все необходимые меры, чтобы подобная проблема больше не возникала.
Других подробностей о возникшей проблеме, на которых все могли бы поучиться, нет.
Валерий Филонов, руководитель отдела frontend- и backend-разработки TexTerra:
«Мог сыграть роль человеческий фактор, повлекший ошибку при структурировании данных и удалении логов. Например, технология, позволяющая обмениваться данными, наподобие AJAX, могла зациклиться и передавать данные тысячи раз в секунду (такое случается и, грубо говоря, на этом построены DDOS-атаки).
Либо ошибка, о которой говорят в Toyota, была допущена еще на этапе внедрения системы комплексного мониторинга (Zabbix, ELK, Grafana и т.д., а также подключение ML/AI для выявления аномалий в метриках), которая следит как за состоянием «железа» (серверов), так и за их заполнением и состоянием операционных систем. Возможно, такой системы мониторинга у «Тойоты» не было вовсе. И это стоило компании трех дней простоя всех местных производств».
В любом случае, стало понятно, что одними только бэкапами и чистками серверов современному технологичному бизнесу в условиях экономики данных не обойтись. Нужны все более продвинутые системы обслуживания серверов. Не исключено, и даже очень вероятно, что скоро к этому процессу будет подключен искусственный интеллект.
Читайте также:
Как мы с нуля настроили CRM и сквозную аналитику для онлайн-магазина
Экономика данных – что это такое? Объясняем простыми словами!
Что такое AMP: подробное руководство по ускоренным мобильным страницам