[Point complet #OVH] Toutes les informations concernant l’incendie d’OVH et les actions mises en oeuvre au 19.03.21

Actus

Chers clients, chers partenaires, après une semaine très intense, nous prenons le temps de vous faire un point complet de la situation. Ce mail risque d’être un peu long, mais nous avions besoin de vous transmettre un maximum d’informations, pour que vous compreniez l’ampleur de l’incident et le niveau d’implication de nos équipes dans la mise en oeuvre de solutions d’urgence. Certains d’entre vous n’ont eu aucun impact sur leur site, d’autres sont revenus sur une version antérieure et certains attendent encore un retour à la normale de leurs services… alors pourquoi ?

Comprendre ce qu’il s’est passé

Le Mercredi 10 mars, à 00:36 du matin, le téléphone de notre Directeur Technique se déchaîne. Nos outils de monitoring externalisés nous informent que les premiers serveurs sur l’infrastructure CLOUD venaient de tomber. Impossible d’effectuer la moindre action sur les différentes machines, les outils de remontées automatiques et manuelles sont hors d’usage. Impossible de dialoguer avec les « IP Failover » (système permettant de transférer immédiatement le traffic sur des machines externes). On comprend très vite qu’un incident majeur est en train de se passer, mais on pense tout d’abord à une coupure électrique.

15 minutes plus tard, on constate une réelle coupure électrique avec un down massif de près de 80% de nos serveurs en gestion. On est à ce moment là prévenu qu’un incident majeur touche une partie importante de notre infrastructure serveur. Silence radio du côté d’OVH, impossible de contacter le service client malgré notre programme Partner.

Ce n’est que plus tard (03:42), qu’un tweet d’Octave Klaba, directeur général d’OVH nous apprend qu’un incendie a lieu sur le site de Strasbourg. Le feu est alors hors de contrôle dans le Datacenter 2 et par mesure de sécurité l’ensemble de l’alimentation électrique a été coupée sur les 4 datacenter construits côte à côté (oui, oui, on y reviendra …).

Nous avions compris à ce moment-là que la journée allait être longue. A ce moment précis, il était impossible de faire quoi que se soit. Tout était hors d’usage, les sites, comme 3,8 millions d’autres étaient plantés. Plus aucun accès aux différents Managers, plus d’accès en console, plus d’accès aux sauvegardes, plus d’accès aux outils de remontées de serveur …. blackout total.
A 5:20, nous apprenons que le Datacenter de Strasbourg 2 est définitivement détruit et qu’une partie du Datacenter de Strasbourg 1 également.
A 7:19, un e-mail d’information est envoyé à l’ensemble de nos clients.
A 7:20, on apprend que le feu est éteint mais que les Datacenters non touchés ne seraient pas redémarrés dans la journée. C’est le signal attendu pour lancer la mobilisation générale. L’ensemble de l’équipe est appelée pour relancer par ordre d’importance les différents services qui le peuvent tout en luttant pour commander des machines et faire pointer les IP FAILOVER partiellement accessibles. Le réseau est totalement saturé … c’est la panique générale pour toutes les agences.

Nous réalisons en parallèle un inventaire entre les services des clients, les backups locaux disponibles, répartis dans plusieurs endroits (merci le télétravail).

Le soir même à 22:00, 70% des clients touchés étaient « up » sur des données à jour et/ou partiellement à jour.Le lendemain 92% des clients touchés étaient en ligne sur des données à jour et/ou partiellement à jour, mais ce n’est pas assez. On double les effectifs en prévision d’une reprise plus lente qu’espérée des derniers sites, intégrant beaucoup de contenus et pour lesquelles des sauvegardes manuelles vers nos machines locales étaient trop lourdes.

Comment cela a-t-il pu arriver ?

Toutes les informations sur l’origine du feu ne sont pas encore connues. Cependant, il semblerait qu’une réparation intervenue sur des onduleurs (machines permettant de garder une alimentation électrique stable en cas de coupure) serait à l’origine du déclenchement de 2 feux distincts (l’un dans le Datacenter (DC) 2 et l’autre dans le DC 1). Nombre de professionnels nous ont confirmé que cette configuration est déconseillée depuis de nombreuses années…Il semblerait que les sécurités incendie d’OVH n’étaient pas à la hauteur non plus de ce type d’événement et nous en apprendrons surement davantage dans les prochains jours puisqu’une enquête est en cours.

Nos sites internet ont-ils brûlés ?Aux dernières nouvelles, tous les clients qui étaient hébergés sur le site de Strasbourg, la réponse est oui. Il se trouve que les informations obscures d’OVH sur la localisation des services ont eu raison de grand nombre de ses clients. Nos serveurs VPS (Virtual Private Server) étaient immatriculés sur SBG 1 (pour ceux-ci il y avait un risque), et nos serveur Public Cloud étaient immatriculés sur SBG3. L’immatriculation des Datacenter d’OVH étaient notés SBG1, SBG2, SBG3, SBG4. Nous étions donc rassuré pour tous les hébergements Public Cloud. Il se trouve que les nomenclatures étaient obscures (comme tout le reste), la numérotation SBG3 Open-Cloud correspondait en réalité à la zone Openstack-SBG3 hébergée dans le Datacenter SBG2, idem pour les VPS zone os-SBG1 hébergé dans le Datacenter SBG2. De ce côté là, nous sommes donc fixés.

et les sauvegardes ?

L’ensemble des services que nous hébergeons profitent à minima d’un outil de sauvegarde. Pour la majorité des sites internet, il s’agit de snapshots serveurs. Des images instantanées des données du serveur externalisé. Ces images permettent en cas de down du serveur (panne matérielle, disque dur qui casse, attaque pirate, etc…) de pouvoir lancer en quelques secondes, une copie de toutes les données sur une nouvelle machine, ainsi que les bases de données. C’est grâce à ça que nous réussissons habituellement à relancer les sites , outils et services en quelques minutes seulement. Cet outil largement utilisé profite des dernières technologies en matière de Cloud. Les sauvegardes sont réalisées 4 fois par jour et ont généralement entre 2 et 5 jours de rétention.

Autre avantage de ce type de sauvegarde, elle utilise très peu de puissance machine et permet dans le cas de gros services, et de sites internet avec beaucoup d’informations, d’éviter de surcharger le serveur en utilisant beaucoup trop de puissance lors des archivages des données, et de le faire tomber. C’est bien évidemment un service facturé par OVH, pour lequel nous allons réclamer des comptes… nous en possédons plus de 500 à travers le temps.

Du côté VPS, nous utilisons une offre payante proposée directement par notre OVH et nommée (AUTOMATED BACKUP), qui réalise tous les jours une sauvegarde avec une rétention de 15 jours.

Alors, d’où vient le problème ?

Le problème, est que le localisation de ces sauvegardes, bien que payantes et bien que nous fassions appel à un prestataire que nous pouvons clairement qualifier de professionnel (Plébiscité par la majorité, hébergeur n°1 européen et 2ème hébergeur mondial) …. était localisé sur la même infrastructure géographique (3e faute ? après les onduleurs, le système incendie)… et nous n’avons donc aucun accès à ces données pour le moment. Heureusement pour grand nombre de nos clients, lorsque la taille de leur site (moyen ou petit), ou qu’aucun outil spécifique ne l’empêchait, une seconde sauvegarde était réalisée sur un espace externalisé, ce qui a permis de remettre en ligne un grand nombre d’entre-eux…. mais malheureusement pas tout le monde pour le moment.

Mais du coup, pour les sauvegardes c’est perdu ?

C’est la question récurrent dans la bouche de tous les CTO actuellement… Et, malheureusement, nous ne sommes pas encore dans la capacité d’y répondre directement. Mais, alors qu’on nous annonçait que 25% des sauvegardes étaient probablement perdues, nous avons récemment eu des informations rassurantes à ce sujet. OVH met régulièrement à jour un tableau permettant un suivi sur les capacités de rétablissement des services. Les Backups sont encore sous « investigation » pour vérifier s’ils pourront être rétablis mais il semble que 99,5% d’entre eux étaient hébergés sur le Datacenter de SBG3 (cette fois on le sait) et 0,05% sur le Datacenter de SBG2. Il convient maintenant qu’OVH en vérifie l’intégrité et qu’ils remontent l’ensemble des serveurs des datacenters afin de pouvoir nous confirmer la viabilité de ceux-ci et leurs éventuels accès.

Malheureusement, et c’est là la mauvaise nouvelle, la date estimative est pour le 8 avril.

Mais alors pourquoi c’est si long ?

Tout simplement parce qu’un feu, ce n’est pas un environnement adéquat pour maintenir en vie des serveurs… et l’idée de construire des datacenters les uns à côtés des autres pose de gros problèmes, même lorsque les bâtiments ne sont pas directement touchés.

Ainsi un grand nombre de serveurs doivent être nettoyés des impuretés accumulés pendant les heures de feu, beaucoup de serveurs doivent changer de cartes mères afin d’être sûr de redémarrer dans de bonnes conditions, vue les précieuses données qu’ils contiennent. Le but est de ne pas perdre davantage de données et OVH nous l’assure, les disques durs sont en bon états.

Et pour la suite ?

Notre but premier est de faire en sorte que tout le monde soit de retour en ligne aux pleines capacités de leurs outils, services et sites internet. Nous devrons ensuite réévaluer plusieurs aspects de nos prestations :

le retard sur la production accumulée depuis ces 8/9 derniers jours et les prochains.
les pertes sur certains de nos développements en ligne
nous allons reposer l’ensemble de notre plan d’infogérance et d’outils de sauvegardes
nous étudions toutes les alternatives en matière d’hébergement, ainsi que les changements que nous devront opérer au sein de notre infrastructure.
des actions en justice sont évaluées ainsi que le recours à notre assurance RC, les frais engagés jusqu’ici pour assurer la gestion de crise dépasse déjà les 15.000 €
nous reviendrons bien évidemment vers vous en fonction de l’impact que vous avez subi, pour en estimer les compensations financières en rapport avec vos offres d’hébergement.

Un grand merci !

C’est dans ces moments qu’on évalue la valeur des relations que nous avons avec nos clients et partenaires. La très grande majorité d’entre vous à fait preuve d’une compréhension admirable et toute l’équipe vous en est reconnaissante. Merci pour vos messages de soutien, vos appels rassurants, votre implication, votre collaboration et vos témoignages de solidarité. Nous saurons nous en rappeler.

Ces périodes, bien qu’éprouvantes, nous rappellent la chance que nous avons de choisir nos clients et pourquoi nous les accompagnons depuis toutes ces années. Elles nous apprennent également à rester humbles et à toujours nous remettre en question pour apprendre et grandir. Nous avons également découvert un élan inédit de solidarité entre confrères, habituellement concurrent, et tous bienveillants. Quelque soit la taille, quelque soit le niveau de compétences et la typologie des outils web développés, tous ont été touchés plus ou moins, mais tous ont reconnus le caractère invraissemblable de l’événement.

Nous allons donc finir de sortir de cette crise grandit et plus motivés que jamais à offrir à nos clients et partenaires les solutions professionnelles qu’ils attendent de nous.

Toute l’équipe JOLIFISH EUROPE