mardi 1 décembre 2015

Le nuage peut tomber en panne

Vous l'avez probablement constaté au fil de cette année 2015, des services dans le Cloud ont connu des défaillances plus ou moins sévères.

Liste non-exhaustive :
  • Mars : Problème de mise à jour chez Google => 45 minutes de lenteurs et impossibilité de se connecter à des machines virtuelles
  • Mars : Problème interne chez Apple => 12 heures d'indisponibilité de l'AppStore, iTunes et certaines messageries iCloud
  • Juillet : Erreur humaine chez OVH => une heure de ralentissement sur une partie du trafic
  • Août : Problème électrique (foudre) sur un DataCenter de Google en Belgique => perte de données sur 0,000001 % de l’espace de ces serveurs
  • Septembre : Problème de base de données chez AWS => plusieurs heures d'indisponibilité pour les clients de Netflix, Reddit
  • Septembre : Problème de mise à jour chez Skype => service indisponible pendant plusieurs heures pour de nombreux utilisateurs
  • Septembre : Plusieurs pannes chez Facebook => indisponibilité de plusieurs heures
  • Octobre : Problème de mise à jour chez Google => trois heures d'indisponibilité pour Google Drive
Bien évidemment, les services dans le Cloud fonctionnent globalement bien car ils sont opérés par des hébergeurs dont c'est le métier. Néanmoins, il est important que les clients soient conscients de risques, de manière à :

  • Imaginer un plan de secours en cas d'incident majeur chez le prestataire
  • Ne pas se contenter des classifications auto-proclamées TIER (Uptime Institute) et être capable d'évaluer les prestataires Cloud sur leur réel niveau de redondance
  • Exiger des clauses contractuelles et les indicateurs de suivi qui permettent de mesurer le respect (SLA) sur les niveaux d'indisponibilité
A titre d'exemple, le TIER III correspond à 1,6 heures d'interruption par an et le TIER IV à 0,4 heure. Autant dire que la plupart des incidents chez les hébergeurs/prestataires de Cloud font exploser leurs engagements contractuels de disponibilité ... Qui leur réclame des compensations/pénalités ?

Sachant qu'on parle ici des incidents qui ont eu un écho dans la presse, il est facile d'imaginer que de nombreux incidents sont passés sous silence (hébergeurs moins médiatisés, pannes hors heures ouvrées, ...).

Les hébergeurs/prestataires gagneraient en mettant à disposition de leurs clients des API ou portails pour suivre en temps réel la disponibilité de leurs services et à communiquer de la manière la plus transparente sur les incidents, inévitables, qu'ils rencontrent.

A noter la plateforme CloudHarmony qui permet de suivre la disponibilité des principaux fournisseurs de cloud sur un mois maxi. A titre d'exemple, voici un extrait pour les services de stockage en Europe.

Aucun commentaire:

Enregistrer un commentaire