Il fallimento di Facebook mostra perché non dovremmo fare affidamento su di esso per tutto

Sommario:

Il fallimento di Facebook mostra perché non dovremmo fare affidamento su di esso per tutto
Il fallimento di Facebook mostra perché non dovremmo fare affidamento su di esso per tutto
Anonim

Da asporto chiave

  • I problemi tecnici di Facebook sono stati sfortunati, ma il problema sarebbe stato probabilmente risolto molto più velocemente se non si fosse basato su così tanti sistemi interconnessi.
  • Non c'è modo di prevenire completamente i guasti del sistema, ma ci sono modi per renderli meno probabili.
  • Avere piani di backup per quando (non se, quando) un sistema si guasta può fare la differenza tra "fastidioso" e "catastrofico".
Image
Image

La recente debacle di Facebook dimostra come i sistemi interconnessi siano destinati a fallire e perché non dovremmo usarli per tutto.

Perdere Facebook, WhatsApp e Instagram per diverse ore lunedì è stato scomodo, dannoso per le aziende e, in alcuni casi, quasi catastrofico. Secondo Facebook, tutto è dovuto alle modifiche alla configurazione dei router di coordinamento della rete.

È una spiegazione ragionevole, ma il fatto che un singolo errore del genere possa fermare non solo Facebook ma anche altri sistemi di proprietà di Facebook è un po' allarmante.

Una modifica errata della configurazione del router ha causato l'interruzione completa di più servizi e persino delle cuffie VR. Inoltre, per ammissione della stessa Facebook, ha anche avuto un effetto a cascata sul modo in cui i data center dell'azienda comunicano, interrompendo tutti i loro servizi.

"La dipendenza da sistemi interconnessi comporta un rischio intrinseco di guasto del sistema o addirittura del servizio", ha affermato Francesco Altomare, Senior Technical Sales Engineer presso GlobalDots, in un'intervista via e-mail con Lifewire, "Per contrastare questo rischio scoraggiante, le aziende utilizzano il principio di SRE (System Reliability Engineering), così come altri strumenti, che si occupano tutti di vari livelli di ridondanza incorporati in ogni livello dell'infrastruttura di un sistema."

Image
Image

Cosa può andare storto

Vale la pena notare che quando un sistema del genere fallisce, di solito richiede una tempesta perfetta di cose che vanno storte. È meno come un castello di carte in attesa di cadere e più come una porta di scarico termica esposta su una stazione spaziale delle dimensioni di una piccola luna.

La maggior parte delle aziende adotta misure per cercare di garantire che l'unica cosa che potrebbe gettare tutto nel caos non accada mai, ma a prescindere, può accadere.

"I guasti imprevisti fanno parte del business e potrebbero derivare da negligenza dei lavoratori, guasti nella rete del provider di servizi Internet o persino problemi con i servizi di archiviazione cloud", ha affermato Sally Stevens, co-fondatrice di FastPeopleSearch, in un colloquio via e-mail.

"…Finché i passaggi necessari per proteggere il sistema, come backup, router in loco e accesso a livelli, vengono messi in atto, questi guasti sono piuttosto improbabili." Anche se, anche con un esercito di dispositivi di sicurezza, è ancora possibile che il fulcro fallisca.

Se il sistema che controlla cose come forme di contatto primarie, elettrodomestici, porte, ecc., fallisce, i risultati possono essere significativi. Da lieve inconveniente a catastrofico totale, a seconda di quanto gli individui e le aziende fanno affidamento su tutto.

Image
Image

"C'è anche il rischio che gli hacker entrino nel sistema da uno qualsiasi dei dispositivi meno protetti, come frigoriferi e tostapane", ha aggiunto Stevens, "che potrebbe portare a furto di dati e ransomware."

Come possiamo prepararci

Non c'è modo di garantire che un sistema non fallisca mai, ma ci sono misure che possono essere adottate per rendere meno probabile il guasto o per affrontarlo in modo più agevole. L'ideale sarebbe una combinazione dei due approcci che uniscono dispositivi di sicurezza e contromisure con piani di emergenza e sistemi di backup.

"Per eliminare questi rischi creati da prodotti e servizi di terze parti che vengono gestiti in modo efficace, i ruoli e i doveri relativi alla gestione del rischio di terze parti devono essere rigorosamente delineati", ha affermato Daniela Sawyer, fondatrice e chief technology officer di FindPeopleFast, in un'intervista via e-mail, "Per prosperare in questo nuovo ambiente, i gestori del rischio devono comprendere le parti essenziali di un ecosistema così sofisticato."

Quello che è successo con Facebook, WhatsApp e Instagram è stato sfortunato, ma si spera anche di aprire gli occhi. Le persone che fanno affidamento su sistemi interconnessi devono capire che la cosa giusta che va storta può sconvolgere tutto. E le misure devono essere messe in atto (o esaminate e perfezionate) per rendere tali interruzioni meno probabili e meno impattanti.

Nel caso di Facebook, il suo problema non erano i problemi del router, ma piuttosto l'avere quasi l'intero ecosistema connesso a tutto il resto. Pertanto, con Facebook (il servizio) inattivo, Facebook (l'azienda) ha dovuto dedicare molto più tempo ed energie semplicemente all'organizzazione e alla risoluzione del problema. Se non avesse utilizzato un sistema così radicato e interconnesso o non avesse avuto piani di backup in atto per far fronte a un'interruzione del genere, probabilmente ci sarebbe voluto molto meno tempo per risolverlo.

Consigliato: