La scorsa settimana, milioni di macchine Windows sono state fermate a causa di un bug di aggiornamento da CrowdStrike. L’incidente, che ha avuto un impatto su circa 8,5 milioni di dispositivi, è stato ricondotto a un bug nel software di test.
L’aggiornamento difettoso è sfuggito al processo di convalida, causando crash diffusi. Questo problema di CrowdStrike ha spinto l’azienda a impegnarsi in test più rigorosi e a migliorare la gestione degli errori per gli aggiornamenti futuri.
Il problema di CrowdStrike ha colpito l’interruzione di Microsoft
L’ultimo fiasco di CrowdStrike non è solo un caso isolato Problema CrowdStrike; risuona con le sfide più ampie del settore tecnologico. Anche Microsoft ha subito un’importante interruzione a causa di ciò, che ha amplificato il caos al punto da colpire i paesi. Mentre le radici dell’interruzione di Microsoft erano diverse, i problemi concomitanti hanno evidenziato la natura fragile dei servizi cloud e gli effetti a catena dei guasti software. In definitiva, il problema di CrowdStrike è stato l’innesco. Tali incidenti sottolineano la necessità di solidi processi di test e convalida in ogni dominio.
Cos’è un’interruzione di CrowdStrike?
Il software Falcon di CrowdStrike è uno strumento fondamentale per le aziende e fornisce una solida protezione contro malware e violazioni della sicurezza su milioni di computer Windows. Il problema di CrowdStrike è sorto quando un aggiornamento di routine della configurazione dei contenuti, destinato a raccogliere dati di telemetria su potenziali minacce, ha invece causato un crash catastrofico. Questo aggiornamento faceva parte del Rapid Response Content, un piccolo file da 40 KB che non funzionava correttamente e ha portato a diffusi guasti del sistema. Sembrano vecchi virus. È come avere un “Asino” suono e un flusso infinito di messaggi di avviso che non dicono nulla e il computer si spegne involontariamente.
L’anatomia dell’interruzione
Il problema di CrowdStrike era collegato all’aggiornamento del sensore Falcon da parte di Rapid Response Content per migliorare il rilevamento del malware. Questo particolare aggiornamento conteneva dati di contenuto problematici che sono riusciti a passare attraverso Content Verifier a causa di un bug. CrowdStrike afferma che di solito esegue test sia automatici che manuali sui suoi aggiornamenti. Tuttavia, Quick Response Content non è stato sottoposto agli stessi test approfonditi di altri aggiornamenti, o in qualche modo è riuscito a superare il test, portando al crash catastrofico.
Come è potuto andare tutto storto?
Il problema di CrowdStrike può essere ricondotto a un presupposto errato sull’affidabilità del loro Content Validator. A marzo, una nuova distribuzione di Template Types ha portato CrowdStrike a credere che il loro processo di convalida fosse infallibile. Tuttavia, questa fiducia si è rivelata mal riposta. Il problematico Rapid Response Content è stato caricato nel Content Interpreter del sensore, innescando un’eccezione di memoria fuori dai limiti che Windows non è stato in grado di gestire, con conseguente famigerata Blue Screen of Death (BSOD).
Quando è iniziato il disservizio di CrowdStrike? Cronologia del problema
Il problema di CrowdStrike è scoppiato di venerdì, un giorno in cui le aziende solitamente chiudono le operazioni per il weekend. Questa tempistica non avrebbe potuto essere peggiore, in quanto ha portato a interruzioni immediate in numerose organizzazioni. L’aggiornamento difettoso, pensato per migliorare la sicurezza, ha invece paralizzato i sistemi, causando tempi di inattività e frustrazione significativi.
Risposta iniziale e controllo dei danni
CrowdStrike ha rapidamente identificato il file problematico Rapid Response Content come fonte del problema. Nonostante la rapida identificazione, il danno era già fatto. Le aziende che si affidavano a CrowdStrike Falcon si sono trovate a dover lottare per mitigare l’impatto dell’incidente. L’urgenza della situazione ha spinto CrowdStrike a pubblicare una dettagliata Post Incident Review (PIR), delineando la causa principale e il loro piano per prevenire futuri eventi.
Impegni per prevenire problemi futuri
In risposta al problema di CrowdStrike, l’azienda ha promesso diverse misure per garantire che un simile disastro non si ripeta. Tra queste:
- Test avanzati: Implementazione di test per sviluppatori locali, test di aggiornamento e rollback dei contenuti, test di stress, fuzzing e inserimento di errori.
- Miglioramento della gestione degli errori: Miglioramento delle capacità di gestione degli errori del Content Interpreter nel sensore Falcon.
- Distribuzione scaglionata: Distribuire gradualmente gli aggiornamenti a porzioni più ampie della base installata anziché procedere in modo immediato.
Cos’è CrowdStrike Falcon? Il protettore in questione
CrowdStrike Falcon è il software al centro di questo problema. È una piattaforma basata su cloud che fornisce protezione degli endpoint, combinando antivirus, intelligence sulle minacce e rilevamento e risposta degli endpoint (EDR). La funzione principale del software è quella di proteggere da malware e violazioni della sicurezza, rendendolo uno strumento fondamentale per le aziende in tutto il mondo.
Come funziona Falcon
Falcon opera distribuendo sensori a livello di kernel nelle macchine Windows. Questi sensori monitorano costantemente le attività sospette e utilizzano l’intelligenza artificiale e l’apprendimento automatico per migliorare le capacità di rilevamento. Gli aggiornamenti di questi sensori, come Rapid Response Content, sono fondamentali per mantenere una protezione aggiornata contro le minacce emergenti.
Il ruolo dei contenuti di risposta rapida
Gli aggiornamenti Rapid Response Content sono progettati per modificare il comportamento dei sensori Falcon, consentendo loro di rilevare nuove forme di malware. Questi aggiornamenti sono solitamente piccoli e rapidi da implementare, il che li rende una parte essenziale della funzionalità di Falcon. Tuttavia, il problema di CrowdStrike ha dimostrato i potenziali rischi quando questi aggiornamenti non vengono convalidati a fondo.
Il Dipartimento e l’Agenzia per la sicurezza informatica e delle infrastrutture (@CISAgov) stanno collaborando con CrowdStrike, Microsoft e i nostri partner federali, statali, locali e delle infrastrutture critiche per valutare e risolvere in modo approfondito le interruzioni del sistema.
— Sicurezza Nazionale (@DHSgov) 19 luglio 2024
Lezioni dal problema CrowdStrike
Il problema di CrowdStrike serve da duro promemoria dell’importanza di solidi processi di test e convalida. Mentre l’azienda ha delineato diverse misure per prevenire futuri incidenti, la comunità tecnologica seguirà senza dubbio da vicino. Garantire l’affidabilità del software di sicurezza è fondamentale e il problema di CrowdStrike ha evidenziato la posta in gioco coinvolta.
Il problema di CrowdStrike sottolinea il delicato equilibrio tra aggiornamenti rapidi e stabilità del sistema. Poiché le aziende continuano a fare molto affidamento su tale software per la sicurezza, le lezioni apprese da questo incidente saranno cruciali per dare forma a pratiche e protocolli futuri.
Credito immagine in evidenza: Gruppo di notizie Scoop
Source: Corso accelerato sul problema CrowdStrike