Incidentul de întrerupere a RPC-ului pe rețeaua Polygon
Rețeaua de proof-of-stake (PoS) Polygon a suferit o întrerupere de o oră pe 30 iulie, afectând aplicațiile și utilizatorii. Conform CEO-ului și fondatorului Polygon, Sandeep Nailwal, incidentul nu a oprit producția de blocuri. Totuși, QuickNode Status a raportat că producția de blocuri a fost oprită timp de o oră la înălțimea blocului 74,592,238, ceea ce a fost confirmat de alte rapoarte făcute de utilizatori pe platforma X.
Probleme de consens
Într-o postare pe X, Nailwal a menționat că mai mulți furnizori de RPC și, prin urmare, aplicațiile și utilizatorii corespunzători au întâmpinat probleme pe o fereastră de două până la trei ore. În același timp, rețeaua a rămas operațională, continuând să producă blocuri și să proceseze tranzacții pentru RPC-urile neafectate. Datele de pe Polygonscan indică faptul că rețeaua a generat un nou bloc la doar două secunde după blocul 74,592,238, deși exploratorul de blocuri a arătat o producție de blocuri suspendată la această înălțime.
Cauza incidentului
Nailwal a atribuit incidentul unui hotfix și unei pauze temporare pe stratul de consens (Heimdall), legate de o actualizare recentă și complexă. Stratul de execuție (Bor) a continuat să funcționeze, dar unele noduri RPC au ieșit din sincronizare după acest fix, creând eșecuri la nivelul aplicațiilor care au părut a fi o oprire a rețelei. El și-a cerut scuze pentru impactul asupra utilizatorilor finali și a spus că Polygon colaborează cu furnizorii pentru a aduce pe toată lumea la zi, așteptându-se la nicio problemă ulterioară.
Producția de blocuri oprită
Operatorii de infrastructură au descris aceleași simptome. QuickNode a raportat că mainnet-ul a stagnat din punctul său de vedere la înălțimea blocului 74,592,238 și a avertizat că noua actualizare Heimdall v0.2.16 cauzează probleme cu clienții de execuție Bor și Erigon. Compania a suspendat actualizările „până la noi ordine”, a sfătuit operatorii să nu continue și a început să resynchronizeze nodurile complete în timp ce resetau instanțele Erigon pentru a restaura serviciul.
Identificarea și rezolvarea problemei
Pagina de stare a Polygon a izolat defectul la rețeaua Heimdall-V2. Echipa a declarat că serviciul Heimdall de pe mainnet a devenit nefuncțional, afectând vizibilitatea validatorilor și a punctelor de control prin API-urile Heimdall, dar a subliniat că nu a existat un impact asupra stratului Bor. Inginerii au identificat problema și au implementat un fix înainte de a marca incidentul ca fiind rezolvat.
Timeline-ul incidentului
Timeline-ul arată cum s-a desfășurat și extins perturbarea. Polygon a deschis incidentul la 09:52 UTC pe 30 iulie, a identificat problema la 09:57 și a declarat-o rezolvată la 11:01. QuickNode a raportat apoi o stagnare la 11:28, a suspendat desfășurarea Heimdall v0.2.16 la 11:51 în așteptarea unor îndrumări din partea Fundației Polygon și, până la 15:39, a spus că resynchronizează și resetează nodurile pentru a readuce serviciile online.
Concluzie
Nailwal a caracterizat episodul ca o lacună de coordonare între consens și infrastructură, mai degrabă decât o defecțiune a protocolului. Acest incident subliniază importanța cooperării între furnizorii de infrastructură și rețelele de consens pentru a asigura o funcționare fără întreruperi a serviciilor blockchain.