28 Giugno 2024

Server che si riavviano da soli in estate (e non solo in estate)

Come le temperature estive possono portare alla luce problemi silenti come rallentamenti e riavvii improvvisi

Con l’arrivo dell’estate, le temperature esterne aumentano notevolmente e, sebbene i data center siano progettati per mantenere un ambiente controllato, il calore esterno può comunque influire sulle temperature interne dei server. Questo può portare a vari problemi che, se non gestiti correttamente, possono causare rallentamenti o addirittura riavvii improvvisi dei server. In questo articolo, esploreremo come le temperature estive possano portare alla luce problemi latenti nei sistemi di raffreddamento dei server e come affrontare questi problemi.

Impatto delle alte temperature nei data center

I data center sono dotati di sistemi di raffreddamento avanzati per mantenere una temperatura stabile e sicura per i server. Tuttavia, durante l’estate, e soprattutto su sale dati di piccole aziende non proprio conformi agli standard di settore, il carico termico può aumentare a causa del calore esterno, mettendo sotto pressione questi sistemi. Anche piccoli aumenti di temperatura possono avere un impatto significativo sui componenti del server, in particolare sulle CPU, che generano molto calore durante il funzionamento.

Problemi comuni causati dal calore

  1. Rottura delle ventole (FAN): Le ventole sono essenziali per dissipare il calore dalle CPU e da altri componenti. Con il tempo, le ventole possono usurarsi e smettere di funzionare correttamente, riducendo l’efficacia del raffreddamento.
  2. Poca dissipazione della pasta termica: La pasta termica è utilizzata per migliorare il trasferimento di calore tra la CPU e il dissipatore. Se la pasta termica è esausta o non più conforme, l’efficienza del raffreddamento diminuisce, causando un surriscaldamento della CPU.
  3. Raggiungimento della soglia di temperatura (Threshold): Molti server sono configurati per spegnersi automaticamente quando la temperatura della CPU supera una certa soglia per prevenire danni. Questo può portare a riavvii improvvisi se le temperature estive spingono le CPU oltre questi limiti.
  4. Throttling della CPU: Quando una CPU raggiunge temperature elevate, può iniziare a ridurre la sua velocità di clock per ridurre il calore generato, un processo noto come throttling. Questo può causare vistosi rallentamenti nelle prestazioni del server.

Diagnosi dei problemi legati al calore

Diagnosticare problemi legati al calore può essere relativamente semplice in presenza, osservando direttamente i componenti fisici del server. Tuttavia, per un utente o un sistemista inesperto, può essere più difficile identificare questi problemi senza gli strumenti adeguati. Qui entra in gioco l’utilità di strumenti software come lm_sensors.

Cos’è lm_sensors?

lm-sensors

lm_sensors è un tool software essenziale per monitorare la temperatura, la tensione e la velocità delle ventole su sistemi Linux. Questo strumento permette di ottenere dati in tempo reale dai sensori integrati nei componenti hardware del server, facilitando la diagnosi di problemi di surriscaldamento e raffreddamento. lm_sensors è particolarmente utile per gli amministratori di sistema che desiderano mantenere il proprio hardware in condizioni ottimali, prevenendo guasti dovuti a surriscaldamenti o malfunzionamenti delle ventole.

Installazione di lm_sensors

L’installazione di lm_sensors varia a seconda della distribuzione Linux utilizzata. Di seguito, forniamo le istruzioni per le principali famiglie di distribuzioni: Red Hat derivate (come CentOS e Fedora) e Debian derivate (come Ubuntu).

Distribuzioni Red Hat derivate

Per installare lm_sensors su distribuzioni basate su Red Hat, come CentOS, Fedora o RHEL, è possibile utilizzare il gestore di pacchetti yum o dnf.

Distribuzioni Debian derivate

Per installare lm_sensors su distribuzioni basate su Debian, come Ubuntu e Debian stessa, è possibile utilizzare il gestore di pacchetti apt.

Funzioni di lm_sensors

  • Monitoraggio delle temperature: Fornisce letture accurate delle temperature di vari componenti come CPU, GPU e schede madri.
  • Verifica delle tensioni: Monitora le tensioni di alimentazione per assicurarsi che siano entro i limiti operativi sicuri.
  • Controllo delle ventole: Misura la velocità delle ventole per assicurarsi che stiano funzionando correttamente.
  • Configurazione delle soglie: Permette di impostare soglie di temperatura e tensione per attivare allarmi in caso di valori fuori norma.

Caso di studio: Analisi dell’immagine caricata

Nell’immagine caricata di seguito, vediamo un esempio di output del comando sensors su un sistema Linux. Questo sistema si era riavviato da solo due volte in una mattinata. Analizziamo i dati per identificare i problemi.

Output-lmsensor

Analisi dettagliata

  • Temperatura della CPU: Uno dei primi indicatori di problemi di surriscaldamento è la temperatura della CPU. Nell’immagine, vediamo che la temperatura della CPU (CPUIN) è estremamente alta, raggiungendo i 90.0°C. Questo valore supera di gran lunga la soglia di allarme impostata a 80.0°C. La soglia di allarme è un limite predefinito che, se superato, indica che la CPU sta operando a una temperatura pericolosamente alta. Superare questo limite non solo riduce le prestazioni del server ma può anche danneggiare permanentemente i componenti hardware. Un surriscaldamento così significativo suggerisce che il sistema di raffreddamento non sta funzionando correttamente.
  • Ventole (FAN): Un altro aspetto cruciale da considerare è il funzionamento delle ventole. Le ventole sono responsabili di mantenere una temperatura operativa sicura per la CPU e altri componenti dissipando il calore generato durante il funzionamento. Nell’output, notiamo che tutte le ventole (fan1, fan2, …, fan7) mostrano una velocità di 0 RPM. Questo è un chiaro segnale che le ventole non stanno funzionando. La mancata rotazione delle ventole significa che non c’è circolazione d’aria sufficiente per raffreddare i componenti interni del server, portando rapidamente al surriscaldamento.

Diagnosi

Il problema principale in questo caso è la rottura delle ventole, che ha portato al surriscaldamento della CPU. Con tutte le ventole inattive, il calore generato dalla CPU non viene dissipato efficacemente, causando un rapido aumento della temperatura fino a livelli critici. Questo ha attivato il meccanismo di spegnimento automatico del server per prevenire danni permanenti, portando ai riavvii improvvisi.

Soluzioni e raccomandazioni

  1. Sostituzione delle ventole: La soluzione immediata è sostituire le ventole guaste per ripristinare un adeguato flusso d’aria e raffreddamento.
  2. Controllo della pasta termica: Verificare lo stato della pasta termica e sostituirla se necessario per migliorare la dissipazione del calore.
  3. Monitoraggio continuo: Utilizzare strumenti come lm_sensors per monitorare costantemente le temperature e le velocità delle ventole, impostando allarmi per prevenire futuri problemi di surriscaldamento.
  4. Ispezione dell’alimentazione: Verificare le tensioni di alimentazione per assicurarsi che non ci siano problemi con l’alimentatore o la distribuzione dell’energia.

Conclusione

Le temperature estive possono mettere a dura prova i server, anche nei data center meglio equipaggiati. Problemi come la rottura delle ventole e la pasta termica esausta possono passare inosservati fino a quando il calore esterno non li porta alla luce, causando rallentamenti e riavvii improvvisi. Utilizzando strumenti come lm_sensors, è possibile monitorare in tempo reale le condizioni dei componenti hardware e intervenire prontamente per evitare danni e interruzioni del servizio. La manutenzione preventiva e il monitoraggio continuo sono essenziali per garantire che i server funzionino senza problemi anche nelle condizioni più estreme.

Hai dei dubbi? Non sai da dove iniziare? Contattaci !

Abbiamo tutte le risposte alle tue domande per aiutarti nella giusta scelta.

Chatta con noi

Chatta direttamente con il nostro supporto prevendita.

0256569681

Contattaci telefonicamente negli orari d’ufficio 9:30 – 19:30

Contattaci online

Apri una richiesta direttamente nell’area dei contatti.

INFORMAZIONI

Managed Server S.r.l. è un player italiano di riferimento nel fornire soluzioni avanzate di sistemistica GNU/Linux orientate all’alta performance. Con un modello di sottoscrizione dai costi contenuti e prevedibili, ci assicuriamo che i nostri clienti abbiano accesso a tecnologie avanzate nel campo dell’hosting, server dedicati e servizi cloud. Oltre a questo, offriamo consulenza sistemistica su sistemi Linux e manutenzione specializzata in DBMS, IT Security, Cloud e molto altro. Ci distinguiamo per l’expertise in hosting di primari CMS Open Source come WordPress, WooCommerce, Drupal, Prestashop, Joomla, OpenCart e Magento, affiancato da un servizio di supporto e consulenza di alto livello adatto per la Pubblica Amministrazione, PMI, ed aziende di qualsiasi dimensione.

Red Hat, Inc. detiene i diritti su Red Hat®, RHEL®, RedHat Linux®, e CentOS®; AlmaLinux™ è un marchio di AlmaLinux OS Foundation; Rocky Linux® è un marchio registrato di Rocky Linux Foundation; SUSE® è un marchio registrato di SUSE LLC; Canonical Ltd. detiene i diritti su Ubuntu®; Software in the Public Interest, Inc. detiene i diritti su Debian®; Linus Torvalds detiene i diritti su Linux®; FreeBSD® è un marchio registrato di The FreeBSD Foundation; NetBSD® è un marchio registrato di The NetBSD Foundation; OpenBSD® è un marchio registrato di Theo de Raadt. Oracle Corporation detiene i diritti su Oracle®, MySQL®, e MyRocks®; Percona® è un marchio registrato di Percona LLC; MariaDB® è un marchio registrato di MariaDB Corporation Ab; REDIS® è un marchio registrato di Redis Labs Ltd. F5 Networks, Inc. detiene i diritti su NGINX® e NGINX Plus®; Varnish® è un marchio registrato di Varnish Software AB. Adobe Inc. detiene i diritti su Magento®; PrestaShop® è un marchio registrato di PrestaShop SA; OpenCart® è un marchio registrato di OpenCart Limited. Automattic Inc. detiene i diritti su WordPress®, WooCommerce®, e JetPack®; Open Source Matters, Inc. detiene i diritti su Joomla®; Dries Buytaert detiene i diritti su Drupal®. Amazon Web Services, Inc. detiene i diritti su AWS®; Google LLC detiene i diritti su Google Cloud™ e Chrome™; Microsoft Corporation detiene i diritti su Microsoft®, Azure®, e Internet Explorer®; Mozilla Foundation detiene i diritti su Firefox®. Apache® è un marchio registrato di The Apache Software Foundation; PHP® è un marchio registrato del PHP Group. CloudFlare® è un marchio registrato di Cloudflare, Inc.; NETSCOUT® è un marchio registrato di NETSCOUT Systems Inc.; ElasticSearch®, LogStash®, e Kibana® sono marchi registrati di Elastic N.V. Hetzner Online GmbH detiene i diritti su Hetzner®; OVHcloud è un marchio registrato di OVH Groupe SAS; cPanel®, L.L.C. detiene i diritti su cPanel®; Plesk® è un marchio registrato di Plesk International GmbH; Facebook, Inc. detiene i diritti su Facebook®. Questo sito non è affiliato, sponsorizzato o altrimenti associato a nessuna delle entità sopra menzionate e non rappresenta nessuna di queste entità in alcun modo. Tutti i diritti sui marchi e sui nomi di prodotto menzionati sono di proprietà dei rispettivi detentori di copyright. Ogni altro marchio citato appartiene ai propri registranti. MANAGED SERVER® è un marchio registrato a livello europeo da MANAGED SERVER SRL, Via Enzo Ferrari, 9, 62012 Civitanova Marche (MC), Italia.

Torna in alto