Petit article présentant des astuces pour éviter les surchauffes des PC :

Sources de chaleur d’un ordinateur et risques.

Le processeur :

Dans la majorité des cas le processeur sera l’élément qui chauffera le plus dans l’ordinateur (de ~30°c à ~60°c suivant le type de processeur/ventilation). Il ne sera dépassé qu’en la présence d’une carte vidéo puissante telle qu’on en trouve dans les stations graphique ou les pc dit « gamer ».

Malgré sa position dominante dans l’échelle des températures il est aussi le mieux protégé face à la chaleur. En effet, les processeurs actuels sont équipés de protections et d’optimisations de plus en plus nombreuses, visant à empêcher toute panne (ce qui peut aller jusqu’à l’arrêt du processeur pour le préserver de la destruction).Ces fonctions lui permettent de faire varier sa fréquence et son voltage de concert afin de limiter la température et la consommation. Certain de ces paramètres peuvent être modifiés dans le bios.

D’un point de vu mécanique, il dispose d’un emplacement privilégié au sein du boitier, dans l’axe de la ventilation du boitier en général. Dans ce courant d’air le radiateur, constitué d’un dissipateur et d’un ventilateur, permet au processeur de rester dans une plage de température idéale (au repos et en charge). Le radiateur devra donc être dimensionné en fonction de la chaleur dégagé par le processeur (exprimé en watt, cette valeur peut atteindre plus de 130w). Comme on peut le voir, le processeur est une place forte de la lutte contre à la consommation et la chaleur. Peut de risque de ce coté si vous respecter bien les recommandations d’usage qui sont délivrer à la fin de ce cour.

Dans le cas inverse, si les protections échoue, le processeur « brulera » et entrainera un arrêt du service en cour.

La carte mère :

La carte mère dispose également d’éléments qui peuvent chauffer. Ils sont de 1 à 2 et sont plus communément appelés « chipsets » ou littéralement « assortiment de puces » pour designer le « northbridge », qui est la puce gérant la communication avec le c.p.u. la mémoire et certains ports pci express et le « nothbridge », cette seconde puce gère les ports ide, sata, usb et autres ports de communications. Bien entendue ces 2 puces communiquent entre elles afin de tous coordonner.

Pour résumer, si le cpu était la tête, le chipset serait les jambes. Comme le processeur, ces composants disposent eux aussi de fonctions leur permettant de surveiller leur comportement, elles sont cependant moins avancé celle du processeur mais permette de conserver un haut niveau de fiabilité. La plupart des chipsets sont muni d’un simple radiateur.
Ce composant est à faible risque, on pourra cependant surveiller sa température avec un logiciel adapté en cas de soupçons de surchauffe.

La carte vidéo :

Dans la majorité des cas (station/serveur) les cartes vidéo ne pose pas de problème, elles sont souvent intégré et peux puissante. Cependant dans le cas d’un ordinateur nécessitant de la puissance graphique on peut faire appel à une ou plusieurs cartes dédiées. La température de ces cartes peut être très élevée, sur certaine carte la température limite avant arrêt dépasse les 120°c. La forte quantité de chaleur à absorber sur une petite surface de circuit imprimé oblige les fabriquant à concevoir des systèmes de refroidissement ultra performant avec une ventilation thermo régulé, ce qui veux dire que plus la carte chauffera, plus elle ventilera et plus elle fera du bruit (certaine carte par le passé on atteint les 60db, bruit d’une conversation…en continue).

De ce fait, il faut toujours vérifier la température de ce type d’équipement lors de leur mise en route afin de détecter une éventuelle défaillance. Une nouveau type d’ordinateur pourrait aussi compliquer la tache, c’est le « gpucomputing », des serveurs embarquent des cartes uniquement dédiées aux calculs (en fait, des carte vidéo dépourvue de sortie vidéo dont on exploite la puissance de calcul), elles peuvent être jusqu’à 8 dans les plus grosses configurations, consommant une quantité d’énergie et dégagent une chaleur non négligeable. L’efficacité du refroidissement dans ce type de configuration est primordiale et bénéficie d’une administration et d’un monitoring poussé.

Les GPU disposent de protections intégrées, mais une chauffe élevé en dessous du seuil critique endommage les composant à proximité du g.p.u., diminuant la durée de vie de la carte.

Le disque dur :

Le disque dur est un point critique, il est primordial car il est le garant de la disponibilité des données (la pérennité des données étant assurée par une sauvegarde en lieux sur). Les systèmes raid permette cette disponibilité, mais un trop grand nombre de défaillance disque dans un ordinateur ou une baie devra vous mettre la puce à l’oreille, le problème ne provient pas forcément du contrôleur de disque mais peut être un problème lié à un environnement trop chaud.

Le sujet divise, les fabriquant de disque indiquant dans leurs spécifications une diminution de la durée de vie dans un environnement chaud, Google se permet de dire le contraire suite à une étude parue en 2007 et ceux sur la base de nombreux disque venant de nombreux constructeur, que la température n’avait qu’une influence réduite. C’est vrai quand le disque est dans un environnement ventiler ou l’on s’efforcera de le conserver sous les 40°c, seuil à partir duquel la durée de vie descend. Pour la limite basse, cette étude montre un phénomène surprenant. Quand la température est trop basse, en dessous de 25°c, les pannes augmentent plus rapidement que lorsque le disque chauffe.

Surveillance des températures

La surveillance des températures est étroitement liée au matériel et à la gestion de l’énergie dont il dispose. De nombreux équipement sont équipés de sondes, quelques fois même intégré à la puce, qui lui permette de connaitre la consommation électrique, la charge ou la température et permette de réguler tous ces paramètres.

Les solutions proposées :

Sur la carte mère et le processeur :

La carte mère dispose de l’A.C.P.I. (Advanced Configuration and Power Interface) qui permet d’éteindre les périphériques inactifs et même de désactiver tout ou une partie du processeur en cas d’inactivité. On peut observer certain de ces paramètres dans le bios de l’ordinateur. Le bios sera le premier outil de monitoring de la température, attention cependant aux valeurs indiquées, elles peuvent ne pas toujours refléter la réalité. Un bios bogué pourra très bien fournir une température supérieur ou inferieur à la réalité allant jusqu’à afficher des températures négatives ou trop chaude pour être vraie.

Dans ce cas, référé vous à un outil de diagnostique qui relèvera les informations avec précision au coeur même des composant. Le logiciel « Hardware Monitor » en est le parfait exemple et fourni des informations précieuse sur les températures, voltage et vitesse de ventilateur. Le processeur étant étroitement lié à la carte mère, il marche de concert avec celle-ci et peut embarquer des technologies lui permettant de faire baisser son voltage et/ou sa fréquence. Bien entendue, la carte mère devra supporter toutes ces fonctionnalités pour en tirer pleinement profit.

Sur la carte graphique :

La aussi « Hardware Monitor » pourra vous indiquer les informations renvoyé par la carte, sachez cependant qu’elles sont en général disponible dans le panneau de configuration du pilote de carte vidéo.

Sur le disque dur :

Les disques durs disposent d’une technologie permettant la détection préventive des erreurs disque appelé S.M.A.R.T. (Self-Monitoring, Analysis, and Reporting Technology), elle fut introduite par IBM en 1992. Ce dispositif permet théoriquement de prévenir 30% des pannes. L’un des gardes fous de « S.M.A.R.T. » est la surveillance de la température, celle-ci peut être relevé avec différents logiciel, dont vous l’aurez deviné : « Hardware Monitor ». Les logiciel des constructeurs de disques iront plus loin dans l’analyse de S.M.A.R.T. et pourront vous préciser le type d’erreurs détectées, mais c’est une autre sujet. Je le rappel, la fourchette de température idéale d’un disque (selon l’analyse de Google de 2007) est entre 25 et 40°c.

Les logiciels

J’ai beaucoup parlé d’ « Hardware Monitor », bien utile en outils d’appoint, mais il se retrouve vite limité de par son manque d’administration (bien qu’une version « pro » permette de faire des logs). De nombreux logiciel proposent la télésurveillance de votre installation, avec possibilité d’ajouter des sondes à toutes es étapes du refroidissement de l’infrastructure, ces solutions sont souvent couteuse et devront être analysées avec précision afin de définir leur rentabilité par rapport à votre usage. Voici quelques exemples de produits dédié au monitoring d’infrastructure, ces logiciels permette de surveiller à peut prêt n’importe quel paramètres des équipements et de l’environnement.

http://www.serverscheck.com

http://www.temperatureguard.com/

http://www.ravica.com/

Causes et solutions

Les causes d’une surchauffe peuvent être de 3 natures.

– Les causes logiciels

– Les causes environnementales

– Les causes matérielles

Discernons ces différents facteurs afin de déterminer leur mode d’influence. Grâce aux différents moyens de contrôle mis en oeuvre, vous avez détecté une surchauffe ou une température anormale. Reste alors à déterminer la cause de ce problème.

Les causes logicielles

La première chose à faire est de vérifier le bon fonctionnement coté logiciel. Vérifier qu’aucun processus ne consomme excessivement les ressources C.P.U. Si une ressource parait suspecte et dans la mesure du possible (serveur en production), tenter de désactiver le processus en question et surveiller la réaction du matériel afin de voir s’il est en cause. Un logiciel tel que « Process Explorer » permettra un diagnostique approfondie des opérations en cours ainsi que leurs dépendances.

Les causes environnementales

Assurez vous que rien ne gêne la circulation de l’air autour du boitier, particulièrement devant et derrière celui-ci. Si l’ordinateur est dans un espace confiné, veuillez ventiler la pièce convenablement, les installations coté serveur devront être climatisé.

La présence de poussière dans l’atmosphère est une des premières causes de surchauffe, elle finit par s’accumuler sur les ventilateurs et dans les radiateurs. Suivant le type d’installation, le filtrage s’effectue de différentes façons.

Coté serveur, le filtrage sera généralement effectué en amont des systèmes de climatisation. Coté station le problème est plus délicat car la plupart des fabricants ne prennent que très peut en compte ce paramètre, pour prévenir l’encrassement par la poussière vous pouvez utiliser des postes de travail équipé de filtre à poussière au niveau de leurs entrée d’air. Vous pouvez aussi en rajouter, il existe des porte filtres à fixer par-dessus les grilles d’aération, ils sont indispensable aux ordinateurs situé dans des zones ouvertes (atelier ou autre). Bien entendue il faudra définir un cycle de renouvèlement des filtres.

Les causes matérielles

Que ce soit le processeur, la carte vidéo ou le chipset la surchauffe peut être liée à une dégradation de la patte thermique. Cette pate sers d’interface de transfert de chaleur entre la puce et le radiateur, composé généralement de graisse silicone, elle finit par se dégrader avec le temps et la chaleur. Afin de revenir à la normal, le radiateur devra être déposé pour remplacer la patte thermique. Différentes marques de pate existe avec des caractéristique variables, les plus basique sont celle au silicone, puis vienne celle à base d’argent (le meilleur conducteur thermique métallique) et même certaine avec de la poussière de diamant.

Toutes les pates thermiques haut de gamme sont plutôt destinées aux particuliers ou aux applications spécifiques, de plus la durée de vie de certaine sont courte, perdant ainsi l’avantage de leur conductivité thermique supérieur. Deux références à retenir, la « KF 1201 » (patte silicone classique) et la « Artic MX-2 » (à base d’argent et disposant d’une durée de vie maximum de 8 ans). La pate thermique devra être appliquée avec précision et uniformité à la surface de la puce, l’épaisseur de patte doit être fine (la plus fine et régulière possible), dans le cas contraire, une couche trop épaisse de pate réduirais l’efficacité du radiateur en créant un pont thermique, tandis qu’une couche non régulière risque de laisser des bulles entre le processeur et le radiateur dégradant grandement les performances.

Une autre cause peut être le mauvais positionnement du radiateur sur la puce, veuillez à ce que celui-ci ne soit pas gêné par des composant proches et ne force pas sur lui. Vérifiez son positionnement ainsi que sa fixation (et resserrage peut suffire). Une des dernière cause peut être un mauvais dimensionnement du radiateur, celui-ci pourra avantageusement être remplacé par un modèle plus performant, tant au niveau thermique qu’acoustique. Le nombre de fabriquant est pléthorique et vous aurez l’embarra du choix pour trouver un radiateur de remplacement.

Quelques conseille avant d’acheter :

– Vérifier le système de fixation, la plupart des radiateurs nécessite la dépose de la carte mère ou doivent avoir un boitier avec accès arrière à la carte mère. Quelques modèles disposent du système « push pin » que l’on retrouve sur les radiateurs d’origine Intel.
– Privilégié l’utilisation du cuivre plutôt que l’aluminium, celui-ci est un meilleur caloporteur.
– Les radiateurs disposant de « Heat-pipe » sont en générale plus performant, ils seront à privilégié, vous devrez cependant comparer les performances afin de trouver le modèle le plus adapté (prix, poids, taille, performance…).

Le dernier point à surveiller est lié aux paramètres bios, certain d’entre eux permettent la configuration de la vitesse du ventilateur en fonction de la température.

Cette option peut porter différent nom, dans notre exemple c’est la fonction « CPU Smart Fan control ». Si le CPU surchauffe, vous pouvez désactiver cette fonction (disable) pour forcer le fonctionnement à 100% du ventilateur et vérifier si le problème vient de cette fonction.

D’autres paramètre sont associé à cette fonction quand elle est activé (enable), dans l’exemple elle se nomme « CPU Smart Fan mode » et propose trois réglages :

– Auto : La carte mère choisie l’option la plus approprié

– Voltage : La variation de vitesse du ventilateur s’effectue par variation du voltage. Nécessite un ventilateur 3 ou 4 broches.

– P.W.M. (Pulse Width Modulation ou Signal Modulé en Fréquence), la variation de vitesse s’effectue par modulation de fréquence. Nécessite un ventilateur 4 broches.

Si la température est correcte en marche forcé à 100% mais pas avec la variation de vitesse, vérifier que la pâte thermique soit en bon état.