La nova utilitat pot duplicar el rendiment AMD Threadripper 2990WX

Funció Threadripper de 2a generació

La CPU 2990WX Threadripper de 32 nuclis d’AMD sempre ha estat una proposta una mica incerta. Tot i que és innegablement ràpid en certs escenaris, el xip ha marcat regressions de rendiment en altres proves i no sempre supera el Threadripper 2950X de 16 nuclis. Ara hi ha una utilitat, CorePrio, que es pot utilitzar per restaurar gran part del rendiment que falta del 2990WX a Windows 10.

Quan el 2990WX enviat, l’explicació del seu rendiment ocasional es centra en el sistema d’accés a la memòria i la configuració del controlador. La idea era que el fet de tenir 32 nuclis de CPU connectats a la memòria a través de només quatre canals de memòria causava congestió intrínseca d’amplada de banda, fent que alguns nuclis poguessin accedir a la memòria. Però també hi ha hagut signes de problemes de planificació: des de fa uns mesos se sap que el 2990WX funciona millor amb Linux que quan s’executa Windows, i això és un signe definitiu d’un problema subjacent del sistema operatiu enfront d’un problema de maquinari.



Accés a la memòria 2990WX

Accés a memòria al 2990WX.



Level1Techs ha publicat un ampli informe sobre la seva investigació del rendiment del 2990WX. La suposició inicial que la congestió de l’amplada de banda de memòria és responsable d’un menor rendiment global, tot i que no és erroni en tots els casos, s’ha demostrat incompleta. Level1 va trobar que les mateixes regressions de rendiment eren presents en un Epyc 7551 que van provar, que tenia vuit canals de memòria en lloc dels quatre de Threadripper. Una vegada més, el rendiment a Linux va ser bo, però el rendiment a Windows es va veure afectat. Però Level1 també va trobar un comportament estrany associat amb el canvi de afinitats de la CPU del Windows i com això va afectar les proves de rendiment generals.

Perfeccionament

Dades i gràfics per nivell 1.



El que la seva investigació va revelar en última instància, és el problema de com determinades aplicacions mouen càrregues de treball entre nuclis en CPU compatibles amb NUMA amb més d'un node NUMA. Level1 escriu: 'Quan només es recomana un node NUMA mitjançant la' CPU ideal ', el nucli de Windows sembla passar la meitat del temps de CPU disponible només barrejant fils entre nuclis'.

Continuen:

Aquí hi ha un gir interessant: si només teniu un node NUMA ALTRES: Windows sembla que no permetrà que els fils s’estableixin al segon node NUMA ... Probablement això estigui relacionat amb una correcció d’errors de Microsoft per a 1 o 2 sòcols Extreme Core Count (XCC) Xeons en què una CPU Xeon física té dos nodes numa. Antigament (amb Xeon V4 i potser V3), un d’aquests nodes NUMA no tenia accés als dispositius d’E / S (però sí a la memòria a través del bus de timbre).



Si això és cert, aquesta solució per assegurar-se que aquest tipus de procés es manté a la 'CPU ideal' del mateix sòcol no té idea de què fer quan hi ha més d'un altre node NUMA al mateix paquet per 'fallar' ”A.

La solució a això és una utilitat anomenada CorePrio:

coreprio_ui

CorePrio soluciona aquest problema i permet programar fils de manera uniforme a través de les CPU en lloc de que Windows passi tot el temps intentant barrejar-los a través de la matriu. Sembla que el motiu de les fortes regressions de rendiment amb el 2990WX es va produir almenys en part perquè Windows va passar molt més temps movent càrregues de treball de CPU a CPU del que mai va passar realment executant treballs. Viouslybviament, això no augmentarà el rendiment de Threadripper en aplicacions on ja es va escalar bé, però hauria de corregir les regressions de rendiment en diverses aplicacions.

No està clar si el subsistema de memòria encara està implicat en això. Si s’assignen malament els fils al node NUMA incorrecte, és possible que els accessos a la memòria s’executin majoritàriament o totalment a través d’un únic controlador de memòria. Això explicaria per què un Epyc de vuit canals en mode NUMA proporciona el mateix rendiment (amb una velocitat de rellotge) que un TR de quatre canals. I és possible que hi hagi aplicacions que no s’escalin bé a la configuració NUMA del 2990WX per motius no relacionats amb cap deficiència del programador de Windows 10.

L'abast complet de l'error i les seves possibles correccions encara no s'han concretat completament, si el 'problema de perfecció de Windows desconegut' no era una pista anterior. Microsoft i AMD encara no han emès respostes formals i no està clar quina és la cronologia per solucionar aquest problema mitjançant l’actualització del sistema operatiu. Però si sou propietari de 2990WX o esteu interessat a convertir-vos-en, això podria canviar el càlcul sobre si val la pena invertir el xip, sempre que, òbviament, sigueu un tipus de client molt particular. Els jugadors mitjans i, fins i tot, no tan mitjans no s’han d’aplicar, ja que per començar els xips com el 2990WX es juguen en un espai molt rar.

Copyright © Tots Els Drets Reservats | 2007es.com