Ho bisogno di una GPU per una diffusione stabile? Guida per PC, benchmark di diffusione stabile: quale GPU esegue AI più veloce (aggiornato) | Hardware di Tom
Benchmarking di diffusione stabile: quale GPU esegue AI più veloce (aggiornato)
Contents
In un momento arriveremo ad altri numeri teorici di performance computazionali, ma considereremo di nuovo il RTX 2080 Ti e RTX 3070 Ti come esempio. I core tensori TI 2080 non supportano la scarsità e hanno fino a 108 tflops di FP16 Calco. . Il fatto che il 2080 ti batte il 3070 ti indica chiaramente la scarsità non è un fattore. .
?
? Sei arrivato nel posto giusto.
La diffusione stabile è senza dubbio uno strumento di generazione di arte AI veloce e intuitivo come Dall-E e Midjourney. . Tuttavia, se si desidera utilizzarlo sul tuo PC, assicurati che i requisiti siano soddisfatti, soprattutto quando si tratta di schede grafiche. A proposito, parleremo se la diffusione stabile può funzionare senza una GPU o se avrai comunque bisogno di una scheda grafica per funzionare correttamente.
. Sono essenziali per creare arte generata dall’intelligenza artificiale a un livello più commerciale o professionale.
Affare esclusivo 10.000 crediti bonus gratuito
Contenuti di intelligenza artificiale su marchio ovunque crei. Oltre 100.000 clienti che creano contenuti reali con Jasper. Uno strumento AI, tutti i migliori modelli.
Sperimenta la piena potenza di un generatore di contenuti AI che offre risultati premium in pochi secondi. . .
Solo $ 0.00015 per parola!
WINSTON AI Detector
Winston AI: il rivelatore AI più affidabile. Winston AI è lo strumento di rilevamento dei contenuti AI leader del settore per aiutare a controllare i contenuti AI generati con Chatgpt, GPT-4, Bard, Bing Chat, Claude e molti altri LLM. Per saperne di più
Solo $ 0.01 per 100 parole
Detector AI di originalità
Originalità.L’intelligenza artificiale è il rilevamento dell’IA più accurato.. Estensione Chrome utile. Rileva tra e -mail, documenti di Google e siti Web. Per saperne di più
*I prezzi sono soggetti a modifiche. . Quando acquisti tramite link sul nostro sito, potremmo guadagnare una commissione di affiliazione. Saperne di più
Quindi hai bisogno di una scheda grafica dalla diffusione stabile per funzionare? ? Scopriamolo.
?
Sì, affinché la diffusione stabile funzioni senza intoppi senza problemi, è necessario disporre di una GPU sul tuo PC. . Inoltre, assicurati di avere 16 GB di RAM PC nel sistema PC per evitare qualsiasi instabilità.
. Dire che la diffusione stabile funziona al meglio su una scheda grafica non sarebbe sbagliato. Per quanto riguarda la GPU da utilizzare, suggeriamo i modelli NVIDIA RTX 4080 e 4090 con VRAM da 16 o 24 GB per i migliori risultati. Questi sono pezzi di kit davvero potenti che ti garantiranno un servizio rapido.
?
Sì, puoi eseguire una diffusione stabile anche su GPU AMD, a parte i modelli della serie Nvidia. . Inoltre, per i migliori risultati, assicurati di avere altri 8 GB per evitare eventuali inconvenienti.
?
Sì, la diffusione stabile supporta i libri di Apple Mac. . Qualsiasi modello prima non è per i migliori risultati. Anche un modello M1 e M2 più vecchio andrà bene se soddisfa i requisiti.
Conclusione
Avere una GPU è un requisito obbligatorio nel mondo tecnologico di oggi. Prova ad avere il modello più recente e più veloce per GPU o altri supporti grafici. . Anche se ci sono alcuni modi per eseguirlo senza GPU, non sono così affidabili come possono sembrare. Quindi, assicurati di avere una buona scheda grafica prima di eseguire la diffusione stabile per i migliori risultati.
. Migliorano i giochi e le esperienze creative dieci volte. Se hai bisogno di idee su quale andare, dai un’occhiata alle nostre migliori schede grafiche qui.
. La maggior parte di questi strumenti si basa su server complessi con un sacco di hardware per la formazione, ma l’uso della rete addestrata tramite inferenza può essere eseguita sul tuo PC, utilizzando la sua scheda grafica. ?
Abbiamo confrontato la diffusione stabile, un popolare creatore di immagini di intelligenza artificiale, sull’ultimo Nvidia, AMD e persino Intel GPU per vedere come si accumulano. Se per caso hai provato a ottenere una diffusione stabile attivo e in esecuzione sul tuo PC, potresti avere un po ‘di inkling di quanto complessa o semplice! . Il breve riassunto è che le GPU di Nvidia governano il posatoio, con la maggior parte del software progettato utilizzando CUDA e altri set di strumenti Nvidia. Ma ciò non significa che non puoi ottenere una diffusione stabile in esecuzione sugli altri GPU.
Abbiamo finito per utilizzare tre diversi progetti di diffusione stabili per i nostri test, soprattutto perché nessun singolo pacchetto ha funzionato su ogni GPU. . .. carente. Ottenere le GPU dell’arco di Intel è stato un po ‘più difficile, a causa della mancanza di supporto, ma la diffusione stabile Openvino ci ha dato un po’ molto funzionalità di base.
Le dichiarazioni di non responsabilità sono in ordine. Non abbiamo codificato nessuno di questi strumenti, ma abbiamo cercato cose facili da eseguire (sotto Windows) che sembravano anche ragionevolmente ottimizzate. Siamo relativamente fiduciosi che i test della serie 30 NVIDIA facciano un buon lavoro di estrazione vicino a prestazioni ottimali, in particolare quando Xformer è abilitato, il che fornisce un ulteriore aumento del 20% delle prestazioni (sebbene a una precisione ridotta che può influire sulla qualità). I risultati della serie 40 di RTX nel frattempo erano inizialmente più bassi, ma George Sv8Arj ha fornito questa soluzione, dove la sostituzione dei Pytorch Cuda Dlls ha dato una buona spinta alle prestazioni.
I risultati AMD sono anche un po ‘un miscuglio: le GPU RDNA 3 funzionano molto bene mentre le GPU RDNA 2 sembrano piuttosto mediocre. Cenno.Ai facci sapere che stanno ancora lavorando su modelli “sintonizzati” per RDNA 2, il che dovrebbe aumentare le prestazioni un po ‘(potenzialmente doppia) una volta che sono disponibili. Infine, sulle GPU Intel, anche se la performance finale sembra allinearsi decentemente con le opzioni AMD, in pratica il tempo di rendere il rendering è sostanzialmente più lungo – ci vogliono 5-10 secondi prima che l’attività di generazione effettiva inizi, e probabilmente un sacco di molte cose Sta succedendo cose extra di sfondo che le rallenta.
Stiamo anche utilizzando diversi modelli di diffusione stabili, a causa della scelta dei progetti software. Cenno.La versione dello squalo di AI utilizza SD2..4 (anche se è possibile abilitare SD2.1 su automatico 1111). Ancora una volta, se hai una certa conoscenza interna della diffusione stabile e vuoi raccomandare diversi progetti open source che potrebbero funzionare meglio di quello che abbiamo usato, facelo sapere nei commenti (o semplicemente e -mail Jarred).
. La galleria di cui sopra è stata generata utilizzando WebUI di Automatic 1111 su GPU NVIDIA, con output a risoluzione più elevata (che richiedono molto, più a lungo da completare). Sono gli stessi suggerimenti ma mira a 2048×1152 anziché 512×512 che abbiamo usato per i nostri parametri di riferimento. Si noti che le impostazioni che abbiamo scelto sono state selezionate per lavorare su tutti e tre i progetti SD; Alcune opzioni che possono migliorare il throughput sono disponibili solo sulla build automatica 1111, ma ne parleremo più avanti. Ecco le impostazioni pertinenti:
CITTÀ POSTAPOPOPOCALYPTICO STEAMPUNK, ESPLORAZIONE, CIMATICO, REALISTICO, HYPERETTUITO, DETTAGLIO IMMESSI POTOREAListico, Luce volumetrica, ((focus))), angolo largo, (((luminosamente illuminato)), (((vegetazione)), lampo, lampo , viti, distruzione, devastazione, wartorn, rovine
Prompt negativo:
(((Blurry))), ((Foggy)), (((Dark))), ((Monochrome)), Sun, (((Profondità del campo)))
100
15.0
Algoritmo di campionamento:
Qualche variante Euler (ancestrale su 1111 automatico, eulero di squalo discreto su AMD)
. Automatic 1111 offre la maggior parte delle opzioni, mentre la build Intel Openvino non ti dà alcuna scelta.
Ecco i risultati dei nostri test delle GPU Serie AMD RX 7000/6000, NVIDIA RTX 40/30. .
Come previsto, le GPU di Nvidia offrono prestazioni superiori – a volte con margini enormi – rispetto a qualsiasi cosa di AMD o Intel. Con la correzione DLL per torcia in posizione, RTX 4090 offre il 50% in più di prestazioni rispetto alla RTX 3090 TI con XFormers e al 43% migliori prestazioni senza XFormer. .
Le cose cadono in modo abbastanza coerente dalle migliori carte per le GPU NVIDIA, dal 3090 al 3050. Nel frattempo, RX 7900 XTX di AMD lega RTX 3090 Ti (dopo il test aggiuntivo) mentre RX 7900 XT lega RTX 3080 TI. Le carte 7900 sembrano abbastanza buone, mentre ogni carta Serie 30 RTX finisce per battere le parti della serie 6000 RX di AMD (per ora). Infine, le GPU ARC Intel arrivano quasi per ultimo, con solo l’A770 che riesce a superare l’RX 6600. Parliamo un po ‘di più delle discrepanze.
Le ottimizzazioni adeguate potrebbero raddoppiare le prestazioni sulle schede della serie 6000 RX. Cenno.Ai dice che avrebbe dovuto sintonizzare i modelli per RDNA 2 nei prossimi giorni, a quel punto la posizione complessiva dovrebbe iniziare a correlare meglio con le prestazioni teoriche. Parlando di cenno del cenno.AI, abbiamo anche fatto alcuni test di alcune GPU NVIDIA usando quel progetto e con i modelli Vulkan le carte Nvidia erano sostanzialmente più lente rispetto alla build automatica 1111 (15.52 IT/S sul 4090, 13.31 sul 4080, 11.41 sul 3090 ti e 10.76 sul 3090 – Non potevamo testare le altre carte in quanto devono essere abilitate per prime).
Sulla base delle prestazioni delle 7900 carte che utilizzano i modelli sintonizzati, siamo anche curiosi delle carte Nvidia e di quanto sono in grado di beneficiare dei loro core tensori. Sulla carta, il 4090 ha oltre cinque volte le prestazioni di RX 7900 XTX – e 2.7 volte la performance anche se scontamo la scarsità. In pratica, il 4090 in questo momento è solo circa il 50% più veloce dell’XTX con le versioni che abbiamo usato (e questo scende al 13% se omettiamo il risultato di Xformer di precisione inferiore). Quella stessa logica si applica anche alle carte ARC di Intel.
. Sospettiamo l’attuale progetto di diffusione stabile di diffusione che abbiamo usato lascia anche molto spazio per il miglioramento. Per inciso, se si desidera provare a eseguire SD su una GPU ARC, nota che è necessario modificare ‘STABLE_DIFFUSION_Engine.Py ‘File e modificano “CPU” in “GPU” – altrimenti non userà le schede grafiche per i calcoli e richiede sostanzialmente più tempo.
Nel complesso, quindi, utilizzando le versioni specificate, le schede di serie 40 RTX di Nvidia sono la scelta più veloce, seguita dalle schede 7900, quindi le GPU della serie 30 RTX. Le serie 6000 Rx sottoperformanti e le GPU dell’arco sembrano generalmente scarse. .
. La RX 5600 XT non è riuscita, quindi abbiamo interrotto con i test alla RX 5700 e la GTX 1660 Super era abbastanza lenta da non aver bisogno di fare ulteriori test delle parti di livello inferiore. .
Innanzitutto, la RTX 2080 TI termina per superare la RTX 3070 TI. Normalmente non accade, e nei giochi anche la vaniglia 3070 tende a battere l’ex campione. Ancora più importante, questi numeri suggeriscono che le ottimizzazioni di “scarsità” di Nvidia nell’architettura Ampere non vengono affatto usate – o forse semplicemente non sono applicabili.
In un momento arriveremo ad altri numeri teorici di performance computazionali, ma considereremo di nuovo il RTX 2080 Ti e RTX 3070 Ti come esempio. I core tensori TI 2080 non supportano la scarsità e hanno fino a 108 tflops di FP16 Calco. La RTX 3070 TI supporta la scarsità con 174 tflops di FP16 o 87 TFLOPS FP16 senza scarsità. Il fatto che il 2080 ti batte il 3070 ti indica chiaramente la scarsità non è un fattore. La stessa logica si applica ad altri confronti come 2060 e 3050 o 2070 Super e 3060 TI.
Per quanto riguarda le carte RDNA di AMD, RX 5700 XT e 5700, c’è un ampio divario nelle prestazioni. . Sulla carta, la scheda XT dovrebbe essere fino al 22% più veloce. . Ad ogni modo, nessuno dei due GPU NAVI 10 più vecchi è particolarmente performanto nei nostri benchmark di diffusione stabile iniziale.
. . Ma nei nostri test, la GTX 1660 Super è solo circa 1/10 la velocità di RTX 2060.
Ancora una volta, non è chiaro esattamente quanto sia ottimizzato uno di questi progetti. Non è inoltre chiaro se questi progetti stanno sfruttando pienamente cose come i core tensori di Nvidia o i core XMX di Intel. . . .
Quei nuclei di tensore su Nvidia fanno chiaramente un pugno (le barre grigie/nere sono senza scarsità), e ovviamente i nostri test di diffusione stabile non si abbinano esattamente a queste figure – nemmeno vicino. Ad esempio, sulla carta l’RTX 4090 (usando FP16) è fino al 106% più veloce della RTX 3090 Ti, mentre nei nostri test era più veloce del 43% senza XFormer e il 50% più veloce con XFormers. .
Nel frattempo, guarda le GPU dell’arco. . In pratica, le GPU dell’arco non sono affatto vicino a quei voti. . Quindi sono tutti circa un quarto delle prestazioni previste, il che avrebbe senso se i core XMX non fossero utilizzati.
Tuttavia, i rapporti interni sull’arco si guardano a destra. Le prestazioni di calcolo teoriche sull’A380 sono circa un quarto dell’A750, ed è lì che atterra in termini di prestazioni di diffusione stabile in questo momento. Molto probabilmente, le GPU ARC utilizzano gli shader per i calcoli, in modalità FP32 Full Precision e perdendo alcune ottimizzazioni aggiuntive.
L’altra cosa da notare è che il calcolo teorico su RX 7900 XTX/XT di AMD è migliorato molto rispetto alla serie 6000 RX. Dovremo vedere se i modelli di serie 6000 sintonizzati chiudono le lacune, come NOD.AI ha detto che si aspetta un miglioramento 2x delle prestazioni su RDNA 2. La larghezza di banda della memoria non era un fattore critico, almeno per la risoluzione target 512×512 che abbiamo usato: i modelli 3080 10 GB e 12 GB atterrano relativamente vicini insieme.
Ecco uno sguardo diverso alle prestazioni teoriche FP16, questa volta si concentra solo su ciò che le GPU possono fare tramite calcoli shader. Le architetture AMPERE e ADA di NVIDIA eseguono FP16 alla stessa velocità di FP32, poiché l’assunzione è che FP16 può essere codificato per utilizzare i core tensori. .
Chiaramente, questo secondo sguardo al calcolo FP16 non corrisponde alle nostre prestazioni effettive meglio del grafico con core tensore e matrice, ma forse c’è un’ulteriore complessità nell’impostazione dei calcoli della matrice e quindi le prestazioni complete richiedono. qualcosa in più. Il che ci porta a un ultimo grafico.
Questo grafico finale mostra i risultati dei nostri test ad alta risoluzione. Non abbiamo testato le nuove GPU AMD, poiché abbiamo dovuto usare Linux sulle schede Serie 6000 AMD, e apparentemente la serie RX 7000 ha bisogno di un nuovo kernel Linux e non siamo riusciti a farlo funzionare. .
. . Il 4070 ti è stato interessante più lento del 22% rispetto ai 3090 ti senza XFORMERS, ma il 20% più veloce con XFormers.
Sembra che la risoluzione target più complessa di 2048×1152 inizi a trarre miglior vantaggio dalle potenziali risorse di calcolo, e forse i tempi di corsa più lunghi significano che i nuclei tensori possono flettere completamente il proprio muscolo.
Alla fine, questa è nella migliore delle ipotesi un’istantanea al tempo di prestazioni di diffusione stabile. Stiamo assistendo a frequenti aggiornamenti di progetti, supporto per diverse biblioteche di formazione e altro ancora. Vedremo di rivisitare questo argomento di più nel prossimo anno, si spera con un codice migliore ottimizzato per tutte le varie GPU.
Resta all’avanguardia
Unisciti agli esperti che hanno letto Hardware di Tom per la pista interna su Hentusiast PC Tech News – e hanno da oltre 25 anni. .
Inviando le tue informazioni, l’utente accetta i termini e le condizioni e l’informativa sulla privacy e hai 16 anni o più.
. Lavora come giornalista tecnologico dal 2004, scrivendo per AnandTech, Maximum PC e PC Gamer. Dal primo S3 Virge “deceleratori 3D” alle GPU di oggi, Jarred tiene il passo con tutte le ultime tendenze grafiche ed è quello a chiedere delle prestazioni del gioco.