Trenger jeg en GPU for stabil diffusjon? PC Guide, Stable Diffusion Benchmarked: Hvilken GPU kjører AI raskest (oppdatert) | Toms maskinvare

Vi kommer til noen andre teoretiske beregningsytelsesnumre om et øyeblikk, men vurderer igjen RTX 2080 TI og RTX 3070 TI som et eksempel. . RTX 3070 TI støtter sparsitet med 174 TFLOPS av FP16, eller 87 TFLOPS FP16 uten sparsitet. At 2080 Ti slår 3070 TI, indikerer tydelig at sparsitet ikke er en faktor. .

Trenger jeg en GPU for stabil diffusjon?

Lurer du på om du trenger en GPU for stabil diffusjon? Du har kommet til rett sted.

Stabil diffusjon er utvilsomt et raskt og intuitivt AI-kunstgenererende verktøy som Dall-E og Midjourney. Resultatene er imponerende, så det har millioner av brukere akkurat nå. Imidlertid, hvis du vil bruke den på PC -en, må du sørge for at kravene er oppfylt, spesielt når det gjelder grafikkort. .

GPUer, eller grafikkort, er små teknologiske stykker som seriøst vil oppgradere all spill eller kreativ profesjonell opplevelse. .

Viktige AI -verktøy

AI-innhold på merket uansett hvor du oppretter. 100 000+ kunder som lager ekte innhold med Jasper. .

Opplev full kraften til en AI -innholdsgenerator som leverer premium resulterer i sekunder. 8 millioner brukere liker å skrive blogger 10 ganger raskere, og skaper uanstrengt å lage høyere konvertering av innlegg i sosiale medier eller skrive mer engasjerende e -postmeldinger. Registrer deg for en gratis prøveperiode. Les mer

Bare $ 0.00015 per ord!

Winston AI -detektor

Winston AI: Den mest pålitelige AI -detektoren. . Les mer

Bare $ 0.01 per 100 ord

Originalitet.AI er den mest nøyaktige AI -deteksjonen.På tvers av et testdatasett med 1200 dataprøver oppnådde det en nøyaktighet på 96% mens den nærmeste konkurrenten bare oppnådde 35%. Nyttig kromforlengelse. Oppdager på tvers av e -post, Google -dokumenter og nettsteder. Les mer

*Prisene kan endres. PC Guide er leserstøttet. Når du kjøper gjennom lenker på nettstedet vårt, kan vi tjene en tilknyttet kommisjon. Lære mer

Så trenger du et grafikkort fra stabil diffusjon for at det skal fungere? Eller kan den ene erstatte den andre? .

Er en GPU som kreves for stabil diffusjon?

Ja, for at stabil diffusjon skal fungere jevnt uten problemer, må du ha en GPU på PC -en. For et minimum, se på 8-10 GB NVIDIA-modeller. Forsikre deg om at du har 16 GB PC RAM i PC -systemet for å unngå ustabilitet.

GPU vil kjøre stabil diffusjon uten å løpe inn i problemer som en langsommere svarhastighet. Å si at stabil diffusjon utelukkende kjører best på et grafikkort ikke ville være galt. Som GPU skal bruke, foreslår vi NVIDIA RTX 4080 og 4090 modeller med 16 eller 24 GB VRAM for best resultat. Dette er alvorlig kraftige sett av sett som garanterer deg en rask tjeneste.

Er det mulig å kjøre stabil diffusjon på en AMD GPU?

Ja, du kan også kjøre stabil diffusjon på AMD GPUer, bortsett fra Nvidia Series -modellene. For å bruke AMD, må du forsikre deg om at du har en modell over RX470. For de beste resultatene, sørg for å ha ytterligere 8 GB eller over for å unngå ulemper.

Vanlige spørsmål

Kan stabil diffusjonsarbeid på Apple Mac -prosessorer?

Ja, den stabile diffusjonen støtter Apple Mac -bøker. Imidlertid støtter den bare de silisiumbaserte M1- og M1-modellene. Enhver modell før det er ikke for de beste resultatene. Selv en eldre M1- og M2 -modell vil være bra hvis den oppfyller kravene.

Konklusjon

Å ha et GPU er et obligatorisk krav i dagens teknologiske verden. . Derfor, for stabil diffusjon, er det best å ha en GPU. Selv om det er noen få måter å kjøre det uten GPU, er de ikke så pålitelige som de kan se ut på. Så sørg for å ha et godt grafikkort før du kjører stabil diffusjon for de beste resultatene.

Et grafikkort er også en god idé generelt for å få mest mulig ut av PC -en. De forbedrer spill og kreative opplevelser ti ganger. Hvis du trenger ideer om hvilken du skal gå til, kan du sjekke ut vår runde av de aller beste grafikkortene her.

Stabil diffusjon Benchmarked: Hvilken GPU kjører ai raskest (oppdatert)

Stabil diffusjonsprøvebilder

Kunstig intelligens og dyp læring er konstant i overskriftene i disse dager, enten det er chatgpt som genererer dårlige råd, selvkjørende biler, kunstnere blir beskyldt for å bruke AI, medisinsk råd fra AI og mer. De fleste av disse verktøyene er avhengige av komplekse servere med mye maskinvare for trening, men å bruke det trente nettverket via inferens kan gjøres på din PC, ved å bruke grafikkortet. Men hvor raskt er forbruker GPUer for å gjøre AI -inferens?

Vi har benchmarked Stable Diffusion, en populær AI -bildekrever, på den siste Nvidia, AMD og til og med Intel GPUer for å se hvordan de stabler opp. Hvis du tilfeldigvis har prøvd å få stabil diffusjon i gang på din egen PC, kan du ha litt anstrengelse av hvor kompleks – eller enkelt! – det kan være. Det korte sammendraget er at NVIDIAs GPU -er styrer roost, med de fleste programvare designet med CUDA og andre NVIDIA -verktøysett. Men det betyr ikke at du ikke kan få stabil diffusjon på den andre GPU -ene.

Vi endte opp med å bruke tre forskjellige stabile diffusjonsprosjekter for testingen vår, mest fordi ingen enkelt pakke fungerte på hver GPU. For Nvidia valgte vi automatisk 1111s WebUI -versjon; Det presterte best, hadde flere alternativer og var lett å løpe. AMD GPUer ble testet ved hjelp av NOD.AIs haiversjon – Vi sjekket ytelsen på NVIDIA GPUer (i både Vulkan og CUDA -modus) og fant ut at det var. . Å få Intels Arc GPU -løp var litt vanskeligere, på grunn av manglende støtte, men stabil diffusjon OpenVino ga oss noen veldig .

Ansvarsfraskrivelse er i orden. Vi kodet ikke noen av disse verktøyene, men vi lette etter ting som var lett å få løpende (under Windows) som også så ut til å være rimelig optimalisert. Vi er relativt sikre på at NVIDIA 30-serie-testene gjør en god jobb med å trekke ut nær optimal ytelse-spesielt når Xformers er aktivert, noe som gir ytterligere ~ 20% løft i ytelsen (men ved redusert presisjon som kan påvirke kvaliteten). RTX 40-serie resultater i mellomtiden var lavere innledningsvis, men George Sv8arj ga denne løsningen, hvor erstatning av Pytorch Cuda DLLS ga et sunt løft for ytelsen.

AMD -resultatene er også litt av en blandet pose: rDNA 3 GPUer fungerer veldig bra mens rDNA 2 GPUer virker ganske middelmådig. Nikke.AI la oss få vite at de fremdeles jobber med ‘Tuned’ -modeller for RDNA 2, noe som skal øke ytelsen ganske mye (potensielt dobbelt) når de er tilgjengelige. Til slutt, på Intel GPUer, selv om den ultimate ytelsen ser ut til å stille opp anstendig med AMD -alternativene, er det i praksis tid til å gjengi vesentlig lenger – det tar 5–10 sekunder før den faktiske generasjonsoppgaven starter, og sannsynligvis mye av Ekstra bakgrunns ting skjer som bremser det.

Vi bruker også forskjellige stabile diffusjonsmodeller, på grunn av valg av programvareprosjekter. Nikke.AIs haiversjon bruker SD2.1, mens automatisk 1111 og OpenVino bruker SD1.4 (selv om det er mulig å aktivere SD2.1 på automatisk 1111). Igjen, hvis du har litt kunnskap om stabil diffusjon og ønsker å anbefale forskjellige open source -prosjekter som kan løpe bedre enn det vi brukte, gi oss beskjed i kommentarene (eller bare e -post jarred).

Våre testparametere er de samme for alle GPU -er, selv om det ikke er noe alternativ for et negativt hurtig alternativ på Intel -versjonen (i det minste ikke at vi kunne finne). Ovennevnte galleri ble generert ved bruk av automatisk 1111s webui på NVIDIA GPUer, med høyere oppløsningsutganger (som tar mye, mye lenger å fullføre). Det er de samme spørsmålene, men målrettet 2048×1152 i stedet for 512×512 vi brukte til våre mål. Merk at innstillingene vi valgte ble valgt til å jobbe med alle tre SD -prosjekter; Noen alternativer som kan forbedre gjennomstrømningen er bare tilgjengelig på Automatic 1111’s Build, men mer om det senere. Her er de relevante innstillingene:

Positiv ledetekst:
Postapokalyptisk steampunk by, utforskning, filmatisk, realistisk, hyper detaljert, fotorealistisk maksimal detalj, volumetrisk lys, (((fokus))), vidvinkel, (((((((((((((((((((( , vinstokker, ødeleggelse, ødeleggelse, wartorn, ruiner


(?

Trinn:
100

Klassifiserer gratis veiledning:
15.0

Prøvetakingsalgoritme:
Noen Euler -variant (forfedre på automatisk 1111, Shark Euler diskret på AMD)

Prøvetakingsalgoritmen ser ikke ut til å påvirke ytelsen, selv om den kan påvirke utgangen. Automatisk 1111 gir flest alternativer, mens Intel OpenVino -bygget ikke gir deg noe valg.

Her er resultatene fra vår testing av AMD RX 7000/6000-serien, NVIDIA RTX 40/30-serie, og Intel Arc A-serien GPUer. Merk at hver NVIDIA GPU har to resultater, en som bruker standard beregningsmodell (tregere og i svart) og et sekund ved å bruke det raskere “Xformers” -biblioteket fra Facebook (raskere og i grønt).

Som forventet leverer Nvidias GPUer overlegen ytelse – noen ganger etter massive marginer – sammenlignet med alt fra AMD eller Intel. Med DLL -fiksen for Torch på plass, leverer RTX 4090 50% mer ytelse enn RTX 3090 Ti med Xformers, og 43% bedre ytelse uten Xformers. Det tar litt over tre sekunder å generere hvert bilde, og til og med RTX 4070 Ti er i stand til å knirke forbi 3090 Ti (men ikke hvis du deaktiverer Xformers).

. I mellomtiden binder AMDs RX 7900 XTX RTX 3090 TI (etter ytterligere retesting) mens RX 7900 XT binder RTX 3080 Ti. 7900-kortene ser ganske bra ut, mens hvert RTX 30-serie-kort ender opp med å slå AMDs RX 6000-serie deler (foreløpig). Til slutt kommer Intel Arc GPUer inn nesten sist, med bare A770 som klarer å overgå RX 6600. La oss snakke litt mer om avvikene.

Riktig optimalisering kan doble ytelsen på RX 6000-serien-kortene. Nikke.AI sier at den burde ha innstilte modeller for rDNA 2 de kommende dagene, på hvilket tidspunkt den generelle staten skal begynne å korrelere bedre med den teoretiske ytelsen. Apropos nikk.AI, vi gjorde også noen testing av noen NVIDIA GPU -er ved å bruke dette prosjektet, og med Vulkan -modellene var NVIDIA -kortene vesentlig tregere enn med automatisk 1111 -bygg (15.52 det/s på 4090, 13.31 på 4080, 11.41 på 3090 Ti, og 10.76 på 3090 – Vi kunne ikke teste de andre kortene da de først må aktiveres).

. På papiret har 4090 over fem ganger ytelsen til RX 7900 XTX – og 2.7 ganger ytelsen selv om vi diskonterer knapphet. I praksis er 4090 akkurat nå bare omtrent 50% raskere enn XTX med versjonene vi brukte (og som synker til bare 13% hvis vi utelater det lavere nøyaktighet Xformers -resultatet). Den samme logikken gjelder også Intels buekort.

Intels Arc GPUer leverer for øyeblikket veldig skuffende resultater, spesielt siden de støtter FP16 XMX (Matrix) -operasjoner som skal levere opptil 4x gjennomstrømningen som vanlige FP32 -beregninger. Vi mistenker at det nåværende stabile diffusjonen OpenVino -prosjektet som vi brukte også etterlater mye rom for forbedring. Forresten, hvis du vil prøve å kjøre SD på en ARC GPU, må du merke deg at du må redigere ‘Stable_Diffusion_Engine.py ‘fil og endre “CPU” til “GPU” – ellers vil den ikke bruke grafikkortene til beregningene og tar vesentlig lengre tid.

Totalt sett er NVIDIAs RTX 40-serie-kort, det raskeste valget, etterfulgt av 7900-kortene, og deretter RTX 30-serien GPUer, etterfulgt av 7900-kortene, og deretter RTX 30-serien GPUer. RX 6000-serien underpresterer, og bue GPU-er ser generelt dårlig. Ting kan endre seg radikalt med oppdatert programvare, og gitt populariteten til AI forventer vi at det bare er et spørsmål om tid før vi ser bedre innstilling (eller finner riktig prosjekt som allerede er innstilt for å levere bedre ytelse).

Vi kjørte også noen tester på Legacy GPUer, spesielt Nvidias Turing-arkitektur (RTX 20- og GTX 16-serie) og AMDs RX 5000-serie. RX 5600 XT mislyktes, så vi slapp med testing på RX 5700, og GTX 1660 Super var treg nok til at vi ikke følte noe behov for å gjøre ytterligere testing av lavere nivåer. Men resultatene her er ganske interessante.

Først ender RTX 2080 Ti med å overgå RTX 3070 TI. Det skjer normalt ikke, og i spill har til og med vanilje 3070 en tendens til å slå den tidligere mesteren. Enda viktigere er at disse tallene antyder at NVIDIAs “sparsity” -optimaliseringer i Ampere -arkitekturen ikke brukes i det hele tatt – eller kanskje er de rett og slett ikke aktuelle.

. 2080 Ti Tensor -kjernene støtter ikke sparsitet og har opptil 108 TFLOPS av FP16 Compute. RTX 3070 TI støtter sparsitet med 174 TFLOPS av FP16, eller 87 TFLOPS FP16 uten sparsitet. At 2080 Ti slår 3070 TI, indikerer tydelig at sparsitet ikke er en faktor. Den samme logikken gjelder andre sammenligninger som 2060 og 3050, eller 2070 Super og 3060 Ti.

Når det gjelder AMDs RDNA -kort, RX 5700 XT og 5700, er det et bredt gap i ytelsen. 5700 XT lander like foran 6650 XT, men 5700 lander under 6600. På papiret skal XT -kortet være opptil 22% raskere. I vår testing er det imidlertid 37% raskere. Uansett er ingen av de eldre Navi 10 GPU -ene spesielt utførende i våre første stabile diffusjons benchmarks.

Til slutt skal GTX 1660 Super på papir være omtrent 1/5 den teoretiske ytelsen til RTX 2060, ved å bruke tensorkjerner på sistnevnte. Hvis vi bruker Shader -ytelse med FP16 (Turing har dobbelt gjennomstrømningen på FP16 Shader -koden), smalner gapet til bare 22% underskudd. .

Igjen, det er ikke klart nøyaktig hvor optimalisert noen av disse prosjektene er. Det er heller ikke klart om disse prosjektene utnytter ting som Nvidias tensorkjerner eller Intels XMX -kjerner. Som sådan trodde vi at det ville være interessant å se på den maksimale teoretiske ytelsen (TFLOPS) fra de forskjellige GPU -ene. Følgende diagram viser den teoretiske FP16 -ytelsen for hver GPU (bare ser på de nyere grafikkortene), ved hjelp av Tensor/Matrix -kjerner der det er aktuelt. NVIDIAs resultater inkluderer også knapphet – i utgangspunktet muligheten til å hoppe over multiplikasjoner med 0 for opptil halvparten av cellene i en matrise, som visstnok er en ganske hyppig forekomst med dyp læringsmengde.

Disse tensorkjernene på Nvidia pakker tydelig en trøkk (de grå/svarte stolpene er uten sparsitet), og tydeligvis stemmer ikke vår stabile diffusjonstesting nøyaktig med disse figurene – ikke engang nær. . Legg også merke til at vi antar at det stabile diffusjonsprosjektet vi brukte (automatisk 1111) ikke utnytter de nye FP8-instruksjonene på ADA Lovelace GPUer, som potensielt kan doble ytelsen på RTX 40-serie igjen.

I mellomtiden, se på buen GPUer. Matrikskjernene deres skal gi lignende ytelse som RTX 3060 TI og RX 7900 XTX, gi eller ta, med A380 nede rundt RX 6800. I praksis er Arc GPUer ikke i nærheten av disse merkene. . Så de handler om en fjerdedel av den forventede ytelsen, noe som vil være fornuftig hvis XMX -kjernene ikke brukes.

De interne forholdstallene på lysbuen ser imidlertid riktig ut. Teoretisk beregningsytelse på A380 er omtrent en fjerdedel A750, og det er der den lander når det gjelder stabil diffusjonsytelse akkurat nå. Mest sannsynlig bruker ARC GPUer skyggelegger for beregningene, i full presisjon FP32 -modus, og går glipp av noen ekstra optimaliseringer.

Den andre tingen å legge merke til er at teoretisk beregning på AMDs RX 7900 XTX/XT forbedret mye sammenlignet med RX 6000-serien. Vi må se om de innstilte 6000-serien-modellene lukker hullene, som nikk.AI sa at den forventer om en 2x forbedring i ytelsen på RDNA 2. Memory -båndbredde var ikke en kritisk faktor, i det minste for måloppløsningen på 512×512 vi brukte – 3080 10 GB- og 12 GB -modellene lander relativt nær hverandre.

Her er et annet blikk på teoretisk FP16 -ytelse, denne gangen fokuserer bare på hva de forskjellige GPU -ene kan gjøre via Shader -beregninger. Nvidias Ampere og ADA -arkitekturer kjører FP16 i samme hastighet som FP32, ettersom antagelsen er FP16 kan kodes for å bruke tensorkjernene. AMD og Intel GPUer i kontrast har dobbel ytelse på FP16 Shader -beregninger sammenlignet med FP32.

Det er klart at denne andre blikket på FP16 -beregning ikke stemmer overens. noe ekstra. Noe som bringer oss til et siste diagram.

Dette endelige diagrammet viser resultatene av testing av høyere oppløsning. Vi testet ikke den nye AMD GPU-ene, da vi måtte bruke Linux på AMD RX 6000-Series-kort, og tilsynelatende trenger RX 7000-serien en nyere Linux-kjerne og vi kunne ikke få det til å fungere. Men sjekk ut RTX-resultatene.

RTX 4090 er nå 72% raskere enn 3090 Ti uten Xformers, og hele 134% raskere med Xformers. 4080 slår også 3090 TI med 55%/18% med/uten Xformers. 4070 TI var interessant 22% tregere enn 3090 TI uten Xformers, men 20% raskere med Xformers.

Det ser ut som den mer komplekse måloppløsningen på 2048×1152 begynner å dra bedre nytte av de potensielle beregningsressursene, og kanskje de lengre kjøretidene betyr at tensorkjernene kan bøye muskelen fullt ut.

Til syvende og sist er dette i beste fall et øyeblikksbilde i tid med stabil diffusjonsytelse. Vi ser hyppige prosjektoppdateringer, støtte til forskjellige treningsbiblioteker og mer. .

Hold deg i banebrytende

Bli med på ekspertene som leser Toms maskinvare for innsiden av sporet på entusiast PC Tech News – og har i over 25 år. Vi sender nyheter og dyptgående anmeldelser av CPUer, GPUer, AI, Maker Hardware og mer rett til innboksen din.

Ved å sende inn informasjonen din godtar du vilkårene og betingelsene og personvernreglene og er 16 år eller over.

Jarred Walton

Jarred Walton er seniorredaktør ved Toms maskinvare med fokus på alt GPU. Han har jobbet som teknisk journalist siden 2004, og skrev for AnandTech, Maximum PC og PC Gamer. Fra den første S3 Virge ‘3D Decelerators’ til dagens GPU -er, holder Jarred opp med alle de nyeste grafikktrendene og er den som spør om spillytelse.