Neat Video Performance

  • @DSM2 kann dir da bestimmt weiterhelfen wenn er online ist :)

    Hardware: Gigabyte GA Z390 AORUS Pro Wifi - Intel Core i7 9700k - 16 GB RAM - GTX 970

  • Ich muss gestehen ich kenne Neat überhaupt nicht, werde es mir am Wochenende mal anschauen und dann mehr darüber berichten können.

    Einmal editiert, zuletzt von DSM2 ()

  • Da gibts einen Benchmark (läuft ohne Video App): https://www.neatvideo.com/download/neatbench
    Evtl. diese Benchwerte besser + einfacher vergleichbar wie deren (Demo) Plugins!
    Bei mir (AMD RX 460)
    GPU only (AMD Radeon HD Baffin Prototype Compute Engine): 5.41 frames/sec
    Vega kommt da bestimmt auf 15.0+
    frames/sec

    2 Mal editiert, zuletzt von mitchde ()

  • Ah ja danke, hab´s auch gerade im Neat Forum gelesen. Werde ich morgen mal ausprobieren.


    Mir fällt auch auf, dass bei den meisten die Auflösung auf 1920x1080 gestellt ist.
    Vielleicht sind meine Werte unter UHD ja dann doch nicht soo schlecht...

  • Mit Vega oder ohne, auch zwei davon sind jetzt kein Brüller :(


    ASUS PRIME X299-DELUXE i9-9940X • DDR4 64GB • SSD 960 PRO 1TB • Thunderbolt3 Titan Ridge • 2x AMD Radeon RX Vega 64 • BMD Intensity Pro 4K

    ASUS WS X299 SAGE/10G i9-10980XE • DDR4 64GB • SSD 970 PRO 1TB • Thunderbolt3 Titan Ridge • 2x AMD Radeon VII • BMD DeckLink 4K Extreme 12G


    Ordnung ist die primitivste Form von Chaos. (Hans-Jürgen Quadbeck-Seeger)

    Einmal editiert, zuletzt von al6042 ()

  • Vielleicht liegt es auch einfach nur an neat selbst das nicht angepasst ist.

  • Heißt lange noch nicht das dieser Perfekt ist aktuell, die Vegas laufen ja auch erst seit kurzem gut sind aber schon seit 10.13.X in High Sierra hinterlegt und werden immer weiter optimiert.

  • Zitat

    CPU (10 cores) and GPU (AMD Radeon RX Vega 64 Compute Engine #1, AMD Radeon RX Vega 64 Compute Engine #2): 22.7 frames/sec


    Neat Video ist ein hervorragendes Tool, skaliert aber leider nicht optimal. Läuft unter CUDA mit AE etwas besser.

    ASUS PRIME X299-DELUXE i9-9940X • DDR4 64GB • SSD 960 PRO 1TB • Thunderbolt3 Titan Ridge • 2x AMD Radeon RX Vega 64 • BMD Intensity Pro 4K

    ASUS WS X299 SAGE/10G i9-10980XE • DDR4 64GB • SSD 970 PRO 1TB • Thunderbolt3 Titan Ridge • 2x AMD Radeon VII • BMD DeckLink 4K Extreme 12G


    Ordnung ist die primitivste Form von Chaos. (Hans-Jürgen Quadbeck-Seeger)

  • Mein Ergebnis sieht so aus:


    Mit anderen Worten es spricht vieles dafür das der Spaß noch nicht wirklich für die VEGA optimiert ist wenn eine R9-290X mit 10.2 Frames abschneidet und damit nur knapp hinter der einzelnen VEGA GPU liegt...

  • Hab jetzt ebenfalls den Benchmark laufen lassen...


    Einmal editiert, zuletzt von al6042 ()

  • Yupp, kann sein dass der OpenCL Coed noch für modernere GPUs optimiert werden muss. OpenCL ist halt keinesfalls so, dass ein Source Code automatisch optimal für lowend bis highend GPU optimal läuft. Leider... Das ist auch der Grund, warum es sehr aufwändig ist das ganze (stets!) an neuere GPU Modelle anzupassen. CUDA gibts schon länger und es gibt vorallem deutlich mehr Entwickler die das beherrschen (optimieren). Daher kommt hier teilweise mehr "Power auf der Straße an".
    Gibt zig Berichte / Tests aus der GPU computing Forschung, dass OpenCL/CUDA nur dann echt gut funzt wenn A) das was zu tun ist gut parallelisierbar ist und B) das wirklich aufwändig von Hand optimiert wird. Ansonsten sind CPUs, speziell mit sehr vielen Kernen sogar schneller wie CUDA/OpenCL.
    Zeigt sich auch Hier bei der Testbewertung am Ende des Tests: Wer eine 6+ Kern CPU hat sieht "Beste Leistung mit CPU only...", und nicht GPU oder CPU+GPU Kombi.


    EDIT: Test mit High Sierra (satt vorher Sierra, noch mein Allatgssystem) ergab fast gleiche Werte, 5.4 GPU alleine.
    DSM2: Bei seinen 2 AMD Karten ergibt sich gegenüber nur einer ein 15 zu 11. Insofern auch hier, anders wie beim Luxmark OpenCL, nicht optimale Skalierung bzw. Auslastung. Kann sein, dass der mit Sicherheit hoch komplexe Code dieses Filters auf CPUs einfach besser läuft - nicht jeder Code lässt sich halt gut parallelisieren bzw. ist so komplex (viele if then else), dass das die GPU eben nicht gut kann. Gibt viele Beispiele wo selbst hochoptimierter OpenCL Code, mangels parallelität und wg komplexität schlechter läuft wie auf modernen Muilticore CPUs.

    3 Mal editiert, zuletzt von mitchde ()

  • Hier mal die Antwort vom Neat Video Support Team...


    "Dear Matthias,


    thank you for the message.


    That may be caused by the drivers created for those GPUs by Apple. The current drivers
    seems to be slower than the drivers on the Windows side. The same Vega GPUs are consistently
    faster in Windows than in OSX according to our tests so far. We think that is caused by the drivers in OSX.
    That leaves a chance for improvement by Apple and we are hopeful.


    Thank you,
    Vlad


    Support, Neat Video team, ABSoft
    mailto:support@neatvideo.com https://www.neatvideo.com

  • Also mich haut die Performance auch nicht gerade so vom Hocker...Antwort von Neat Video Support lässt Raum für Hoffnung.


    GPU detection log:
    Looking for NVIDIA CUDA-capable devices...
    Failed to load CUDA driver ("/usr/local/cuda/lib/libcuda.dylib")
    If you use an NVIDIA card, please install the latest CUDA driver from NVIDIA.
    Looking for AMD OpenCL-capable devices...
    OpenCL driver version: 20180315.215937
    OpenCL initialized successfully.
    Checking OpenCL GPU #1:
    GPU device name is: AMD Radeon RX 580 Compute Engine
    8192 MB available during initialization
    Check passed - will attempt to use the device
    Neat Video benchmark:
    Frame Size: 1920x1080 progressive
    Bitdepth: 8 bits per channel
    Mix with Original: Disabled
    Temporal Filter: Enabled
    Quality Mode: Normal
    Radius: 2 frames
    Dust and Scratches: Disabled
    Slow Shutter: Disabled
    Spatial Filter: Enabled
    Quality Mode: Normal
    Frequencies High, Mid, Low
    Artifact Removal: Enabled
    Detail Recovery: Disabled
    Edge Smoothing: Disabled
    Sharpening: Disabled
    Detecting the best combination of performance settings:
    running the test data set on up to 12 CPU cores and on up to 1 GPU


    AMD Radeon RX 580 Compute Engine: 8192 MB currently available, using up to 100%


    CPU only (1 core): 2.08 frames/sec
    CPU only (2 cores): 4.08 frames/sec
    CPU only (3 cores): 6.1 frames/sec
    CPU only (4 cores): 7.19 frames/sec
    CPU only (5 cores): 8.77 frames/sec
    CPU only (6 cores): 9.01 frames/sec
    CPU only (7 cores): 8.4 frames/sec
    CPU only (8 cores): 8.55 frames/sec
    CPU only (9 cores): 8.13 frames/sec
    CPU only (10 cores): 9.35 frames/sec
    CPU only (11 cores): 9.09 frames/sec
    CPU only (12 cores): 9.35 frames/sec


    GPU only (AMD Radeon RX 580 Compute Engine): 9.35 frames/sec


    CPU (1 core) and GPU (AMD Radeon RX 580 Compute Engine): 8 frames/sec
    CPU (2 cores) and GPU (AMD Radeon RX 580 Compute Engine): 7.46 frames/sec
    CPU (3 cores) and GPU (AMD Radeon RX 580 Compute Engine): 8.13 frames/sec
    CPU (4 cores) and GPU (AMD Radeon RX 580 Compute Engine): 10 frames/sec
    CPU (5 cores) and GPU (AMD Radeon RX 580 Compute Engine): 11.2 frames/sec
    CPU (6 cores) and GPU (AMD Radeon RX 580 Compute Engine): 12.5 frames/sec
    CPU (7 cores) and GPU (AMD Radeon RX 580 Compute Engine): 12.5 frames/sec
    CPU (8 cores) and GPU (AMD Radeon RX 580 Compute Engine): 12 frames/sec
    CPU (9 cores) and GPU (AMD Radeon RX 580 Compute Engine): 12.7 frames/sec
    CPU (10 cores) and GPU (AMD Radeon RX 580 Compute Engine): 12.7 frames/sec
    CPU (11 cores) and GPU (AMD Radeon RX 580 Compute Engine): 11.6 frames/sec
    CPU (12 cores) and GPU (AMD Radeon RX 580 Compute Engine): 9.35 frames/sec


    Best combination: CPU (9 cores) and GPU (AMD Radeon RX 580 Compute Engine)

  • Die Mail ist an sich eigentlich schon witzig...
    Nicht Apple muss die Treiber optimieren sondern Neat ihre Software!

  • Ja, das ist mit Sicherhit auch nötig. Der Verweis auf Apples "Treiber" zieht nicht so ganz, da Luxmark OpenCL A: viel besser mit Multi GPU skalieren und auch Win / OS X Werte nicht so verschieden sind. Andererseits ist OpenCL auf Win/Linux schon weiter in der Version - sprich kann Dinge die Apples OpencL noch nicht kann. Das muss dann jedoch schon im OpenCL Code geprüft werden und entsprechend der OpenCL Version (if Version 2. then ...) behandelt werden. Die bestehende OpenCL Version von Apple dürfte jedoch weitgehendst optimiert worden sein, weil seit mind 2 Jahren gleich.
    https://de.wikipedia.org/wiki/OpenCL
    Ein Trauerspiel - Apple hat maßgeblich OpenCL miterdacht und 2009 als erster 1.0 herausgebracht... Dann blieb Apple aber im Jahr 2012 bei 1.2, bis heute, stehen. https://support.apple.com/de-de/HT202823
    Die anderen brachten 2.0, 2014 2,1 und nun , Mai 2017, 2,2 heraus... Vom Wegbereiter Apple keine Spur mehr - obwohl OpenCL weit mehr Nutzen hat weil platformübergreifend (wie CUDA) im Gegensatz zu Metal. Metal kennen die meisten ja gar nicht bzw. Devs die platformübergreifend entwicklen sind mit OpenCL + CUDA schon gut bedient und ist auch erst am Anfang was GPU computing betrifft. Schade.


    Interessant wäre zu wissen von was für einem Unterschied der da redet. Deutlicher oder eben so 10-15%, was dann auch nicht so wesentlich besser wäre.
    Habe kein Multiboot System (Win bei mir VMWARE) - falls jemand Windows native hat wäre ein Vergleich dieses Benches Win/O SX auf gleichem Rechner natürlich interessant. EInerseits ob GPU only dann mal deutlich über CPU kommt bzw. eben die GPU FPS absolut Win / OS X.

    7 Mal editiert, zuletzt von mitchde ()

  • Stimmt, wäre interessant zu wissen. Habe leider auch kein Windows und kann damit nicht aushelfen.


    Is auch wirklich ärgerlich, FCP X rennt mit der Vega 1A...und bei Neat wirste wieder ausgebremst.