Yupp, kann sein dass der OpenCL Coed noch für modernere GPUs optimiert werden muss. OpenCL ist halt keinesfalls so, dass ein Source Code automatisch optimal für lowend bis highend GPU optimal läuft. Leider... Das ist auch der Grund, warum es sehr aufwändig ist das ganze (stets!) an neuere GPU Modelle anzupassen. CUDA gibts schon länger und es gibt vorallem deutlich mehr Entwickler die das beherrschen (optimieren). Daher kommt hier teilweise mehr "Power auf der Straße an".
Gibt zig Berichte / Tests aus der GPU computing Forschung, dass OpenCL/CUDA nur dann echt gut funzt wenn A) das was zu tun ist gut parallelisierbar ist und B) das wirklich aufwändig von Hand optimiert wird. Ansonsten sind CPUs, speziell mit sehr vielen Kernen sogar schneller wie CUDA/OpenCL.
Zeigt sich auch Hier bei der Testbewertung am Ende des Tests: Wer eine 6+ Kern CPU hat sieht "Beste Leistung mit CPU only...", und nicht GPU oder CPU+GPU Kombi.
EDIT: Test mit High Sierra (satt vorher Sierra, noch mein Allatgssystem) ergab fast gleiche Werte, 5.4 GPU alleine.
DSM2: Bei seinen 2 AMD Karten ergibt sich gegenüber nur einer ein 15 zu 11. Insofern auch hier, anders wie beim Luxmark OpenCL, nicht optimale Skalierung bzw. Auslastung. Kann sein, dass der mit Sicherheit hoch komplexe Code dieses Filters auf CPUs einfach besser läuft - nicht jeder Code lässt sich halt gut parallelisieren bzw. ist so komplex (viele if then else), dass das die GPU eben nicht gut kann. Gibt viele Beispiele wo selbst hochoptimierter OpenCL Code, mangels parallelität und wg komplexität schlechter läuft wie auf modernen Muilticore CPUs.