LLM auf Radeon

  • Hallo Forum,


    vielleicht interessiert es ja den einen oder anderen.


    Ich arbeite gerne mit LLMs auf meinem Rechner.

    Allerdings sieht es auf Hackintosh eher mau aus mit dem GPU Support.

    LMStudio gibt es nur für Apple Silicon und GPT4All, ollama und Jan rechnen nur auf der CPU.

    Nun gibt es llama.cpp mit Metal Backend, aber das rechnet auf meinem Hacky so langsam

    wie auf der CPU, obwohl die GPU offensichtlich genutzt wird. Zumindest laut Aktivitätsanzeige.


    Deshalb musste ich doch mein Spiele-Windows mit LMStudio und ROCm Backend nutzen.


    Nun fand ich kürzlich diese Quellen [1][2], die zeigen, wie man llama.cpp mit Vulkan Backend und MoltenVK zum laufen bringt.

    Et voila, läuft super. Modelle laden schneller, als mit LMStudio unter Windows.

    Die Performance ist pi mal Daumenbreite die gleiche.

    Damit ist der letzte Workflow, außer zocken, nun von Windows zum Hackintosh rübergezogen. Pünktlich zu seinem Ende. Toll.




    [1] https://medium.com/@ankitbabbe…with-an-egpu-55ed66db54be

    [2]

  • LMStudio selbst ist ziemlich lahm.

    Probiere mal Ollama von hier:

    https://ollama.com

    Das läuft ziemlich schnell, vor allem mit Gemma3.

    Gemma3 ist ist ein CPU-optimiertes Modell.
    Wenn du mehr als als das Ollama-Interface brauchst kannst du das Browser-Plugin Page Assist mal ausprobieren.

    So hast du LLM ohne viel Overhead durch ein großes, langsames Frontend wie LMStudio.

    P.S. Ollama nutzt bei mir auch die GPU in obiger Konfiguration, keine Ahnung ob LMStudio da was verbockt.