Local AI Rechner

Local LLM Calculator

Schätze, welches Open-Weight-Modell lokal auf Mac, NVIDIA-GPU, DGX Spark oder ASUS Ascent GX10 sinnvoll läuft.

Geschwindigkeit - pro einzelner Completion, nicht Serverdurchsatz
Speicherbedarf - Gewichte + KV-Cache + Overhead
Hardware - -
Bandwidth - Speicherbandbreite als Speed-Faktor
Setup Stück Speicher Token/s Nutzer Gesamtpreis Amortisation Einschätzung

Preisverlauf

7-Tage-Verlauf mit aktuellem Preis, Durchschnitt und Spanne. GPU-only-NVIDIA-Setups enthalten im Calculator zusätzlich einen Plattformaufschlag.

Hardware Shortlist

Welche Maschine passt?

Die Preise und Tokens/s sind bewusst konservative Schätzwerte. Treiber, Backend, Prompt-Länge, Batch-Größe und Modellarchitektur verändern die Werte deutlich.

Datenbasis

Annahmen

Stand: Juni 2026. Modellgrößen, VRAM/RAM und Token/s sind Näherungen für Inferenz mit llama.cpp, MLX, Unsloth Dynamic GGUFs oder vLLM-ähnlichen Setups. Bei MoE-Modellen wird der Speicher über alle Parameter geschätzt, die Geschwindigkeit aber über aktive Parameter gewichtet.

Die Speicherbandbreite fließt in die Token/s-Schätzung ein, weil lokale LLM-Inferenz oft memory-bound ist. Compute, Treiber, Tensor-Parallelismus, CPU-Offload und Prompt-Verarbeitung können das Ergebnis trotzdem deutlich verschieben.

Token/s meint hier die Geschwindigkeit einer einzelnen Completion für einen Nutzer. Datacenter-Systeme wie DGX B200 können bei hoher Parallelität einen viel höheren aggregierten Serverdurchsatz erreichen; das ist nicht dasselbe wie die Antwortgeschwindigkeit eines einzelnen Laufs.

Bei dokumentierten Unsloth Dynamic GGUFs wird der Speicherbedarf näher an Dateigröße plus KV-Cache gerechnet. GLM-5.2 Q1 liegt laut Community-Berichten zur Unsloth-GGUF bei rund 217 GB und wurde auf einem Mac Studio M3 Ultra mit 256 GB RAM bei rund 21,6 Token/s gezeigt. GLM-5.2 Q2 liegt laut Unsloth bei rund 239 GB und kann auf einem Mac Studio mit 256 GB Unified Memory laufen, solange der Kontext nicht bis an 1M Token ausgereizt wird. Bei 1M Kontext kommt für GLM-5.2 rechnerisch grob ein zusätzlicher KV-Cache im Bereich von rund 96 GB hinzu.

Die Setup-Tabelle skaliert Mehrfach-GPU- und Mehrfach-Rechner-Setups konservativ hoch. NVIDIA-Workstations mit 2x/4x RTX 5090 sind komplette Multi-GPU-Rechner, keine eigenen Grafikkarten. Für ein einzelnes Modell brauchst du Tensor- oder Pipeline-Parallelismus; mehrere Mac Studios oder DGX/GX10-Geräte sind eher rechnerische Cluster-Szenarien als ein normales Desktop-Setup.

Die Amortisation rechnet gegen OpenRouter-API-Kosten: Output-Token pro Tag aus der lokalen Token/s-Schätzung, dazu Input-Token über das wählbare Input:Output-Verhältnis. Standard ist 12 Input-Token pro 1 Output-Token und 24 Stunden Nutzung pro Tag. OpenRouter-Preise sind in USD pro Token gelistet und werden hier mit dem ECB-Referenzkurs vom 23. Juni 2026 umgerechnet. Strom, Kühlung, Wartung, Ausfallzeiten, Steuern und Restwert sind nicht enthalten.

Bei GPU-only-NVIDIA-Setups enthält der Gesamtpreis pauschal 20 % Aufschlag für Plattformkosten wie Gehäuse, Netzteil, Mainboard, CPU/RAM, Kühlung, Riser und Zusammenbau. Bei einer einzelnen B200 wird ein höherer Serverplattform-Aufschlag gerechnet. Mac, DGX Spark, ASUS GX10 und DGX-B200-Komplettsysteme werden als Komplettsysteme ohne zusätzlichen Aufschlag gerechnet.

Preisanker: RTX 5090 grob um 4.000 € mit 32 GB VRAM, RTX PRO 6000 Blackwell ca. 12.790-13.000 € mit 96 GB VRAM, B200-SXM-Datacenter-GPU grob 45.000-50.000 $ plus Serverplattform, 8x-B200-Systeme ab ca. 420.000 $, ASUS Ascent GX10 grob um 4.000 € mit GB10 und 128 GB Unified Memory, DGX Spark/GB10-Klasse ca. 4.000-4.700 $, MacBook Pro M5/M5 Pro mit 16/24/32/48 GB ca. 1.999/2.499/2.399/3.499 €, MacBook Pro M5 Max 128 GB ca. 6.249 €, Mac Studio M3 Ultra 256 GB ca. 13.000 € und 512 GB ca. 19.500 €.