Local AI Rechner
Local LLM Calculator
Schätze, welches Open-Weight-Modell lokal auf Mac, NVIDIA-GPU, DGX Spark oder ASUS Ascent GX10 sinnvoll läuft.
| Setup | Stück | Speicher | Token/s Nutzer | Gesamtpreis | Amortisation | Einschätzung |
|---|
Preisverlauf
7-Tage-Verlauf mit aktuellem Preis, Durchschnitt und Spanne. GPU-only-NVIDIA-Setups enthalten im Calculator zusätzlich einen Plattformaufschlag.
Hardware Shortlist
Welche Maschine passt?
Die Preise und Tokens/s sind bewusst konservative Schätzwerte. Treiber, Backend, Prompt-Länge, Batch-Größe und Modellarchitektur verändern die Werte deutlich.
Datenbasis
Annahmen
Stand: Juni 2026. Modellgrößen, VRAM/RAM und Token/s sind Näherungen für Inferenz mit llama.cpp, MLX, Unsloth Dynamic GGUFs oder vLLM-ähnlichen Setups. Bei MoE-Modellen wird der Speicher über alle Parameter geschätzt, die Geschwindigkeit aber über aktive Parameter gewichtet.
Die Speicherbandbreite fließt in die Token/s-Schätzung ein, weil lokale LLM-Inferenz oft memory-bound ist. Compute, Treiber, Tensor-Parallelismus, CPU-Offload und Prompt-Verarbeitung können das Ergebnis trotzdem deutlich verschieben.
Token/s meint hier die Geschwindigkeit einer einzelnen Completion für einen Nutzer. Datacenter-Systeme wie DGX B200 können bei hoher Parallelität einen viel höheren aggregierten Serverdurchsatz erreichen; das ist nicht dasselbe wie die Antwortgeschwindigkeit eines einzelnen Laufs.
Bei dokumentierten Unsloth Dynamic GGUFs wird der Speicherbedarf näher an Dateigröße plus KV-Cache gerechnet. GLM-5.2 Q1 liegt laut Community-Berichten zur Unsloth-GGUF bei rund 217 GB und wurde auf einem Mac Studio M3 Ultra mit 256 GB RAM bei rund 21,6 Token/s gezeigt. GLM-5.2 Q2 liegt laut Unsloth bei rund 239 GB und kann auf einem Mac Studio mit 256 GB Unified Memory laufen, solange der Kontext nicht bis an 1M Token ausgereizt wird. Bei 1M Kontext kommt für GLM-5.2 rechnerisch grob ein zusätzlicher KV-Cache im Bereich von rund 96 GB hinzu.
Die Setup-Tabelle skaliert Mehrfach-GPU- und Mehrfach-Rechner-Setups konservativ hoch. NVIDIA-Workstations mit 2x/4x RTX 5090 sind komplette Multi-GPU-Rechner, keine eigenen Grafikkarten. Für ein einzelnes Modell brauchst du Tensor- oder Pipeline-Parallelismus; mehrere Mac Studios oder DGX/GX10-Geräte sind eher rechnerische Cluster-Szenarien als ein normales Desktop-Setup.
Die Amortisation rechnet gegen OpenRouter-API-Kosten: Output-Token pro Tag aus der lokalen Token/s-Schätzung, dazu Input-Token über das wählbare Input:Output-Verhältnis. Standard ist 12 Input-Token pro 1 Output-Token und 24 Stunden Nutzung pro Tag. OpenRouter-Preise sind in USD pro Token gelistet und werden hier mit dem ECB-Referenzkurs vom 23. Juni 2026 umgerechnet. Strom, Kühlung, Wartung, Ausfallzeiten, Steuern und Restwert sind nicht enthalten.
Bei GPU-only-NVIDIA-Setups enthält der Gesamtpreis pauschal 20 % Aufschlag für Plattformkosten wie Gehäuse, Netzteil, Mainboard, CPU/RAM, Kühlung, Riser und Zusammenbau. Bei einer einzelnen B200 wird ein höherer Serverplattform-Aufschlag gerechnet. Mac, DGX Spark, ASUS GX10 und DGX-B200-Komplettsysteme werden als Komplettsysteme ohne zusätzlichen Aufschlag gerechnet.
Preisanker: RTX 5090 grob um 4.000 € mit 32 GB VRAM, RTX PRO 6000 Blackwell ca. 12.790-13.000 € mit 96 GB VRAM, B200-SXM-Datacenter-GPU grob 45.000-50.000 $ plus Serverplattform, 8x-B200-Systeme ab ca. 420.000 $, ASUS Ascent GX10 grob um 4.000 € mit GB10 und 128 GB Unified Memory, DGX Spark/GB10-Klasse ca. 4.000-4.700 $, MacBook Pro M5/M5 Pro mit 16/24/32/48 GB ca. 1.999/2.499/2.399/3.499 €, MacBook Pro M5 Max 128 GB ca. 6.249 €, Mac Studio M3 Ultra 256 GB ca. 13.000 € und 512 GB ca. 19.500 €.
Quellen: Mindfactory RTX 5090, Geizhals RTX 5090, Geizhals RTX 4090, Geizhals RTX 6000 Ada, Geizhals RTX PRO 6000 Blackwell, NVIDIA DGX B200, NVIDIA DGX Spark, NVIDIA Marketplace, ASUS Ascent GX10, ASUS GX10 Händlerpreis, Apple MacBook Pro M5, Apple Mac Studio, OpenRouter Model Pricing API, ECB USD/EUR Referenzkurs, NVIDIA Nemotron, NVIDIA Nemotron 3, NVIDIA Nemotron 3 Ultra, Xiaomi MiMo-V2.5-Pro, Xiaomi MiMo-V2.5, Unsloth Gemma 4, Unsloth Qwen3.6, Unsloth Qwen3.5, Unsloth MiniMax M3, Unsloth Kimi K2.7 Code, DeepSeek V4, Z.ai GLM-5.1, Unsloth GLM-5.1, Unsloth GLM-5.2.