SEO Benchmark

wojcik. Research

SEO LLM Benchmark

How good are language models at real-world SEO tasks? 142 challenges across all SEO categories.

Der SEO LLM Benchmark testet Sprachmodelle an praktischen SEO-Aufgaben – keine Multiple-Choice-Fragen, sondern echte Herausforderungen wie das Erzeugen von robots.txt-Dateien, Schema-Markup, Meta-Tags oder die Klassifizierung von Suchintentionen.

Jede Antwort wird deterministisch validiert (robots.txt-Parser, JSON Schema, HTML-Validator, Regex) oder bei semantisch variablen Ausgaben von einem LLM-as-Judge bewertet. Getestete Kategorien: Technical SEO, On-Page SEO, Structured Data, Content SEO, Local SEO und Off-Page SEO.

Methodik

Der Benchmark nutzt einen statischen Snapshot – alle Modelle werden gegen exakt dieselben Eingabedaten getestet. Das garantiert faire, reproduzierbare Ergebnisse, die nicht durch Website-Änderungen beeinflusst werden. Aufgaben mit variablen Ausgabeformaten (z. B. Redirect-Chain-Analysen) bewertet ein LLM-as-Judge, der die semantische Korrektheit unabhängig vom Format prüft.

Results Overview

47Modelle getestet
142SEO-Aufgaben · 6 Kategorien
93,6 %Top Score
85,7 %Ø Score aller Modelle

Leaderboard

Spaltenkopf anklicken zum Sortieren. Alle Modelle wurden mit identischen Eingabedaten getestet.

# Modell Overall Technical On-Page Structured Content Local Off-Page
1 anthropic/claude-opus-4.8 93,6 % 93,1 % 91,6 % 92,5 % 94,9 % 92,7 % 99,4 %
2 anthropic/claude-opus-4.7 91,8 % 85,9 % 90,9 % 92,5 % 92,5 % 93,8 % 100,0 %
3 qwen3-32b-seo-v09-targeted-preserve 91,0 % 87,7 % 96,6 % 98,9 % 84,5 % 84,6 % 90,0 %
4 openai/gpt-5.4 89,5 % 89,1 % 92,0 % 92,5 % 88,8 % 84,0 % 86,6 %
5 deepseek/deepseek-v4-pro 89,5 % 88,5 % 90,5 % 90,3 % 83,9 % 85,3 % 100,0 %
6 ~anthropic/claude-fable-latest 89,2 % 89,5 % 90,3 % 89,2 % 85,3 % 83,7 % 100,0 %
7 google/gemini-3.1-flash-lite-preview 89,2 % 89,8 % 90,2 % 86,1 % 88,2 % 90,0 % 93,1 %
8 openai/gpt-5.2-chat 89,1 % 88,7 % 94,5 % 90,3 % 85,2 % 85,0 % 86,9 %
9 qwen/qwen3.6-plus 88,9 % 93,5 % 91,6 % 89,8 % 84,5 % 82,7 % 86,3 %
10 gpt-5.5 88,8 % 92,7 % 92,4 % 90,3 % 87,7 % 78,7 % 83,8 %
11 google/gemma-4-26b-a4b-it 88,7 % 89,7 % 94,3 % 91,8 % 83,5 % 75,3 % 90,9 %
12 deepseek/deepseek-v3.2 88,6 % 90,0 % 91,2 % 95,1 % 87,4 % 83,8 % 75,0 %
13 google/gemma-4-31b-it 88,5 % 88,1 % 94,8 % 87,5 % 85,0 % 81,6 % 91,6 %
14 gpt-4o 88,5 % 90,5 % 91,6 % 88,3 % 84,3 % 84,1 % 90,0 %
15 anthropic/claude-sonnet-4.6 88,3 % 92,7 % 84,5 % 91,8 % 89,4 % 79,0 % 87,5 %
16 deepseek/deepseek-v4-flash 88,0 % 81,7 % 87,8 % 90,3 % 93,1 % 85,9 % 89,7 %
17 openai/gpt-5.3-chat 87,9 % 88,7 % 90,5 % 89,2 % 90,0 % 84,3 % 79,4 %
18 nvidia/nemotron-3-ultra-550b-a55b 87,7 % 83,7 % 91,9 % 90,3 % 83,6 % 83,7 % 91,9 %
19 mistralai/mistral-large 87,6 % 92,4 % 99,0 % 87,2 % 76,8 % 81,4 % 80,6 %
20 google/gemini-3.5-flash 87,5 % 88,5 % 89,8 % 89,7 % 82,0 % 80,3 % 91,6 %
21 gpt-5.5-pro-2026-04-23 87,4 % 92,3 % 86,2 % 92,5 % 84,9 % 78,0 % 83,1 %
22 xiaomi/mimo-v2-pro 87,0 % 86,7 % 91,4 % 90,3 % 85,1 % 84,3 % 78,1 %
23 z-ai/glm-5.1 86,9 % 88,5 % 88,4 % 90,3 % 85,1 % 77,3 % 85,9 %
24 minimax/minimax-m3 86,9 % 90,3 % 91,4 % 89,2 % 82,2 % 86,6 % 75,0 %
25 moonshotai/kimi-k2.6 86,6 % 89,9 % 88,8 % 92,0 % 79,3 % 75,1 % 87,5 %
26 moonshotai/kimi-k2.5 86,6 % 88,1 % 92,2 % 89,2 % 86,3 % 78,6 % 76,3 %
27 x-ai/grok-4.20 86,3 % 90,7 % 79,3 % 95,8 % 85,7 % 75,7 % 83,8 %
28 qwen/qwen3.7-max 86,0 % 89,7 % 89,7 % 88,6 % 76,2 % 80,3 % 87,5 %
29 anthropic/claude-opus-4.6 85,9 % 85,9 % 81,6 % 92,9 % 88,3 % 72,7 % 89,1 %
30 xiaomi/mimo-v2.5-pro 85,8 % 88,1 % 91,0 % 83,9 % 82,0 % 91,3 % 76,3 %
31 openai/gpt-oss-120b 85,5 % 86,1 % 87,1 % 90,3 % 78,3 % 80,4 % 86,9 %
32 minimax/minimax-m2.7 84,5 % 85,5 % 89,9 % 87,1 % 81,7 % 71,0 % 84,4 %
33 mistralai/mistral-small-2603 84,0 % 79,5 % 88,8 % 92,9 % 78,0 % 78,4 % 80,0 %
34 openrouter/elephant-alpha 83,9 % 90,4 % 89,5 % 89,4 % 76,4 % 85,1 % 61,3 %
35 qwen3-32b-seo-v2-test 83,7 % 86,4 % 90,7 % 92,6 % 79,5 % 61,0 % 77,2 %
36 nvidia/nemotron-3-super-120b-a12b 83,1 % 83,0 % 91,2 % 89,4 % 74,1 % 79,2 % 73,1 %
37 qwen3-32b-seo-v4-test 82,6 % 83,4 % 84,8 % 92,6 % 81,3 % 60,7 % 81,6 %
38 seo-lora 82,2 % 81,6 % 85,9 % 92,6 % 80,8 % 66,0 % 74,1 %
39 qwen3-32b-seo-v5-test 81,9 % 87,7 % 85,7 % 89,4 % 77,0 % 64,3 % 74,7 %
40 qwen3-14b-seo-v02-repair 81,8 % 76,9 % 96,4 % 92,6 % 78,8 % 60,7 % 68,4 %
41 qwen3-14b-seo-v04-conservative-repair 81,2 % 76,9 % 97,1 % 93,1 % 77,5 % 56,3 % 66,3 %
42 qwen/qwen3.5-27b 80,9 % 82,0 % 86,2 % 67,7 % 71,7 % 90,8 % 99,1 %
43 qwen3-32b-seo-v3-test 80,9 % 76,5 % 85,5 % 96,9 % 77,0 % 70,1 % 66,9 %
44 qwen3-14b-seo-v01-test 79,3 % 76,0 % 94,1 % 86,6 % 71,5 % 75,1 % 61,6 %
45 qwen/qwen3-14b 75,6 % 80,2 % 85,2 % 68,9 % 63,0 % 75,3 % 80,9 %
46 gpt-3.5-turbo-16k 75,3 % 77,3 % 75,2 % 75,8 % 77,7 % 76,3 % 66,6 %
47 tencent/hy3-preview 74,3 % 72,1 % 74,8 % 79,0 % 68,9 % 79,3 % 71,3 %

Stand der Daten: statischer Snapshot des SEO LLM Benchmark · Built by wojcik.