SEO LLM Benchmark

wojcik. Research

SEO LLM Benchmark

How good are language models at real-world SEO tasks? 142 challenges across all SEO categories.

Der SEO LLM Benchmark testet Sprachmodelle an praktischen SEO-Aufgaben – keine Multiple-Choice-Fragen, sondern echte Herausforderungen wie das Erzeugen von robots.txt-Dateien, Schema-Markup, Meta-Tags oder die Klassifizierung von Suchintentionen.

Jede Antwort wird deterministisch validiert (robots.txt-Parser, JSON Schema, HTML-Validator, Regex) oder bei semantisch variablen Ausgaben von einem LLM-as-Judge bewertet. Getestete Kategorien: Technical SEO, On-Page SEO, Structured Data, Content SEO, Local SEO und Off-Page SEO.

Methodik

Der Benchmark nutzt einen statischen Snapshot – alle Modelle werden gegen exakt dieselben Eingabedaten getestet. Das garantiert faire, reproduzierbare Ergebnisse, die nicht durch Website-Änderungen beeinflusst werden. Aufgaben mit variablen Ausgabeformaten (z. B. Redirect-Chain-Analysen) bewertet ein LLM-as-Judge, der die semantische Korrektheit unabhängig vom Format prüft.

Results Overview

47Modelle getestet

142SEO-Aufgaben · 6 Kategorien

93,6 %Top Score

85,7 %Ø Score aller Modelle

Leaderboard

Spaltenkopf anklicken zum Sortieren. Alle Modelle wurden mit identischen Eingabedaten getestet.

#	Modell	Overall	Technical	On-Page	Structured	Content	Local	Off-Page
1	anthropic/claude-opus-4.8	93,6 %	93,1 %	91,6 %	92,5 %	94,9 %	92,7 %	99,4 %
2	anthropic/claude-opus-4.7	91,8 %	85,9 %	90,9 %	92,5 %	92,5 %	93,8 %	100,0 %
3	evnxt/qwen3-32b-seo-v0.9	91,0 %	87,7 %	96,6 %	98,9 %	84,5 %	84,6 %	90,0 %
4	openai/gpt-5.4	89,5 %	89,1 %	92,0 %	92,5 %	88,8 %	84,0 %	86,6 %
5	deepseek/deepseek-v4-pro	89,5 %	88,5 %	90,5 %	90,3 %	83,9 %	85,3 %	100,0 %
6	~anthropic/claude-fable-latest	89,2 %	89,5 %	90,3 %	89,2 %	85,3 %	83,7 %	100,0 %
7	google/gemini-3.1-flash-lite-preview	89,2 %	89,8 %	90,2 %	86,1 %	88,2 %	90,0 %	93,1 %
8	openai/gpt-5.2-chat	89,1 %	88,7 %	94,5 %	90,3 %	85,2 %	85,0 %	86,9 %
9	qwen/qwen3.6-plus	88,9 %	93,5 %	91,6 %	89,8 %	84,5 %	82,7 %	86,3 %
10	gpt-5.5	88,8 %	92,7 %	92,4 %	90,3 %	87,7 %	78,7 %	83,8 %
11	google/gemma-4-26b-a4b-it	88,7 %	89,7 %	94,3 %	91,8 %	83,5 %	75,3 %	90,9 %
12	deepseek/deepseek-v3.2	88,6 %	90,0 %	91,2 %	95,1 %	87,4 %	83,8 %	75,0 %
13	google/gemma-4-31b-it	88,5 %	88,1 %	94,8 %	87,5 %	85,0 %	81,6 %	91,6 %
14	gpt-4o	88,5 %	90,5 %	91,6 %	88,3 %	84,3 %	84,1 %	90,0 %
15	anthropic/claude-sonnet-4.6	88,3 %	92,7 %	84,5 %	91,8 %	89,4 %	79,0 %	87,5 %
16	deepseek/deepseek-v4-flash	88,0 %	81,7 %	87,8 %	90,3 %	93,1 %	85,9 %	89,7 %
17	openai/gpt-5.3-chat	87,9 %	88,7 %	90,5 %	89,2 %	90,0 %	84,3 %	79,4 %
18	nvidia/nemotron-3-ultra-550b-a55b	87,7 %	83,7 %	91,9 %	90,3 %	83,6 %	83,7 %	91,9 %
19	mistralai/mistral-large	87,6 %	92,4 %	99,0 %	87,2 %	76,8 %	81,4 %	80,6 %
20	google/gemini-3.5-flash	87,5 %	88,5 %	89,8 %	89,7 %	82,0 %	80,3 %	91,6 %
21	gpt-5.5-pro-2026-04-23	87,4 %	92,3 %	86,2 %	92,5 %	84,9 %	78,0 %	83,1 %
22	xiaomi/mimo-v2-pro	87,0 %	86,7 %	91,4 %	90,3 %	85,1 %	84,3 %	78,1 %
23	z-ai/glm-5.1	86,9 %	88,5 %	88,4 %	90,3 %	85,1 %	77,3 %	85,9 %
24	minimax/minimax-m3	86,9 %	90,3 %	91,4 %	89,2 %	82,2 %	86,6 %	75,0 %
25	moonshotai/kimi-k2.6	86,6 %	89,9 %	88,8 %	92,0 %	79,3 %	75,1 %	87,5 %
26	moonshotai/kimi-k2.5	86,6 %	88,1 %	92,2 %	89,2 %	86,3 %	78,6 %	76,3 %
27	x-ai/grok-4.20	86,3 %	90,7 %	79,3 %	95,8 %	85,7 %	75,7 %	83,8 %
28	qwen/qwen3.7-max	86,0 %	89,7 %	89,7 %	88,6 %	76,2 %	80,3 %	87,5 %
29	anthropic/claude-opus-4.6	85,9 %	85,9 %	81,6 %	92,9 %	88,3 %	72,7 %	89,1 %
30	xiaomi/mimo-v2.5-pro	85,8 %	88,1 %	91,0 %	83,9 %	82,0 %	91,3 %	76,3 %
31	openai/gpt-oss-120b	85,5 %	86,1 %	87,1 %	90,3 %	78,3 %	80,4 %	86,9 %
32	minimax/minimax-m2.7	84,5 %	85,5 %	89,9 %	87,1 %	81,7 %	71,0 %	84,4 %
33	mistralai/mistral-small-2603	84,0 %	79,5 %	88,8 %	92,9 %	78,0 %	78,4 %	80,0 %
34	openrouter/elephant-alpha	83,9 %	90,4 %	89,5 %	89,4 %	76,4 %	85,1 %	61,3 %
35	qwen3-32b-seo-v2-test	83,7 %	86,4 %	90,7 %	92,6 %	79,5 %	61,0 %	77,2 %
36	nvidia/nemotron-3-super-120b-a12b	83,1 %	83,0 %	91,2 %	89,4 %	74,1 %	79,2 %	73,1 %
37	qwen3-32b-seo-v4-test	82,6 %	83,4 %	84,8 %	92,6 %	81,3 %	60,7 %	81,6 %
38	seo-lora	82,2 %	81,6 %	85,9 %	92,6 %	80,8 %	66,0 %	74,1 %
39	qwen3-32b-seo-v5-test	81,9 %	87,7 %	85,7 %	89,4 %	77,0 %	64,3 %	74,7 %
40	qwen3-14b-seo-v02-repair	81,8 %	76,9 %	96,4 %	92,6 %	78,8 %	60,7 %	68,4 %
41	qwen3-14b-seo-v04-conservative-repair	81,2 %	76,9 %	97,1 %	93,1 %	77,5 %	56,3 %	66,3 %
42	qwen/qwen3.5-27b	80,9 %	82,0 %	86,2 %	67,7 %	71,7 %	90,8 %	99,1 %
43	qwen3-32b-seo-v3-test	80,9 %	76,5 %	85,5 %	96,9 %	77,0 %	70,1 %	66,9 %
44	qwen3-14b-seo-v01-test	79,3 %	76,0 %	94,1 %	86,6 %	71,5 %	75,1 %	61,6 %
45	qwen/qwen3-14b	75,6 %	80,2 %	85,2 %	68,9 %	63,0 %	75,3 %	80,9 %
46	gpt-3.5-turbo-16k	75,3 %	77,3 %	75,2 %	75,8 %	77,7 %	76,3 %	66,6 %
47	tencent/hy3-preview	74,3 %	72,1 %	74,8 %	79,0 %	68,9 %	79,3 %	71,3 %

Stand der Daten: statischer Snapshot des SEO LLM Benchmark · Built by wojcik.