Multi-Agent-System aufbauen mit Claude Code: Architektur, Kosten, Fehler (2026)

Was ist ein Multi-Agent-System?

Ein Multi-Agent-System besteht aus mehreren KI-Agents, die koordiniert an gemeinsamen Zielen arbeiten. Jeder Agent hat seinen eigenen Kontext, seine eigene Aufgabe und — in gut konzipierten Systemen — seine eigene Rolle in einer Hierarchie.

Das klingt nach Science-Fiction, ist aber konkrete Software-Architektur: Statt einem langen monolithischen Prompt orchestriert ein Orchestrator-Agent mehrere Subagents, die spezialisiert und parallel arbeiten. Die Koordination läuft über Dateisystem, Nachrichten oder geteilte Datenbanken.

Praxis-Note: Wir betreiben seit Anfang 2026 ein System mit 20+ Claude Code Agents — CEO, Department Heads, Group Leads und Worker-Agents, die rund um die Uhr parallel Content erstellen, Code deployen und Reportings schreiben. Alles in diesem Artikel basiert auf echten Produktionserfahrungen, nicht auf Theorie.

Der entscheidende Unterschied zum einzelnen Agenten: Ein einzelner Agent arbeitet linear und sequenziell. Er hat ein Kontext-Fenster, eine Aufmerksamkeit, einen Arbeitsfluss. Ein Multi-Agent-System verteilt Aufgaben auf mehrere parallele Threads — ähnlich wie ein Entwicklerteam gegenüber einem Einzelentwickler.

Wann lohnt sich ein Multi-Agent-System?

Die ehrliche Antwort: Nicht immer. Ein zweiter Agent bedeutet mehr Overhead, mehr Koordinationsaufwand und mehr potenzielle Fehlerquellen. Erst wenn diese drei Bedingungen erfüllt sind, macht ein Multi-Agent-System Sinn:

1. Tasks können parallel laufen

Wenn Schritt B auf Schritt A warten muss, hilft ein zweiter Agent wenig. Aber wenn du gleichzeitig Recherche betreiben, Code schreiben und Tests ausführen kannst — dann ist Parallelisierung der stärkste Hebel. Unser Video-Pipeline-System zum Beispiel läuft so: Agent 1 transkribiert YouTube-Videos, Agent 2 extrahiert Insights, Agent 3 generiert Social Posts — alles gleichzeitig.

2. Verschiedene Expertise-Bereiche sind nötig

Ein Agent der gleichzeitig Senior Developer, SEO-Experte, Buchhalter und Social Media Manager sein soll, wird in allen Bereichen mittelmäßig. Spezialisierte Agents mit fokussierten Rollen — und entsprechend fokussierten CLAUDE.md-Anweisungen — liefern konsistent bessere Outputs.

3. Ein Agent hätte zu viel Kontext

Wenn die Aufgabe 200.000+ Tokens an Kontext erfordern würde — Codebasis lesen, Docs durchsuchen, externe APIs abfragen, Ergebnis formatieren — dann schlägt das Kontext-Fenster an. Mit mehreren Agents verteilt sich die Last: Jeder bekommt nur das, was er braucht.

Szenario	Einzelner Agent	Multi-Agent
Einzelner gut definierter Task	Optimal	Overhead
5+ parallele unabhängige Tasks	Sequenziell, langsam	Parallel, schnell
Spezialisiertes Domainwissen nötig	Generalist	Spezialist pro Bereich
Großes Codebase-Refactoring	Kontext-Limit	Aufgabe aufteilen
Einfacher Bugfix	Direkt & schnell	Nicht nötig

Die 3 Haupt-Architekturen

a) Hierarchisch: CEO → Manager → Worker

Das Modell das wir selbst betreiben. Ein Orchestrator-Agent (CEO) gibt Aufgaben an Department-Heads weiter, die wiederum Worker-Agents koordinieren. Jede Ebene hat klare Verantwortlichkeiten — und die richtigen Modelle (dazu später mehr).

Hierarchische Architektur — Unser Produktions-Setup

CEO Agent (Opus)

ICT Lead (Sonnet)

Strategy Lead (Sonnet)

Ops Lead (Sonnet)

Coder (Haiku)

QA (Haiku)

Content (Haiku)

Research (Haiku)

Deploy (Haiku)

Wann einsetzen: Wenn du eine autonome Organisation bauen willst, die selbstständig Aufgaben priorisiert, delegiert und rapportiert. Die Hierarchie sorgt dafür, dass strategische Entscheidungen beim Orchestrator bleiben, während Worker sich auf Ausführung konzentrieren.

Unser echtes Beispiel: Der CEO-Agent bekommt morgens ein Briefing, plant den Tag, erstellt Tasks in Notion und delegiert sie an die Department Heads. ICT bekommt alle Code-Tasks, Strategy schreibt Blogs und Posts, Operations kümmert sich um Buchhaltung und E-Mail. Kein manuelles Eingreifen nötig.

b) Pipeline: Agent A → Agent B → Agent C

Jeder Agent verarbeitet den Output des vorherigen und gibt ihn weiter. Ideal für klar definierte Workflows mit sequenziellen Schritten.

Pipeline-Architektur — Video-Content-Pipeline

Crawler Agent

YouTube URLs finden

→

Transcription Agent

yt-dlp + Whisper

→

Insight Agent

Ideen extrahieren

→

Content Agent

Posts generieren

→

Publisher Agent

Social Media

Wann einsetzen: Für wiederholbare, strukturierte Prozesse — Content-Pipelines, Datenverarbeitung, Build-Automatisierung. Jeder Agent hat exakt eine Verantwortung. Fehler sind leicht zu lokalisieren: Wo bricht die Pipeline?

Vorteil gegenüber Hierarchie: Weniger Overhead. Kein Orchestrator-Agent nötig der Aufgaben plant — der Workflow ist fest kodiert.

c) Peer-to-Peer: Agents koordinieren direkt

Agents schreiben sich gegenseitig Nachrichten und koordinieren ohne zentralen Koordinator. In der Praxis selten optimal — aber für bestimmte Review- und Feedback-Loops nützlich.

Peer-to-Peer — Code Review Loop

Coder Agent
schreibt Code

Shared Filesystem
/work/output/

Reviewer Agent
gibt Feedback

Agents lesen und schreiben in geteilte Verzeichnisse — kein zentraler Orchestrator nötig

Wann einsetzen: Peer-Reviews, parallele Drafts mit anschließendem Merge, oder wenn zwei spezialisierte Agents iterativ zusammenarbeiten sollen. Für große Systeme zu unstrukturiert — besser als Schicht in einer Hierarchie einbauen.

Praktische Implementierung mit Claude Code

Agent() Tool: Subagents spawnen

Das Agent() Tool in Claude Code ist die Grundlage jeder Multi-Agent-Architektur. Ein Orchestrator-Agent startet damit Subagents:

# Orchestrator spawnt einen Worker-Subagent
Agent(
    subagent_type="general-purpose",  # oder "coder", "researcher"
    name="content-writer-1",
    prompt="""
Du bist ein Content-Writer für agentic-movers.com.

Aufgabe: Schreibe einen LinkedIn-Post über das Thema:
"Wie wir 20 KI-Agents koordinieren"

Anforderungen:
- 150-200 Wörter
- Persönlicher Ton, kein KI-Hype
- Endet mit einem Call-to-Action
- Speichere Output: /work/linkedin-post.md

Commit nach Fertigstellung mit: [content] linkedin-post: fertig
""",
    mode="bypassPermissions",  # Workers nie unterbrechen
    run_in_background=True    # Parallel ausführen
)

Wichtig: Workers immer mit mode="bypassPermissions" spawnen. Sonst pausiert der Agent bei jeder Datei-Operation und fragt nach Erlaubnis — das bricht jede autonome Pipeline.

SendMessage: Kommunikation zwischen Agents

Für synchrone Kommunikation zwischen Agents auf gleicher Ebene — etwa wenn ein Department-Head einem anderen eine dringende Information weitergeben muss:

# Department-Head sendet Nachricht an Kollegen
SendMessage(
    recipient="strategy-lead",
    content="""[ICT → STRATEGY]
Blog-Post Deploy fertig: /blog/neuer-post-2026.html
HTTP 200 bestätigt. Bitte Social Posts triggern."""
)

In der Praxis nutzen wir SendMessage hauptsächlich für Bottom-Up Reporting: Worker melden Ergebnisse an ihren Lead, Lead meldet an den CEO.

Shared Filesystem: wie Agents Daten austauschen

Das einfachste und zuverlässigste Kommunikationsmedium: eine gemeinsame Verzeichnisstruktur. Agent A schreibt, Agent B liest — kein Protokoll nötig.

/work/
  inbox/         # Neue Tasks als JSON-Files
  processing/    # Agent hat Task übernommen
  output/        # Fertige Outputs
  errors/        # Fehlgeschlagene Tasks
  checkpoints/   # Crash-Recovery-Snapshots

Jeder Agent hat Lese-Zugriff auf /work/output/ der anderen. Kein Netzwerk, keine Message Queue nötig — ein simples Dateisystem reicht für 95% aller Use-Cases.

CLAUDE.md Hierarchie: Root → Department → Group → Worker

Die CLAUDE.md-Dateien sind das Rückgrat jeder Multi-Agent-Architektur. Claude Code lädt sie automatisch von der Root bis zum aktuellen Verzeichnis. Das ermöglicht vererbte Regeln:

/home/claude/clawd/CLAUDE.md        # Globale Unternehmensregeln
/home/claude/clawd/01_ICT/CLAUDE.md # ICT-spezifische Regeln
/home/claude/clawd/01_ICT/projects/myapp/CLAUDE.md # Projekt-Regeln

Ein Worker-Agent der in /01_ICT/projects/myapp/ arbeitet, kennt automatisch alle drei Ebenen. Globale Sicherheitsregeln, Department-Standards und Projekt-Spezifika — alles im Kontext, ohne explizit übergeben zu werden.

Best Practice: Root-CLAUDE.md enthält nur Universalregeln (Sicherheit, Commit-Format, Anti-Quickfix-Regel). Department-CLAUDE.md enthält Rollen, Hierarchie und Eskalationspfade. Projekt-CLAUDE.md enthält konkrete Tech-Stack-Entscheidungen und Konventionen.

Multi-Agent-Systeme in der Praxis bauen

In unserem Kurs baust du dein erstes vollständiges Multi-Agent-System: Hierarchische Architektur mit CEO, Department Heads und Worker-Agents — deployed auf eigenem Server, 24/7 autonom.

14 Tage kostenlos testen →

Kosten-Optimierung: Model-Mix Strategie

Das ist der Hebel den die meisten beim Aufbau eines Multi-Agent-Systems unterschätzen: Du kannst nicht alle Agents auf dem teuersten Modell laufen lassen. Aber du musst es auch nicht.

Die Model-Mix Strategie

Nicht jede Rolle braucht die gleiche Intelligenz. Ein Worker der JSON-Dateien umbenennt braucht kein strategisches Reasoning. Ein CEO-Agent der Unternehmensprioritäten setzt, schon:

Ebene	Modell	Warum	Kosten/1M Tokens
CEO / Orchestrator	`claude-opus-4`	Strategische Entscheidungen, komplexe Planung	~€15 Input / €75 Output
Department Heads / Leads	`claude-sonnet-4`	Koordination, mittlere Komplexität	~€3 Input / €15 Output
Worker / Bulk Tasks	`claude-haiku-3.5`	Ausführung, repetitive Tasks	~€0.80 Input / €4 Output

Konkrete Beispiel-Rechnung: 8 Stunden Betrieb

Unser System betreibt täglich ca. 8 Stunden aktive Agenten-Arbeit. Hier der Kostenvergleich All-Opus vs. gemischtes System:

Konfiguration	Agents	Tokens/Tag (geschätzt)	Kosten/Tag	Kosten/Monat
Alles Opus	20x Opus	~5M Tokens	~€40–80	~€1.200–2.400
Alles Sonnet	20x Sonnet	~5M Tokens	~€8–16	~€240–480
Model-Mix (unser Setup)	2x Opus, 5x Sonnet, 13x Haiku	~5M Tokens	~€3–8	~€90–240

Der Faktor 10 kommt nicht nur vom günstigeren Modell — er kommt auch davon, dass Workers fokussierte, kurze Prompts bekommen. Kein unnötiger Kontext, kein langer Gedanken-Output nötig. Haiku für "Schreibe diese Datei um" ist vollkommen ausreichend.

Praxis-Tipp: Teste neue Worker-Tasks zuerst mit Sonnet, dann mit Haiku. Wenn die Qualität akzeptabel ist, wechsle dauerhaft auf Haiku. Bei 80% der reinen Ausführungs-Tasks ist der Unterschied minimal.

Häufige Fehler beim Aufbau

Fehler 1: Zu viele Agents für zu kleine Tasks

Der Overhead eines Subagents ist real: Spawn-Zeit, Kontext-Aufbau, Kommunikation, Monitoring. Für einen Task der 30 Sekunden dauern würde, bringt ein Subagent keinen Nutzen.

# FALSCH: Subagent für trivialen Task
Agent(prompt="Erstelle einen Ordner /work/output")

# RICHTIG: Direkt ausführen
Bash(command="mkdir -p /work/output")

Faustregel: Ein Subagent lohnt sich ab etwa 5 Minuten eigenständiger Arbeit. Alles darunter direkt ausführen.

Fehler 2: Kein klares Reporting-Schema

Worker schreiben stundenlang Outputs — aber niemand weiß was fertig ist, was läuft, was gescheitert ist. Ergebnisse verschwinden im Nirvana.

# Jeder Worker muss am Ende melden:
SendMessage(recipient="department-lead", content="""
[WORKER → LEAD] ERGEBNIS: Was wurde gemacht
Details: Welche Datei, welcher Output, eventuelle Probleme
Status: OK / FAIL
Artefakt: /work/output/dateiname.ext
""")

Ohne Bottom-Up-Reporting hat der Orchestrator kein vollständiges Bild. Er kann nicht skalieren, nicht priorisieren, nicht eskalieren.

Fehler 3: Keine Crash-Sicherheit

Ein Subagent stirbt nach 45 Minuten Arbeit — ohne Checkpoints ist die gesamte Arbeit verloren. Die Regel: Commit nach jedem logischen Schritt.

# In der CLAUDE.md jedes Workers:
## Crash-Sicherheit (PFLICHT)
- Nach jeder abgeschlossenen Dateiänderung sofort committen
- Format: [worker] step-N: kurze Beschreibung
- Nie mehr als 3 Dateiänderungen ohne Commit
- Bei Fehler: Checkpoint in /work/checkpoints/ schreiben

Mit konsequentem Commit-Verhalten ist ein abgestürzter Agent nur ein kleines Ärgernis — nicht ein Datenverlust.

Fehler 4: Agents die sich gegenseitig blockieren (Deadlock)

Agent A wartet auf Output von Agent B — der wiederum auf Agent A wartet. Klassischer Deadlock. Oft entsteht er durch zirkuläre Abhängigkeiten die in der Planungsphase nicht auffielen.

# PROBLEM: Zirkuläre Abhängigkeit
# Agent A: "Ich warte auf den Report von Agent B"
# Agent B: "Ich warte auf die Daten von Agent A"

# LÖSUNG: Timeout + Eskalation in CLAUDE.md
## Deadlock-Schutz
- Wenn nach 10 Minuten kein benötigter Input vorhanden:
  1. Mit verfügbaren Daten fortfahren (Partial Output)
  2. Lead benachrichtigen: "Warte auf X, arbeite mit Y weiter"
  3. NIEMALS einfach blockiert bleiben

Anti-Pattern: "Ich warte auf Agent X" ist verboten. Jeder Agent muss entweder mit dem Vorhandenen arbeiten, den Blocker eskalieren oder einen Partial Output produzieren. Passives Warten killt die gesamte Pipeline.

Wann aufhören zu skalieren (Diminishing Returns)

Mehr Agents bedeutet nicht automatisch mehr Output. Ab einem gewissen Punkt übersteigt der Koordinationsaufwand den Nutzen.

Signale dass du zu weit skaliert hast

Der Orchestrator verbringt mehr Zeit mit Task-Management als mit strategischen Entscheidungen
Agents warten häufiger als sie arbeiten (Bottleneck-Analyse nötig)
Reporting-Volumen überfordert den Lead-Agent — er kann Ergebnisse nicht mehr verarbeiten
Kosten steigen ohne proportionalen Output-Anstieg
Fehlerquoten steigen — zu viele Agents, zu wenig Oversight

Die pragmatische Skalierungs-Regel

Füge einen neuen Agent nur hinzu wenn:

Ein bestehender Agent konsistent überlastet ist (>80% Auslastung)
Die Aufgabe klar abgrenzbar ist (eigene CLAUDE.md mit fokussierter Rolle möglich)
Der neue Agent unabhängig vom Hauptpfad laufen kann (run_in_background=True)

Unser eigenes System ist bei ~20 Agents stabil. Nicht weil 21 nicht möglich wäre — sondern weil 20 ausreichen um alles zu erledigen was wir erledigen wollen. Skalierung um der Skalierung willen ist Ressourcenverschwendung.

Faustregel aus der Praxis: Starte mit 3 Agents (Orchestrator, 1 Specialist, 1 Worker). Füge nach Bedarf hinzu. Niemals das System auf Vorrat aufbauen — du weißt noch nicht welche Bottlenecks auftauchen.

Zusammenfassung

Ein Multi-Agent-System lohnt sich wenn Tasks parallel laufen können, wenn verschiedene Expertise-Bereiche nötig sind, oder wenn ein einzelner Agent das Kontext-Limit sprengen würde. Für alles andere ist ein einzelner Agent oft die bessere Wahl.

Die wichtigsten Prinzipien für den Aufbau:

Architektur wählen: Hierarchisch für autonome Organisationen, Pipeline für repetitive Workflows, Peer-to-Peer für Review-Loops
Model-Mix: Opus für Strategie, Sonnet für Koordination, Haiku für Ausführung — spart 90% Kosten
Shared Filesystem: Einfachstes und zuverlässigstes Kommunikationsmedium für Agent-Outputs
CLAUDE.md Hierarchie: Vererbte Regeln von Root bis Worker — kein redundanter Kontext nötig
Crash-Sicherheit: Commit nach jedem Schritt — ein abgestürzter Agent sollte höchstens 5 Minuten Arbeit kosten
Kein Deadlock: Passives Warten ist verboten — immer eskalieren oder mit Partial Output weitermachen

Dein eigenes Multi-Agent-System aufbauen

Schritt für Schritt von 0 zur laufenden Hierarchie — mit Vorlagen für CLAUDE.md, Worker-Prompts und Crash-Recovery. Inklusive unserem echten Produktions-Setup als Referenz.

14 Tage kostenlos testen →

Multi-Agent-System aufbauen mit Claude Code: Architektur, Kosten und die häufigsten Fehler

Inhalt

Was ist ein Multi-Agent-System?

Wann lohnt sich ein Multi-Agent-System?

1. Tasks können parallel laufen

2. Verschiedene Expertise-Bereiche sind nötig

3. Ein Agent hätte zu viel Kontext

Die 3 Haupt-Architekturen

a) Hierarchisch: CEO → Manager → Worker

b) Pipeline: Agent A → Agent B → Agent C

c) Peer-to-Peer: Agents koordinieren direkt

Praktische Implementierung mit Claude Code

Agent() Tool: Subagents spawnen

SendMessage: Kommunikation zwischen Agents

Shared Filesystem: wie Agents Daten austauschen

CLAUDE.md Hierarchie: Root → Department → Group → Worker

Multi-Agent-Systeme in der Praxis bauen

Kosten-Optimierung: Model-Mix Strategie

Die Model-Mix Strategie

Konkrete Beispiel-Rechnung: 8 Stunden Betrieb

Häufige Fehler beim Aufbau

Fehler 1: Zu viele Agents für zu kleine Tasks

Fehler 2: Kein klares Reporting-Schema

Fehler 3: Keine Crash-Sicherheit

Fehler 4: Agents die sich gegenseitig blockieren (Deadlock)

Wann aufhören zu skalieren (Diminishing Returns)

Signale dass du zu weit skaliert hast

Die pragmatische Skalierungs-Regel

Zusammenfassung

Dein eigenes Multi-Agent-System aufbauen

Inhalt

Was ist ein Multi-Agent-System?

Wann lohnt sich ein Multi-Agent-System?

1. Tasks können parallel laufen

2. Verschiedene Expertise-Bereiche sind nötig

3. Ein Agent hätte zu viel Kontext

Die 3 Haupt-Architekturen

a) Hierarchisch: CEO → Manager → Worker

b) Pipeline: Agent A → Agent B → Agent C

c) Peer-to-Peer: Agents koordinieren direkt

Praktische Implementierung mit Claude Code

Agent() Tool: Subagents spawnen

SendMessage: Kommunikation zwischen Agents

Shared Filesystem: wie Agents Daten austauschen

CLAUDE.md Hierarchie: Root → Department → Group → Worker

Multi-Agent-Systeme in der Praxis bauen

Kosten-Optimierung: Model-Mix Strategie

Die Model-Mix Strategie

Konkrete Beispiel-Rechnung: 8 Stunden Betrieb

Häufige Fehler beim Aufbau

Fehler 1: Zu viele Agents für zu kleine Tasks

Fehler 2: Kein klares Reporting-Schema

Fehler 3: Keine Crash-Sicherheit

Fehler 4: Agents die sich gegenseitig blockieren (Deadlock)

Wann aufhören zu skalieren (Diminishing Returns)

Signale dass du zu weit skaliert hast

Die pragmatische Skalierungs-Regel

Zusammenfassung

Verwandte Artikel

Dein eigenes Multi-Agent-System aufbauen