Auf dieser Seite

In einem Gastartikel für das deutsche Fachmagazin BigData-Insider erklärt unser Geschäftsführer Christopher Helm die neuen Möglichkeiten und Herausforderungen modularer KI-Systeme.

Weitere Artikel zu diesem Thema finden Sie in unserem Blog.

Wenn neue Technologien eingeführt werden, dauert es oft nicht lange, bis die neuen Grenzen des Möglichen ausgependelt sind. Bei großen Sprachmodellen (LLMs) ist dieser Punkt erreicht: Auch wenn sie in vielen Fällen beeindruckende Ergebnisse bei der Sprachverarbeitung erzielen, sind Implementierung und Wartung gerade bei komplexen Fachapplikationen noch zu ineffizient. Gleichzeitig fehlt es an Spezialisierung und Wiederverwendbarkeit. Doch dieses scheinbare Dilemma hat eine Lösung.

Forscher der UC Berkeley und Stanford haben kürzlich darauf hingewiesen, dass Sprachmodelle zunehmend in modulare KI-Systeme aus verschiedenen Komponenten integriert werden, die dieser Herausforderung deutlich besser gewachsen sind. In vielerlei Hinsicht übertreffen sie die bisher verwendeten monolithischen Modelle. Der modulare Ansatz spielt auch in unserer eigenen KI-Entwicklung eine wichtige Rolle, Grund genug, einige Einblicke mit der Fachpresse zu teilen.

Die wichtigsten Erkenntnisse

  • Modulare KI-Systeme bestehen aus Sprachmodellen, einfacheren Modellen und weiteren Komponenten, häufig in Sequenzen mit Retrieval Augmented Generation (RAG) und Multi-Step-Chains
  • Der Output einzelner Komponenten dient als Zwischenergebnis und als Eingabe für nachfolgende Schritte
  • Dadurch lassen sich umfangreiche Fachaufgaben in kleinere Einheiten aufteilen
  • Diese sind leichter und effizienter zu verwalten. Auch Fehlersuche, Erklärbarkeit und Wartbarkeit werden dadurch vereinfacht.
  • Viele der einzelnen Schritte finden sich auch in anderen Prozessen wieder. Die entsprechenden Komponenten können dort direkt wiederverwendet werden.
  • Spezialisierung und generelle Anwendbarkeit gehen damit Hand in Hand.
  • In vielen Fällen spart dies Unternehmen aufwendige Trainingsprozesse und Nachjustierungen.
  • Aktuelle Entwicklungen betreffen vor allem die Herausforderungen bei der Datenintegration, der Kommunikation zwischen den Modulen und der praktischen Anwendbarkeit dieser noch jungen Technologie.

Von Monolith zu Modul: Was sich in der Praxis ändert

Der Wechsel von monolithischer zu modularer KI ist nicht nur eine architektonische Frage. Er verändert konkret, wie Teams KI-Systeme entwickeln, warten und erweitern.

Monolithische Pipeline

  • Ein einzelnes Modell übernimmt Intake, Reasoning, Extraktion und Antwortgenerierung
  • Fehler sind schwer nachvollziehbar
  • Debugging erfordert das erneute Durchlaufen der gesamten Pipeline
  • Zwischenergebnisse sind nicht zur Inspektion vorgesehen

Modulares System

  • Jede Komponente hat einen definierten Input, Output und Verantwortungsbereich
  • Komponenten können unabhängig voneinander getestet, ersetzt und überwacht werden
  • Retrieval, Klassifikation und Generierung sind separate Module
  • Sicher im Produktionseinsatz, wo Fehler Kosten verursachen

In einer monolithischen LLM-Pipeline übernimmt ein einzelnes Modell Intake, Reasoning, Extraktion und Antwortgenerierung. Wenn es scheitert, besonders bei Randfällen außerhalb seiner Trainingsverteilung, ist der Fehler schwer nachvollziehbar. Und es wird scheitern. Das Debugging erfordert das erneute Durchlaufen der gesamten Pipeline und die Untersuchung von Zwischenergebnissen, die nie zur Inspektion vorgesehen waren.

In einem modularen System hat jede Komponente einen definierten Input, Output und Verantwortungsbereich. Ein Retrieval-Modul ruft relevanten Kontext ab. Ein Klassifikationsmodul leitet die Anfrage weiter. Ein Generierungsmodul erstellt die Antwort. Jedes kann unabhängig getestet, ersetzt und überwacht werden. Diese Trennung ist kein Komfortvorteil. Sie ist das, was KI-Systeme in Produktionsumgebungen, wo Fehler Kosten verursachen, sicher betreibbar macht.

Die Rolle von RAG und Multi-Step-Chains

Zwei Architekturmuster dominieren aktuelle modulare KI-Implementierungen:

Retrieval-Augmented Generation (RAG) verbindet ein LLM mit einer externen Wissensbasis, typischerweise einer Vektordatenbank mit Fachdokumenten. Statt sich ausschließlich auf die Trainingsdaten des Modells zu stützen, ruft das System zur Inferenzzeit relevante Dokumentausschnitte ab und übergibt sie als Kontext. Das Ergebnis: fachlich präzise Antworten ohne kostspielige Feinabstimmung des gesamten Modells. Für dokumentenintensive Branchen wie Versicherungen, Recht und Finanzen ist RAG heute die Grundlage jedes ernsthaften Wissenssystems.

Multi-Step-Chains zerlegen komplexe Aufgaben in sequenzielle Teilaufgaben, die jeweils vom geeignetsten Modell oder Werkzeug bearbeitet werden. Ein Due-Diligence-Workflow könnte so ablaufen: Dokumentenerfassung, Entitätsextraktion, Querverweischeck, Risikomarkierung, Zusammenfassungserstellung. Jeder Schritt nutzt eine spezialisierte Komponente. Die Kette als Ganzes liefert Ergebnisse, die kein einzelnes Modell zuverlässig erzeugen könnte.

Beide Muster profitieren vom Modularitätsprinzip: Komponenten können aktualisiert, ausgetauscht oder wiederverwendet werden, ohne den Rest der Pipeline zu berühren.

Wiederverwendbarkeit als strategischer Vorteil

Einer der am wenigsten diskutierten Vorteile modularer KI ist die Wiederverwendung von Komponenten. Ein Entitätsextraktionsmodul, das für Lieferantenverträge trainiert und validiert wurde, kann mit minimalem Anpassungsaufwand für Kundenvereinbarungen, Versicherungspolicen und regulatorische Einreichungen wiederverwendet werden. Dasselbe gilt für Klassifikationsmodelle, Zusammenfassungsmodule und Output-Formatter.

Diese Wiederverwendbarkeit verändert die Wirtschaftlichkeit von KI-Implementierungen grundlegend. Statt für jeden Anwendungsfall ein neues Modell zu trainieren, einschließlich Datenbeschriftung, Rechenleistung und Validierungskosten, bauen Organisationen eine Bibliothek geprüfter Komponenten auf und kombinieren sie zu anwendungsspezifischen Pipelines. Die Grenzkosten des zweiten Anwendungsfalls betragen nur einen Bruchteil des ersten.

Laut der Berkeley-Stanford-Studie aus dem ursprünglichen BigData-Insider-Artikel berichten Teams, die mit Compound-AI-Systemen arbeiten, von deutlich kürzeren Iterationszeiten bei neuen Aufgaben im Vergleich zur monolithischen Modellentwicklung. Der Hauptgrund: Die grundlegenden Komponenten sind bereits validiert und im Produktionseinsatz.

Praxishinweise für Implementierungsteams

Organisationen, die mit der modularen KI-Entwicklung beginnen, sollten drei strukturelle Entscheidungen frühzeitig treffen:

Definieren Sie den Komponentenvertrag. Jedes Modul braucht eine klare Spezifikation: welche Eingaben es akzeptiert, welche Ausgaben es garantiert und unter welchen Bedingungen es kontrolliert fehlschlagen soll, statt ein minderwertiges Ergebnis zu liefern. Ohne diese Definition bleibt die "Modularität" theoretisch, und Komponenten werden durch implizite Annahmen eng aneinandergekoppelt.

Bauen Sie Beobachtbarkeit von Anfang an ein. Protokollieren Sie Zwischenergebnisse an jeder Modulgrenze. Wenn eine Pipeline ein unerwartetes Ergebnis liefert, müssen Sie wissen, welche Komponente den Fehler eingeführt hat. Beobachtbarkeit ist kein Monitoring-Zusatz. Sie ist eine Designanforderung.

Planen Sie die Orchestrierungsschicht. Etwas muss die Abfolge der Modulaufrufe koordinieren, Fehler behandeln, Wiederholungen verwalten und zwischen alternativen Pfaden weiterleiten. Frameworks wie LangChain, LlamaIndex und eigene Orchestratoren haben jeweils Vor- und Nachteile. Die richtige Wahl hängt von Ihrer bestehenden Infrastruktur und der Expertise Ihres Teams ab, nicht von Anbieter-Marketing.

Aktuelle Grenzen und offene Herausforderungen

Der BigData-Insider-Artikel weist zu Recht darauf hin, dass praktische Herausforderungen bestehen. Drei verdienen besondere Aufmerksamkeit für Teams, die modulare KI derzeit evaluieren:

Datenintegration zwischen Modulen. Komponenten erwarten Daten oft in unterschiedlichen Formaten. Ein Retrieval-Modul liefert Textausschnitte; ein Klassifikationsmodul erwartet ein kategoriales Schema; ein Generierungsmodul benötigt einen formatierten Prompt. Der Aufbau robuster Datentransformationsschichten zwischen Komponenten verursacht Engineering-Aufwand, der in frühen Prototypen leicht unterschätzt wird.

Latenzakkumulation. Jedes Modul fügt Inferenzzeit hinzu. Eine fünfstufige Chain, bei der jedes Modul 800 ms benötigt, produziert eine Ende-zu-Ende-Antwortzeit von 4 Sekunden. Für Stapelverarbeitung akzeptabel, für interaktive Anwendungen problematisch. Das Latenzbudget muss beim Architekturdesign festgelegt werden, nicht nach dem Deployment.

Evaluierungskomplexität. Ein monolithisches Modell zu testen ist unkompliziert: Eingaben einspeisen, Ausgaben messen. Eine modulare Pipeline zu testen erfordert die Bewertung jeder Komponente einzeln und der gesamten Pipeline als Ganzes. Regressionstests bei Komponentenaktualisierungen erhöhen die Komplexität weiter. Teams, die auf strukturierte Evaluierungsrahmen verzichten, entdecken dies auf die harte Tour, wenn ein Komponentenupdate ein nachgelagertes Modul in der Produktion beeinträchtigt.

Das sind Engineering-Probleme mit bekannten Lösungen, keine grundlegenden Hindernisse. Sie erfordern jedoch sorgfältige Planung. Organisationen, die modulare KI als Plug-and-Play-Technologie betrachten, werden damit unvorbereitet konfrontiert.

Über BigData-Insider

Das Fachmagazin richtet sich in erster Linie an IT-Entscheidungsträger, Projektmanager, Geschäftsführer und alle, die sich mit künstlicher Intelligenz und Big Data befassen. Es behandelt relevante Themen rund um Datenverarbeitung, Infrastruktur und Industrie 4.0 in Theorie und Praxis. Das Portal gehört seit Jahren zu den wichtigsten Informationsquellen zu aktuellen Aspekten der KI-Entwicklung und -Anwendung.