← Zurück zur Übersicht

Wissensschätze heben — ohne Cloud und ohne LLMs

Case Study: NLP-basierte Wissensextraktion aus drei Jahrzehnten Forschungsdokumentation

10.859
Dokumente
30+
Jahre Forschung
9
Themen-Cluster
100%
On-Premise

Zur Einordnung: Warum nicht einfach ein LLM?

Large Language Models und Agentic AI sind faszinierende Technologien — und wir setzen sie dort ein, wo sie den größten Nutzen stiften. Doch der reflexartige Griff zum LLM als ersten Schritt ist in vielen Fällen überflüssig, überteuert und bringt Unwägbarkeiten mit sich: Halluzinationen, fehlende Nachvollziehbarkeit, Datenschutzrisiken durch Cloud-Abhängigkeit, hohe laufende Kosten.

Dieses Projekt zeigt den alternativen Weg: Klassische NLP-Methoden liefern bei strukturierten Aufgaben wie Keyword Extraction, Clustering und Summarisation oft bessere, reproduzierbarere Ergebnisse — bei vollem Datenschutz, voller Kontrolle und ohne laufende API-Kosten. Sie laufen komplett lokal, sind transparent und deterministisch.

Das bedeutet nicht, auf moderne Methoden zu verzichten. Es bedeutet, die richtige Methode für das richtige Problem zu wählen. Jede hier eingesetzte Komponente kann jederzeit um Large Language Models erweitert werden — idealerweise Open Source und lokal betrieben. Die Architektur ist darauf ausgelegt.

BrancheAutomotive / Forschung & Entwicklung
UnternehmensgrößeInternational führender Automobilkonzern
Laufzeit2019, iteratives Vorgehen über mehrere Monate
Datenumfang10.859 Forschungsdokumente aus drei Jahrzehnten
LeistungenNLP-Analyse, Clustering, Keyword Extraction, Prototyp-Entwicklung
ErgebnisInteraktiver „NLP Inspector" zur Wissensexploration, intern weiter ausgebaut

Ausgangssituation

Die Forschungs- und Entwicklungsabteilung eines international führenden Automobilkonzerns verfügt über ein umfangreiches Archiv: mehr als 10.000 Dokumente aus drei Jahrzehnten Forschungsarbeit. Berichte, Studien, technische Dokumentationen — verfasst von unterschiedlichen Autoren, in verschiedenen Formaten, mit heterogener Qualität und Struktur.

Dieses Archiv repräsentierte einen enormen Wissensschatz. Doch es war de facto unzugänglich.

Herausforderung

Die bestehende Suchfunktion war rudimentär und lieferte unzureichende Ergebnisse. Wer ein bestimmtes Thema recherchieren wollte, musste wissen, wonach er sucht — exploratives Entdecken war nicht möglich. Thematische Zusammenhänge zwischen Dokumenten blieben unsichtbar. Manuelle Sichtung des gesamten Archivs war bei dieser Größenordnung ausgeschlossen.

Hinzu kam eine zentrale Randbedingung: Die Dokumente waren vertraulich. Cloud-basierte Lösungen oder externe APIs schieden aus Datenschutzgründen vollständig aus. Alles musste on-premise laufen. Der Kunde konnte aus Sicherheitsgründen keinen direkten Zugriff auf die Produktivdaten gewähren — die Entwicklung erfolgte auf einem repräsentativen Testkorpus.

Die Lösung musste zudem als Self-Service-Tool funktionieren: Nach Projektabschluss sollte der Kunde eigenständig weiterarbeiten können, ohne dauerhafte externe Abhängigkeit.

Zielsetzung

Drei Kernziele definierten das Projekt:

  1. Automatische inhaltliche Erschließung — Jedes Dokument sollte maschinell mit Keywords, Zusammenfassungen und thematischen Zuordnungen angereichert werden
  2. Thematische Exploration — Nutzer sollten das Archiv wie eine Bibliothek durchstreifen können, um Zusammenhänge zwischen Dokumenten zu entdecken, die vorher unsichtbar waren
  3. Eigenständige Weiternutzung — Das Tool musste so gebaut sein, dass der Kunde es ohne externe Hilfe betreiben und erweitern kann

Lösungsansatz

Die Lösung setzte bewusst auf robuste, bewährte Methoden der Computerlinguistik — keine experimentellen Ansätze, keine Cloud-Abhängigkeiten, keine proprietären Modelle. Drei NLP-Kernkomponenten wurden entwickelt und kombiniert:

Keyword Extraction

Drei verschiedene Algorithmen wurden parallel implementiert und verglichen: RAKE (frequenzbasiert, schnell), PMI (unterscheidet dokumentspezifische von allgemeinen Begriffen) und Gensim/TextRank (Ranking nach Informationsgehalt). Die Kombination mehrerer Ansätze lieferte deutlich robustere Ergebnisse als jeder Einzelansatz.

Text Summarisation

Für jedes Dokument wurden automatische Zusammenfassungen in verschiedenen Längen generiert. Der TextRank-Algorithmus identifiziert Sätze, die besonders viele zentrale Konzepte eines Dokuments aufgreifen — domänenunabhängig und ohne Trainingsdaten.

Clustering

K-Means-Clustering auf Basis von TF-IDF-Vektoren gruppierte die über 10.000 Dokumente in thematische Cluster. Silhouette-Scores dienten zur Qualitätsbewertung. Die Visualisierung mittels Dimensionsreduktion (TruncatedSVD) machte die thematische Landschaft des Archivs auf einen Blick erfassbar.

Alle Ergebnisse wurden in einem effizienten Datenformat (Parquet) gespeichert, das schnellen Zugriff und einfache Erweiterung ermöglichte.

Umsetzung

Die Entwicklung folgte einem strikt iterativen Prozess in enger Abstimmung mit dem Kunden. Regelmäßige Zwischen-Reviews stellten sicher, dass die Ergebnisse dem tatsächlichen Bedarf entsprachen und nicht an den Nutzern vorbei entwickelt wurde.

Eine besondere Herausforderung war die Datenqualität: Dokumente aus drei Jahrzehnten brachten unterschiedlichste Formate, Schreibstile und Strukturen mit sich. Manche Dokumente waren sehr kurz und lieferten wenig Kontext für die Algorithmen. Die NLP-Pipeline musste robust genug sein, um auch mit diesen Grenzfällen sinnvolle Ergebnisse zu liefern.

Das zentrale Werkzeug wurde der NLP Inspector — eine interaktive Benutzeroberfläche, die alle Komponenten zusammenführte. Nutzer konnten textbasiert suchen, aber — und das war der eigentliche Durchbruch — sie konnten auch einfach durch die thematische Landschaft navigieren. Wie in einer Bibliothek, in der man durch die Regale streift und dabei auf unerwartete Verbindungen stößt.

Die Cluster-Ansicht zeigte auf einen Blick, welche Themengebiete im Archiv vertreten waren und wie sie zusammenhingen. Ein Klick auf einen Cluster zeigte die zugehörigen Dokumente mit ihren Keywords und Zusammenfassungen. Named-Entity-Erkennung ergänzte die Erschließung um Personen, Organisationen und Orte.

Ergebnisse

Zum ersten Mal war der Wissensschatz aus drei Jahrzehnten Forschung nicht nur archiviert, sondern tatsächlich zugänglich und explorierbar. Kontexte und Zusammenhänge, die vorher nicht sichtbar waren, wurden transparent.

Die 10.859 Dokumente wurden in 9 thematische Cluster eingeteilt, die unterschiedliche Forschungsschwerpunkte abbildeten — von Biodiversität und Klimaforschung über Materialwissenschaften bis zu algorithmischen Methoden.

Zusätzliche Forschungsausgaben konnten vermieden werden, weil auf bestehendem Wissen aufgebaut werden konnte, statt Themen unwissentlich doppelt zu bearbeiten. Das Tool ermöglichte es, vor dem Start neuer Forschungsprojekte systematisch zu prüfen, was zu einem Thema bereits existiert.

Das Projekt wurde nach Abschluss intern vom Kunden weiter ausgebaut — das stärkste Signal für den Wert einer Lösung: Der Kunde investiert eigenes Budget in die Weiterentwicklung.

Was sich verändert hat

Vor dem Projekt: Ein Archiv, das niemand nutzte. Institutionelles Wissen, das mit dem Ausscheiden einzelner Mitarbeitender verloren ging. Recherche, die Tage dauerte — oder schlicht unterblieb, weil niemand wusste, was überhaupt existiert.

Nach dem Projekt: Sekundengenauer Zugriff auf drei Jahrzehnte Forschungsdokumentation. Interne Recherche, die vorher Expertenbefragungen erforderte, wird eigenständig durchgeführt. Vollständig on-premise, vollständig intern betrieben — keine externe Abhängigkeit nach Projektabschluss. Vom Kunden seither eigenständig weiterentwickelt.

Erfolgsfaktoren und Lessons Learned

Die stärkste Wirkung erzielte nicht die algorithmische Raffinesse, sondern die Art, wie Ergebnisse dargestellt wurden. Die Bibliotheks-Metapher — durch Wissen streifen statt gezielt suchen — machte das Tool für Nicht-Techniker intuitiv nutzbar und erzeugte sofort Begeisterung.

Dieses Projekt wurde komplett ohne Cloud-Services, ohne Large Language Models und ohne proprietäre KI-Plattformen realisiert. Es zeigt, dass robuste, klassische NLP-Methoden — richtig kombiniert und gut visualisiert — transformativen Business Value liefern können.

Von Anfang an wurde das Tool so gebaut, dass der Kunde es eigenständig betreiben und erweitern kann. Keine laufenden Lizenzkosten, keine externe Abhängigkeit. Diese Investition in Selbstständigkeit zahlte sich aus: Der Kunde entwickelte die Lösung nach Projektende selbst weiter.

Die enge Zusammenarbeit mit dem Kunden in regelmäßigen Review-Zyklen stellte sicher, dass die Lösung am tatsächlichen Bedarf ausgerichtet blieb — nicht an technischen Möglichkeiten, die beeindruckend aussehen, aber am Nutzer vorbeigehen.

Wir hatten Jahrzehnte an Wissen in unserem Archiv, konnten es aber nicht nutzen. Die NLP-Lösung hat uns erstmals ermöglicht, thematische Zusammenhänge zu entdecken, die uns vorher verborgen waren — und das komplett sicher, ohne dass ein einziges Dokument unser Netzwerk verlassen musste.

— Abteilungsleiter Forschung & Entwicklung

Diese Case Study beschreibt ein anonymisiertes Kundenprojekt. Branche und Unternehmenskontext sind korrekt wiedergegeben, identifizierende Details wurden verändert.

← Zurück zur Übersicht