Künstliche Intelligenz: Sprachmodelle im Vergleich

Benchmarks halten mit den enormen Entwicklungssprüngen der Large Language Models (LLMs) kaum Schritt. Viele haben bereits selbst ChatGPT, Aleph Alpha und ähnliche Tools getestet und waren von der sprachlichen Qualität der Ergebnisse beeindruckt. Doch die Frage bleibt, welchen Mehrwert diese Sprachmodelle tatsächlich im geschäftlichen Einsatz bieten und welche am besten in Unternehmens-IT-Lösungen integriert werden können. Die KI-Expert:innen von Lufthansa Industry Solutions (LHIND) haben die betriebliche Praxistauglichkeit verschiedener LLMs anhand konkreter Beispiele untersucht. Dabei lag der Fokus darauf, wie die Modelle Inhalte analysieren, benötigte Informationen erkennen, kategorisieren und gebündelt darstellen.

Norderstedt, 2. Februar 2024 – Das Thema Künstliche Intelligenz (KI) ist in den Unternehmen in Deutschland angekommen. Zwar nutzen laut einer aktuellen Umfrage des Branchenverbands der Digitalverbands Bitkom erst 15 Prozent der Befragten KI in ihrem Unternehmen, aber gut zwei Drittel (68 Prozent) halten KI für die wichtigste Zukunftstechnologie. Generative KI wird jedoch erst von 2 Prozent der Unternehmen genutzt, und mehr als die Hälfte der Befragten sieht darin wenig Nutzen.

„Dabei können LLMs erheblich dazu beitragen, umfangreiche Mengen an unstrukturierten Daten zu analysieren und wertvolle Erkenntnisse zu gewinnen. Unternehmen können diese Modelle nutzen, um beispielsweise Kundenfeedback zu analysieren, firmenspezifische Dokumente präzise und verständlich für die Mitarbeitenden zu verarbeiten oder sogar Vorhersagemodelle zu entwickeln", betont Lasse Neumann, IT Consultant bei LHIND. "Die Auswahl des passenden Sprachmodells und dessen Anpassung an die jeweiligen Anforderungen sind jedoch entscheidend.“

Sprachmodelle im Vergleich: Die Ergebnisse auf einem Blick (Grafik LHIND)

Aus diesem Grund testen die KI-Expert:innen von LHIND in regelmäßigen Abständen die wichtigsten LLMs auf ihre betriebliche Praxistauglichkeit. Dabei werden die Modelle mit Aufgaben aus ausgewählten Bereichen konfrontiert, die den Bedarfen verschiedener Anwendungsfälle aus der betrieblichen Praxis nahekommen.

Die getesteten LLMs sind:

PaLm
GPT 3.5
GPT 4
Llama 2 (70 b)
Aleph alpha (Luminous-supreme control)
Falcon (180 b)
Claude V2

Die Methode

Die verschiedenen LLMs wurden auf einem für deutsche Kunden relevanten Datensatz mit unterschiedlichen Aufgabenstellungen daraufhin überprüft, wie sie Inhalte analysieren und benötigte Informationen erkennen, kategorisieren und gebündelt darstellen können. Im Vergleich zu bisherigen Benchmarks werden die Tests in deutscher Sprache durchgeführt. Die Bewertung erfolgte anhand von zehn Beispielinhalten aus verschiedenen Wissensgebieten, einschließlich aktueller Nachrichten. Die Aufgaben wurden in Kategorien gebündelt, die in der betrieblichen Praxis eine wesentliche Rolle spielen:

Erkennung von benannten Entitäten
Zusammenfassung in 3-4 Sätzen
Q&A (beantwortbare Fragen)
Q&A (nicht beantwortbare Fragen)

Die Leistungen in den verschiedenen Aufgaben wurden auf einer Skala von 1 (unvollständig, fehlerhaft) bis 5 (vollständig, perfekt) bewertet. Die Gesamtergebnisse für jedes einzelne Large Language Model wurden durch die Zusammenführung der Einzelbewertungen ermittelt.

Die Ergebnisse

In allen Aufgabenstellungen schnitt GPT von OpenAI am besten ab und erreichte einen Gesamtscore von 4,23 (GPT 3.5) bzw. 4,52 (GPT 4). Die anderen Modelle erzielten Scores zwischen 3,03 (Aleph Alpha) und 3,67 (PaLM). Besonders ist den Kategorien „Zusammenfassung“ und „Q&A (Beantwortbare Fragen)“ schnitt die KI besonders gut ab. Schwächen zeigte GPT 3.5 mit einem Score von 3,37 bei der Erkennung von benannten Entitäten, während PaLM hier mit einem Score von 3,74 neben GPT 4 (3,83) von allen Modellen am besten punktete.

„Die ausgezeichneten Ergebnisse von GPT überraschen nicht, da das Modell seit einem Jahr auf dem offenen Markt mit Millionen von Nutzern kontinuierlich trainiert wird", erläutert Soniya Prasad IT Consultant bei LHIND. "Im Vergleich zu anderen Testergebnissen können wir jedoch feststellen, dass andere Sprachmodelle zu GPT aufholen.“

Lufthansa Industry Solutions ist ein Dienstleistungsunternehmen für IT-Beratung und Systemintegration. Die Lufthansa-Tochter unterstützt ihre Kunden bei der digitalen Transformation ihrer Unternehmen. Die Kundenbasis umfasst sowohl Gesellschaften innerhalb des Lufthansa Konzerns als auch mehr als 300 Unternehmen in unterschiedlichen Branchen. Das Unternehmen mit Hauptsitz in Norderstedt beschäftigt über 2.500 Mitarbeitende an mehreren Niederlassungen in Deutschland, Albanien, der Schweiz und den USA.