Nachschlagewerk

KI-Glossar

Alle wichtigen Begriffe rund um KI, Large Language Models und Prompt Engineering – verständlich erklärt, ohne Marketing-Sprech, mit praktischen Beispielen.

28 Begriffe

7 Kategorien

28 Angezeigt

API

Technik

Application Programming Interface – eine Schnittstelle, über die Programme miteinander kommunizieren. Bei KI-Modellen ermöglicht die API den Zugriff auf das Modell über HTTP-Requests, ohne die Infrastruktur selbst betreiben zu müssen.

Beispiel: Ein Unternehmen nutzt die OpenAI API, um in ihrer App automatisch E-Mails zusammenzufassen, ohne ein eigenes KI-Modell zu trainieren.

Context Window

Technik

Die maximale Menge an Text (gemessen in Tokens), die ein KI-Modell in einer Anfrage verarbeiten kann. Umfasst sowohl Input als auch Output. Größere Context Windows erlauben die Verarbeitung längerer Dokumente.

Beispiel: GPT-4 Turbo hat ein Context Window von 128.000 Tokens – das entspricht etwa 96.000 Wörtern oder rund 300 Buchseiten.

Embedding

Technik

Eine numerische Repräsentation von Text als Vektor, die semantische Bedeutung erfasst. Ähnliche Texte haben ähnliche Embeddings. Wird für Suche, Klassifikation und Retrieval Augmented Generation genutzt.

Beispiel: Eine Wissensdatenbank wandelt alle Artikel in Embeddings um, um bei Nutzeranfragen semantisch passende Inhalte zu finden – nicht nur über Keyword-Matching.

Few-Shot Learning

Prompting

Eine Technik, bei der dem Modell einige Beispiele (meist 2-5) im Prompt gegeben werden, um die gewünschte Ausgabe zu demonstrieren. Verbessert oft die Qualität ohne Fine-Tuning.

Beispiel: Um Produktbewertungen zu klassifizieren, gibt man dem Modell 3 Beispiele: "Tolles Produkt! → Positiv", "Enttäuschend → Negativ", "Geht so → Neutral" – dann folgt die zu klassifizierende Bewertung.

Fine-Tuning

Training

Das Nachtrainieren eines vortrainierten Modells auf einem spezifischen Datensatz, um es für eine bestimmte Aufgabe zu spezialisieren. Verbessert die Performance auf Domänen-spezifischen Tasks.

Beispiel: Ein Rechtsanwaltskanzlei fine-tuned GPT-4 auf 10.000 eigenen Rechtsdokumenten, damit das Modell präziser juristische Texte formuliert.

Hallucination

Limitation

Wenn ein KI-Modell falsche oder erfundene Informationen mit hoher Überzeugung präsentiert. Ein inhärentes Problem von LLMs, da sie auf Wahrscheinlichkeiten basieren, nicht auf Faktendatenbanken.

Beispiel: Ein Modell erfindet Literaturquellen mit plausibler ISBN, die nicht existieren – oder nennt historische Daten, die faktisch falsch sind.

LLM

Grundlagen

Large Language Model – ein KI-Modell, das auf riesigen Textmengen trainiert wurde und menschliche Sprache verstehen und generieren kann. Beispiele: GPT-4, Claude, Gemini.

Beispiel: ChatGPT basiert auf dem LLM GPT-4, das auf hunderten Milliarden Wörtern aus dem Internet trainiert wurde.

Parameter

Technik

Die Variablen im neuronalen Netz eines Modells, die während des Trainings angepasst werden. Mehr Parameter bedeuten meist höhere Kapazität, aber auch höheren Ressourcenbedarf.

Beispiel: GPT-3 hat 175 Milliarden Parameter, GPT-4 vermutlich über 1 Billion – was die höhere Leistungsfähigkeit erklärt, aber auch mehr Rechenpower erfordert.

Prompt

Prompting

Die Eingabe, die einem KI-Modell gegeben wird, um eine Antwort zu generieren. Kann aus Anweisungen, Kontext, Beispielen und der eigentlichen Frage bestehen.

Beispiel: "Du bist ein Experte für Marketing. Schreibe einen Twitter-Post (max. 280 Zeichen) über KI-Produktivität. Zielgruppe: B2B-Entscheider. Ton: professionell, nicht verkäuferisch."

Prompt Engineering

Prompting

Das systematische Design und Optimieren von Prompts, um die Qualität der KI-Ausgaben zu verbessern. Eine Schlüsselkompetenz für effektiven KI-Einsatz.

Beispiel: Statt "Schreib einen Text über KI" nutzt man: "Schreibe einen 300-Wörter-Blogartikel über KI im Mittelstand. Zielgruppe: Geschäftsführer ohne technischen Hintergrund. Ton: sachlich, praxisnah. Struktur: Problem, Lösung, Beispiel."

RAG

Technik

Retrieval Augmented Generation – eine Technik, die externe Datenquellen in Echtzeit abruft und dem Modell als Kontext gibt. Reduziert Hallucinations und ermöglicht Zugriff auf aktuelle Informationen.

Beispiel: Ein Support-Bot durchsucht bei jeder Anfrage die aktuelle Wissensdatenbank (Retrieval), fügt die relevanten Artikel in den Prompt ein (Augmented) und lässt das LLM eine Antwort formulieren (Generation).

Temperature

Parameter

Ein Parameter (meist 0-1), der steuert, wie kreativ oder deterministisch ein Modell antwortet. Niedrige Werte (0-0.3) führen zu konsistenten, vorhersehbaren Antworten. Hohe Werte (0.7-1) zu kreativen, aber weniger zuverlässigen Outputs.

Beispiel: Für Faktenfragen (z.B. "Wann wurde die EU gegründet?") nutzt man Temperature 0. Für kreatives Schreiben (z.B. Storytelling) Temperature 0.8.

Token

Grundlagen

Die Grundeinheit, in der LLMs Text verarbeiten. Ein Token ist etwa 0,75 Wörter im Deutschen. API-Preise werden pro Token abgerechnet.

Beispiel: Der Satz "KI-Modelle sind leistungsfähig" besteht aus etwa 6 Tokens. 1 Million Tokens entsprechen ca. 750.000 Wörtern.

Zero-Shot Learning

Prompting

Die Fähigkeit eines Modells, eine Aufgabe ohne Beispiele zu lösen – nur durch die Beschreibung der Aufgabe. Moderne LLMs sind darin sehr gut.

Beispiel: "Klassifiziere die folgende Produktbewertung als Positiv, Neutral oder Negativ: [Bewertung]" – ohne vorherige Beispiele zu geben.

Fine-Tuning

Training

Das Nachtrainieren eines vortrainierten Modells auf spezifischen Daten, um es für eine Domäne oder Aufgabe zu optimieren.

Beispiel: Ein Medizin-Unternehmen trainiert GPT-4 auf 50.000 medizinischen Fachartikeln nach, damit es präziser medizinische Fragen beantwortet.

Multimodal

Grundlagen

Modelle, die mehrere Datentypen verarbeiten können – z.B. Text, Bilder, Audio, Video. GPT-4o, Gemini und Claude 3 sind multimodal.

Beispiel: Ein Modell erhält ein Foto eines Whiteboards und transkribiert automatisch die handgeschriebenen Notizen in strukturierten Text.

Endpoint

Technik

Die URL, an die API-Anfragen gesendet werden. Verschiedene Endpoints bieten verschiedene Funktionen (Chat, Completion, Embeddings, etc.).

Beispiel: OpenAI bietet verschiedene Endpoints: /v1/chat/completions für Chat, /v1/embeddings für Embeddings, /v1/audio/transcriptions für Whisper.

Rate Limit

Technik

Die maximale Anzahl an API-Requests pro Zeiteinheit. Verhindert Überlastung und wird von Providern zur Kapazitätssteuerung genutzt.

Beispiel: OpenAI erlaubt im Free Tier 3 Requests pro Minute. Im Pay-as-you-go Tier 3.500 Requests pro Minute für GPT-4.

System Prompt

Prompting

Eine spezielle Prompt-Komponente, die dem Modell globale Anweisungen gibt – z.B. Rolle, Verhalten, Einschränkungen. Bleibt über die gesamte Konversation konstant.

Beispiel: "Du bist ein hilfreicher Assistent für Rechtsberatung. Antworte präzise, zitiere relevante Gesetze, und weise bei Unsicherheit explizit darauf hin. Keine medizinischen Ratschläge."

Chain-of-Thought

Prompting

Eine Prompting-Technik, bei der das Modell explizit Schritt-für-Schritt denken soll. Verbessert die Qualität bei komplexen Reasoning-Aufgaben erheblich.

Beispiel: Statt "Berechne 23 × 47" schreibt man: "Berechne 23 × 47. Zeige jeden Schritt deiner Berechnung."

Vector Database

Technik

Eine Datenbank, die auf die Speicherung und schnelle Suche von Embeddings (Vektoren) optimiert ist. Ermöglicht semantische Suche. Beispiele: Pinecone, Weaviate, Qdrant.

Beispiel: Ein Unternehmen speichert alle Produkthandbücher als Embeddings in einer Vector DB und findet bei Support-Anfragen automatisch die relevanten Passagen.

Top-P (Nucleus Sampling)

Parameter

Ein alternativer Sampling-Parameter zu Temperature. Bestimmt die kumulative Wahrscheinlichkeit der in Betracht gezogenen Tokens. Meist zwischen 0.9-1.0.

Beispiel: Bei Top-P 0.9 wählt das Modell nur aus den wahrscheinlichsten Tokens, die zusammen 90% Wahrscheinlichkeit ausmachen.

Latency

Performance

Die Zeit zwischen Anfrage und Antwort. Bei LLMs kritisch für User Experience in interaktiven Anwendungen. Wird von Modell, Prompt-Länge und Serverlast beeinflusst.

Beispiel: GPT-4o hat typisch 1-2 Sekunden Latency, GPT-4 Turbo 3-5 Sekunden – relevant für Chat-Anwendungen.

Streaming

Technik

Eine API-Methode, bei der die Antwort Token-für-Token übertragen wird, statt auf die komplette Antwort zu warten. Verbessert wahrgenommene Geschwindigkeit.

Beispiel: ChatGPT zeigt Antworten sofort Wort-für-Wort an (Streaming), statt erst nach 30 Sekunden den kompletten Text zu liefern.

Function Calling

Technik

Die Fähigkeit eines Modells, strukturiert externe Funktionen oder APIs aufzurufen. Das Modell entscheidet, welche Funktion mit welchen Parametern zu nutzen ist.

Beispiel: Ein User fragt "Wie ist das Wetter in Berlin?". Das Modell erkennt dies und ruft die Funktion get_weather(location="Berlin") auf, statt zu halluzinieren.

Grounding

Technik

Das Verankern von Modellantworten in verifizierten Quellen, um Hallucinations zu reduzieren. Oft durch RAG oder explizite Quellenangaben.

Beispiel: Statt frei zu antworten, muss das Modell aus bereitgestellten Dokumenten zitieren: "Laut Dokument X, Seite 4: [Zitat]"

Inference

Technik

Der Prozess, bei dem ein trainiertes Modell eine Vorhersage oder Ausgabe generiert. Im Gegensatz zum Training, das das Modell erstellt.

Beispiel: Wenn Sie ChatGPT eine Frage stellen, läuft Inference – das bereits trainierte Modell generiert die Antwort.

Base Model

Training

Ein Modell, das nur auf dem ursprünglichen Trainingsdatensatz trainiert wurde, ohne weitere Spezialisierung. Oft Grundlage für Fine-Tuning.

Beispiel: GPT-4 Base ist das reine, unmodifizierte Modell. ChatGPT basiert auf GPT-4, wurde aber zusätzlich mit RLHF verfeinert.

Begriff fehlt?

Schlagen Sie Ergänzungen vor oder fragen Sie nach einer Erklärung.

Begriff vorschlagen →

KI-Glossar

API

Context Window

Embedding

Few-Shot Learning

Fine-Tuning

Hallucination

LLM

Parameter

Prompt

Prompt Engineering

RAG

Temperature

Token

Zero-Shot Learning

Fine-Tuning

Multimodal

Endpoint

Rate Limit

System Prompt

Chain-of-Thought

Vector Database

Top-P (Nucleus Sampling)

Latency

Streaming

Function Calling

Grounding

Inference

Base Model

Kein Begriff gefunden

Begriff fehlt?