Application Programming Interface – eine Schnittstelle, über die Programme miteinander kommunizieren. Bei KI-Modellen ermöglicht die API den Zugriff auf das Modell über HTTP-Requests, ohne die Infrastruktur selbst betreiben zu müssen.
Beispiel: Ein Unternehmen nutzt die OpenAI API, um in ihrer App automatisch E-Mails zusammenzufassen, ohne ein eigenes KI-Modell zu trainieren.
Die maximale Menge an Text (gemessen in Tokens), die ein KI-Modell in einer Anfrage verarbeiten kann. Umfasst sowohl Input als auch Output. Größere Context Windows erlauben die Verarbeitung längerer Dokumente.
Beispiel: GPT-4 Turbo hat ein Context Window von 128.000 Tokens – das entspricht etwa 96.000 Wörtern oder rund 300 Buchseiten.
Eine numerische Repräsentation von Text als Vektor, die semantische Bedeutung erfasst. Ähnliche Texte haben ähnliche Embeddings. Wird für Suche, Klassifikation und Retrieval Augmented Generation genutzt.
Beispiel: Eine Wissensdatenbank wandelt alle Artikel in Embeddings um, um bei Nutzeranfragen semantisch passende Inhalte zu finden – nicht nur über Keyword-Matching.
Eine Technik, bei der dem Modell einige Beispiele (meist 2-5) im Prompt gegeben werden, um die gewünschte Ausgabe zu demonstrieren. Verbessert oft die Qualität ohne Fine-Tuning.
Beispiel: Um Produktbewertungen zu klassifizieren, gibt man dem Modell 3 Beispiele: "Tolles Produkt! → Positiv", "Enttäuschend → Negativ", "Geht so → Neutral" – dann folgt die zu klassifizierende Bewertung.
Das Nachtrainieren eines vortrainierten Modells auf einem spezifischen Datensatz, um es für eine bestimmte Aufgabe zu spezialisieren. Verbessert die Performance auf Domänen-spezifischen Tasks.
Beispiel: Ein Rechtsanwaltskanzlei fine-tuned GPT-4 auf 10.000 eigenen Rechtsdokumenten, damit das Modell präziser juristische Texte formuliert.
Wenn ein KI-Modell falsche oder erfundene Informationen mit hoher Überzeugung präsentiert. Ein inhärentes Problem von LLMs, da sie auf Wahrscheinlichkeiten basieren, nicht auf Faktendatenbanken.
Beispiel: Ein Modell erfindet Literaturquellen mit plausibler ISBN, die nicht existieren – oder nennt historische Daten, die faktisch falsch sind.
Large Language Model – ein KI-Modell, das auf riesigen Textmengen trainiert wurde und menschliche Sprache verstehen und generieren kann. Beispiele: GPT-4, Claude, Gemini.
Beispiel: ChatGPT basiert auf dem LLM GPT-4, das auf hunderten Milliarden Wörtern aus dem Internet trainiert wurde.
Die Variablen im neuronalen Netz eines Modells, die während des Trainings angepasst werden. Mehr Parameter bedeuten meist höhere Kapazität, aber auch höheren Ressourcenbedarf.
Beispiel: GPT-3 hat 175 Milliarden Parameter, GPT-4 vermutlich über 1 Billion – was die höhere Leistungsfähigkeit erklärt, aber auch mehr Rechenpower erfordert.
Die Eingabe, die einem KI-Modell gegeben wird, um eine Antwort zu generieren. Kann aus Anweisungen, Kontext, Beispielen und der eigentlichen Frage bestehen.
Beispiel: "Du bist ein Experte für Marketing. Schreibe einen Twitter-Post (max. 280 Zeichen) über KI-Produktivität. Zielgruppe: B2B-Entscheider. Ton: professionell, nicht verkäuferisch."
Das systematische Design und Optimieren von Prompts, um die Qualität der KI-Ausgaben zu verbessern. Eine Schlüsselkompetenz für effektiven KI-Einsatz.
Beispiel: Statt "Schreib einen Text über KI" nutzt man: "Schreibe einen 300-Wörter-Blogartikel über KI im Mittelstand. Zielgruppe: Geschäftsführer ohne technischen Hintergrund. Ton: sachlich, praxisnah. Struktur: Problem, Lösung, Beispiel."
Retrieval Augmented Generation – eine Technik, die externe Datenquellen in Echtzeit abruft und dem Modell als Kontext gibt. Reduziert Hallucinations und ermöglicht Zugriff auf aktuelle Informationen.
Beispiel: Ein Support-Bot durchsucht bei jeder Anfrage die aktuelle Wissensdatenbank (Retrieval), fügt die relevanten Artikel in den Prompt ein (Augmented) und lässt das LLM eine Antwort formulieren (Generation).
Ein Parameter (meist 0-1), der steuert, wie kreativ oder deterministisch ein Modell antwortet. Niedrige Werte (0-0.3) führen zu konsistenten, vorhersehbaren Antworten. Hohe Werte (0.7-1) zu kreativen, aber weniger zuverlässigen Outputs.
Beispiel: Für Faktenfragen (z.B. "Wann wurde die EU gegründet?") nutzt man Temperature 0. Für kreatives Schreiben (z.B. Storytelling) Temperature 0.8.
Die Grundeinheit, in der LLMs Text verarbeiten. Ein Token ist etwa 0,75 Wörter im Deutschen. API-Preise werden pro Token abgerechnet.
Beispiel: Der Satz "KI-Modelle sind leistungsfähig" besteht aus etwa 6 Tokens. 1 Million Tokens entsprechen ca. 750.000 Wörtern.
Die Fähigkeit eines Modells, eine Aufgabe ohne Beispiele zu lösen – nur durch die Beschreibung der Aufgabe. Moderne LLMs sind darin sehr gut.
Beispiel: "Klassifiziere die folgende Produktbewertung als Positiv, Neutral oder Negativ: [Bewertung]" – ohne vorherige Beispiele zu geben.
Das Nachtrainieren eines vortrainierten Modells auf spezifischen Daten, um es für eine Domäne oder Aufgabe zu optimieren.
Beispiel: Ein Medizin-Unternehmen trainiert GPT-4 auf 50.000 medizinischen Fachartikeln nach, damit es präziser medizinische Fragen beantwortet.
Modelle, die mehrere Datentypen verarbeiten können – z.B. Text, Bilder, Audio, Video. GPT-4o, Gemini und Claude 3 sind multimodal.
Beispiel: Ein Modell erhält ein Foto eines Whiteboards und transkribiert automatisch die handgeschriebenen Notizen in strukturierten Text.
Die URL, an die API-Anfragen gesendet werden. Verschiedene Endpoints bieten verschiedene Funktionen (Chat, Completion, Embeddings, etc.).
Beispiel: OpenAI bietet verschiedene Endpoints: /v1/chat/completions für Chat, /v1/embeddings für Embeddings, /v1/audio/transcriptions für Whisper.
Die maximale Anzahl an API-Requests pro Zeiteinheit. Verhindert Überlastung und wird von Providern zur Kapazitätssteuerung genutzt.
Beispiel: OpenAI erlaubt im Free Tier 3 Requests pro Minute. Im Pay-as-you-go Tier 3.500 Requests pro Minute für GPT-4.
Eine spezielle Prompt-Komponente, die dem Modell globale Anweisungen gibt – z.B. Rolle, Verhalten, Einschränkungen. Bleibt über die gesamte Konversation konstant.
Beispiel: "Du bist ein hilfreicher Assistent für Rechtsberatung. Antworte präzise, zitiere relevante Gesetze, und weise bei Unsicherheit explizit darauf hin. Keine medizinischen Ratschläge."
Eine Prompting-Technik, bei der das Modell explizit Schritt-für-Schritt denken soll. Verbessert die Qualität bei komplexen Reasoning-Aufgaben erheblich.
Beispiel: Statt "Berechne 23 × 47" schreibt man: "Berechne 23 × 47. Zeige jeden Schritt deiner Berechnung."
Eine Datenbank, die auf die Speicherung und schnelle Suche von Embeddings (Vektoren) optimiert ist. Ermöglicht semantische Suche. Beispiele: Pinecone, Weaviate, Qdrant.
Beispiel: Ein Unternehmen speichert alle Produkthandbücher als Embeddings in einer Vector DB und findet bei Support-Anfragen automatisch die relevanten Passagen.
Ein alternativer Sampling-Parameter zu Temperature. Bestimmt die kumulative Wahrscheinlichkeit der in Betracht gezogenen Tokens. Meist zwischen 0.9-1.0.
Beispiel: Bei Top-P 0.9 wählt das Modell nur aus den wahrscheinlichsten Tokens, die zusammen 90% Wahrscheinlichkeit ausmachen.
Die Zeit zwischen Anfrage und Antwort. Bei LLMs kritisch für User Experience in interaktiven Anwendungen. Wird von Modell, Prompt-Länge und Serverlast beeinflusst.
Beispiel: GPT-4o hat typisch 1-2 Sekunden Latency, GPT-4 Turbo 3-5 Sekunden – relevant für Chat-Anwendungen.
Eine API-Methode, bei der die Antwort Token-für-Token übertragen wird, statt auf die komplette Antwort zu warten. Verbessert wahrgenommene Geschwindigkeit.
Beispiel: ChatGPT zeigt Antworten sofort Wort-für-Wort an (Streaming), statt erst nach 30 Sekunden den kompletten Text zu liefern.
Die Fähigkeit eines Modells, strukturiert externe Funktionen oder APIs aufzurufen. Das Modell entscheidet, welche Funktion mit welchen Parametern zu nutzen ist.
Beispiel: Ein User fragt "Wie ist das Wetter in Berlin?". Das Modell erkennt dies und ruft die Funktion get_weather(location="Berlin") auf, statt zu halluzinieren.
Das Verankern von Modellantworten in verifizierten Quellen, um Hallucinations zu reduzieren. Oft durch RAG oder explizite Quellenangaben.
Beispiel: Statt frei zu antworten, muss das Modell aus bereitgestellten Dokumenten zitieren: "Laut Dokument X, Seite 4: [Zitat]"
Der Prozess, bei dem ein trainiertes Modell eine Vorhersage oder Ausgabe generiert. Im Gegensatz zum Training, das das Modell erstellt.
Beispiel: Wenn Sie ChatGPT eine Frage stellen, läuft Inference – das bereits trainierte Modell generiert die Antwort.
Ein Modell, das nur auf dem ursprünglichen Trainingsdatensatz trainiert wurde, ohne weitere Spezialisierung. Oft Grundlage für Fine-Tuning.
Beispiel: GPT-4 Base ist das reine, unmodifizierte Modell. ChatGPT basiert auf GPT-4, wurde aber zusätzlich mit RLHF verfeinert.