Wie OpenAI Codex funktioniert: Ein Blick hinter die Kulissen der KI-Programmierhilfe

Deine Reaktion:

Was ist Codex und warum ist es wichtig?

OpenAI Codex ist eine künstliche Intelligenz, die Programmierern hilft. Sie steckt hinter Tools wie GitHub Copilot, das Code-Vorschläge während des Tippens macht.

In diesem Artikel schauen wir uns an, wie Codex technisch funktioniert. Wir erklären alles Schritt für Schritt mit einfachen Beispielen.

Codex läuft auf verschiedenen Plattformen: als Web-App, in Visual Studio Code, als macOS-App und als Kommandozeilen-Tool. Alle diese Oberflächen nutzen den gleichen Kern. So müssen neue Funktionen nur einmal entwickelt werden.

Die Architektur: Ein Kern für alle Plattformen

OpenAI hat Codex so gebaut, dass ein gemeinsamer Kern alle verschiedenen Oberflächen antreibt. Dieser Kern heißt „Codex Harness“ und ist in Rust geschrieben. Der Kern enthält die wichtigste Logik: wie die KI mit Werkzeugen arbeitet, wie Gespräche gespeichert werden und wie die Sicherheit gewährleistet wird.

Verschiedene Modelle können den gleichen Motor haben. So ist es auch bei Codex: Die Oberfläche sieht vielleicht anders aus, aber darunter arbeitet derselbe Motor. Das spart Entwicklungszeit.

Um den Kern mit den verschiedenen Oberflächen zu verbinden, gibt es den „App Server“. Der App Server verwendet ein Protokoll namens JSON-RPC. JSON ist ein Format, das Daten strukturiert speichert. RPC bedeutet „Remote Procedure Call“ – also das Aufrufen von Funktionen auf einem anderen Computer.

Der Agent-Loop: Wie Codex denkt und handelt

Das Herzstück von Codex ist der sogenannte „Agent-Loop“. Das ist eine Schleife, die immer wieder durchlaufen wird.

Der Agent-Loop funktioniert in mehreren Schritten. Zuerst bekommt die KI eine Aufgabe, zum Beispiel: „Erstelle eine Webseite mit einem Kontaktformular.“ Dann überlegt die KI, welche Schritte nötig sind. Vielleicht ruft sie ein Werkzeug auf – zum Beispiel den Befehl „ls“, der in einem Terminal die Dateien auflistet.

Das Ergebnis dieses Werkzeug-Aufrufs bekommt die KI zurück. Jetzt hat sie mehr Informationen und kann besser entscheiden, was als nächstes zu tun ist. Dieser Zyklus wiederholt sich, bis die Aufgabe erledigt ist. Jede Runde in dieser Schleife nennt man einen „Turn“.

Der Prompt: Wie Codex informiert wird

Damit Codex sinnvoll arbeiten kann, braucht es Informationen. Diese Informationen werden in einem „Prompt“ zusammengefasst. Ein Prompt ist wie eine Arbeitsanweisung. Er enthält mehrere Teile: allgemeine Anweisungen, Definitionen der verfügbaren Werkzeuge und die bisherige Konversation.

Die Struktur des Prompts ist aufgebaut. Die statischen Teile – also die, die sich nicht ändern – stehen am Anfang. Dazu gehören die Grundregeln für die KI und die Liste der verfügbaren Werkzeuge. Die dynamischen Teile – die aktuelle Aufgabe und die bisherige Unterhaltung – kommen ans Ende.

Warum diese Ordnung? Das hat mit Caching zu tun. Caching bedeutet, dass häufig genutzte Daten zwischengespeichert werden. Da sich die statischen Teile nicht ändern, können sie gut zwischengespeichert werden. So muss die KI nicht jedes Mal alle Informationen neu verarbeiten.

Prompt-Caching: Effizienz durch kluge Organisation

Caching ist ein wichtiges Konzept in der Informatik. Häufig benötigte Informationen werden schnell verfügbar gemacht.

Bei Codex funktioniert das so: Jedes Mal, wenn die KI eine neue Runde beginnt, bekommt sie den gesamten Prompt. Da sich aber nur der letzte Teil ändert, kann der Großteil aus dem Cache kommen. Nur der neue Teil muss neu verarbeitet werden.

Das ist wichtig, weil KI-Verarbeitung Rechenleistung und Zeit kostet. Durch Caching wird Codex effizienter. Die Entwickler mussten dabei aufpassen, dass sich die Reihenfolge der Informationen nicht ändert. Denn wenn sich etwas im vorderen Teil des Prompts ändert, würde der gesamte Cache ungültig werden.

Kontext-Management: Was tun bei langen Gesprächen?

Jede KI hat eine Grenze, wie viel Information sie auf einmal verarbeiten kann. Diese Grenze nennt man „Kontext-Fenster“.

Bei langen Programmier-Sessions mit Codex kann das Gespräch sehr umfangreich werden. Irgendwann würde das Kontext-Fenster überlaufen. Codex löst dieses Problem mit „Compaction“ – also Verdichtung.

Wenn das Gespräch zu lang wird, ruft Codex automatisch einen speziellen Dienst auf, der das Gespräch zusammenfasst. Es wird nicht einfach nur eine Text-Zusammenfassung erstellt. Stattdessen wird das Verständnis der KI in eine kompakte, verschlüsselte Form gebracht. Diese Form ist kleiner als Text.

Das App-Server-Protokoll: Die gemeinsame Sprache

Damit verschiedene Programme mit Codex kommunizieren können, brauchen sie eine gemeinsame Sprache. Diese Sprache ist das JSON-RPC-Protokoll. JSON ist ein einfaches Textformat. RPC ermöglicht es, Funktionen auf einem anderen Computer aufzurufen.

Das Protokoll basiert auf drei Grundbausteinen: Items, Turns und Threads. Ein Item ist die kleinste Einheit – zum Beispiel eine Nachricht des Benutzers. Ein Turn ist eine komplette Interaktion: Der Benutzer stellt eine Frage, Codex arbeitet daran und liefert eine Antwort. Ein Thread ist das gesamte Gespräch.

Dieses Protokoll ist stabil gestaltet. Ältere Programme können auch mit neueren Versionen von Codex kommunizieren. So müssen nicht alle Programme gleichzeitig aktualisiert werden.

Warum dieses Wissen wichtig ist

Das Verständnis von Systemen wie Codex wird in der Tech-Branche wichtiger. Viele Unternehmen entwickeln ähnliche KI-Assistenten.

Was kannst du aus diesem Artikel mitnehmen? Erstens: Komplexe Systeme baut man aus einfachen, wiederverwendbaren Bausteinen auf. Zweitens: Effizienz ist wichtig – durch Caching und kluge Datenorganisation. Drittens: Gute Schnittstellen ermöglichen Flexibilität.

Auch wenn du noch nicht programmierst, helfen dir diese Konzepte, moderne Technologie besser zu verstehen.

Dieser Artikel basiert auf einem Originalartikel: https://www.swequiz.com/articles/openai-codex-architecture

Deine Reaktion:
Artikel teilen:
Sebastian Krötzsch
Autor

Sebastian Krötzsch

Sebastian Krötzsch schreibt auf sebask.de über Künstliche Intelligenz, Automatisierung, digitale Systeme und die Frage, was davon im Alltag wirklich nützlich ist. Ohne Buzzword-Nebel, dafür mit klarem Blick auf Praxis, Tools und echte Wirkung.