Das KI-Kochbuch: KI-Tools | Unternehmens-KI | Leadership

episode artwork

Malcolm Werchota

13 March 2026

25m 14s

#125 - [Quickbite] GPT 5.4: Zum ersten Mal ist eine KI besser als du... bei normaler Büroarbeit

00:00

25:14

Arbeitest du im Büro? Sitzt du am PC, klickst dich durch Programme, kopierst Daten in Excel, füllst Formulare aus? Dann gibt es eine schlechte Nachricht: Seit drei Tagen ist eine KI besser darin als du.

GPT 5.4 hat im OS World Verified Benchmark — einem standardisierten Test für echte Desktop-Aufgaben — 75 Prozent erreicht. Der menschliche Durchschnitt liegt bei 72 Prozent. Das ist das erste Mal in der Geschichte, dass ein Allzweck-KI-Modell bei normalen Bürotätigkeiten über der menschlichen Performance liegt. Nicht bei Schach, nicht bei Go, nicht bei Proteinfaltung — bei Maus, Tastatur, Browser und Excel.

Und der Sprung ist brutal: Das Vorgängermodell GPT 5.2 lag noch bei 50 Prozent. In drei Monaten auf 75. Gleichzeitig ist die Genauigkeit bei Finanzmodellen auf 87 Prozent gestiegen, die Halluzinationsrate um 30 Prozent gefallen, und das Context Window auf eine Million Tokens gewachsen — achtmal mehr als das, was hinter Microsoft Copilot steckt. Der Preis: 2,50 Dollar pro Million Input-Tokens. Absolut Peanuts.

Malcolm erzählt, wie sein Team reagiert hat, als ihre Mitarbeiterin Purani abgesprungen ist. Statt Panik: Analyse. Was macht sie? Wie viele KI-Agenten brauche ich, um sie zu ersetzen? Das Ergebnis: 80 Prozent ihrer Aufgaben lassen sich mit Agenten abdecken — mit Cloud Code, OpenClaw und jetzt GPT 5.4 mit nativem Computer Use.

Die Episode richtet sich direkt an den DACH-Mittelstand: Testet GPT 5.4 mit echten Workflows. Auditiert eure Spreadsheet-Abteilung. Rechnet die API-Kosten gegen die Gehälter. Und baut einen Transitionsplan — mit einer ehrlichen Liste: Wer orchestriert Agenten, wer wird zum Superstar, und wer ist der Onkel oder die Tante, die seit 30 Jahren dasselbe macht und KI nie nutzen wird?


KEY TAKEAWAYS

  • GPT 5.4 schlägt erstmals den menschlichen Durchschnitt bei normalen Desktop-Büroaufgaben (75 % vs. 72 %)

  • OS World Score: Sprung von 50 % auf 75 % in nur drei Monaten

  • GPT-Val Benchmark: 83 % über 44 Berufsgruppen — 13 Prozentpunkte besser als das Vorgängermodell

  • Context Window: 1 Million Tokens — achtmal mehr als das, was hinter Copilot steckt

  • Finanzmodelle: 87 % Genauigkeit, 30 % weniger Halluzinationen

  • Preis: 2,50 Dollar pro Million Input-Tokens — ein Bruchteil von Claude

  • 80 % der Aufgaben einer Mitarbeiterin lassen sich mit KI-Agenten abdecken

  • 60–70 % der Mitarbeiter in einer durchschnittlichen Firma werden KI nicht nutzen — ohne Transitionsplan wird das zum Problem


🎙️ ÜBER DEN HOST

Malcolm Werchota leitet KI-Adoptionsprogramme für Unternehmen in ganz Europa. Nach über 15 Jahren bei Novartis und Schlumberger heute Fokus: KI ohne Bullshit. Dozent an ESADE & HSLU.


🚀 RESSOURCEN FÜR FÜHRUNGSKRÄFTE

📚 Chief AI Academy — KI für Entscheider
https://www.werchota.ai/chief-ai-academy

👥 AI-Leadership-Community
https://chief.werchota.ai/getting-started

💼 KONTAKT

LinkedIn: https://linkedin.com/in/malcolmwerchota
E-Mail: social@werchota.ai


🔎 TAGS

#KI #GPT54 #ChatGPT #TheAICookbook #Büroarbeit #ComputerUse #Mittelstand #KIAgenten #DigitalerMitarbeiter #Automatisierung #OSWorld #Enterprise