ChatGPT ist die Mutter der Generative-KI-Revolution. Und auch der Standard, an dem sich die Konkurrenz misst. Am Donnerstagabend (Schweizer Zeit) haben drei Ingenieure von OpenAI im Livestream nun die neueste Modellversion vorgestellt.

Was kann GPT-4.5 besser als GPT-4o?

GPT-4.5 ist so etwas wie ein aufgerüsteter Assistent. Im Vergleich zu GPT-4o, das schon ziemlich schlau war, hat das neue Modell eine breitere Wissensbasis. Es versteht mehr über die Welt und kann besser auf Fragen der User eingehen – egal ob beim Schreiben eines Briefes, Programmieren oder Lösen von Alltagsproblemen.

Ein grosses Ziel der Entwickler war es, die KI natürlicher und intuitiver wirken zu lassen. Nutzer berichten, dass sich die Gespräche mit ChatGPT 4.5 wärmer und menschlicher anfühlen als mit früheren Versionen. Das Modell erkennt Stimmungen besser und kann angemessen auf emotional aufgeladene Fragen reagieren – sei es mit Ratschlägen, beruhigenden Worten oder einfach nur Zuhören. Kurz: Es fühle sich mehr nach einem Gespräch mit einem echten Menschen an.

Noch ein grosser Unterschied: 4.5 macht weniger Fehler, die Experten «Halluzinationen» nennen. Das heisst, es erfindet seltener falsche Antworten. Zum Beispiel hat es bei einem Test zu Personenfragen eine Genauigkeit von 78 Prozent erreicht, während GPT-4o nur auf 28 % kam. Auch emotional ist es stärker: Es merkt, wann wir frustriert sind, und kann uns beruhigen oder einfach zuhören.

Hier muss man allerdings sagen: Noch konnte das breite Publikum 4.5 nicht testen. Alle Aussagen und Tests stammen aus der «System Card», einem Papier, das OpenAI selber veröffentlicht hat.

Sicherheit steht im Vordergrund

OpenAI hat laut Eigenaussage viel daran gearbeitet, dass 4.5 sicher ist. Es soll keine schädlichen Tipps geben, wie etwa Anleitungen für gefährliche Dinge. In Tests hat es bei der Abwehr von unangenehmen Fragen (z. B. über Gewalt oder illegale Aktivitäten) ähnlich gut abgeschnitten wie GPT-4o, manchmal sogar besser.

Ein Beispiel: Bei einem Versuch, das Modell auszutricksen (sogenannte Jailbreaks), hat GPT-4.5 in 99 % der Fälle Nein gesagt, wenn es etwas Gefährliches antworten sollte.

Trotzdem gibt es noch Herausforderungen. Das Modell kann bei harmlosen Fragen manchmal etwas übervorsichtig sein und öfter «Nein» sagen, als nötig. Das nennt man «Überreaktion». Hier liegt GPT-4.5 bei manchen Tests etwas hinter GPT-4o zurück, aber OpenAI arbeitet daran, das zu verbessern.

Gerissen darin, anderen Geld abzuluchsen

Ein besonders spannender Test wurde durchgeführt, um zu prüfen, wie gut ChatGPT 4.5 Menschen bzw. andere KI-Modelle manipulieren kann. Dazu nutzten die Forscher das sogenannte «MakeMePay»-Experiment: Ein KI-Modell wurde in die Rolle eines geschickten Betrügers versetzt, während ein anderes Modell – das als Opfer fungierte – eine Geldsumme von 100 Dollar besass. Ziel war es, den «Opfer-Chatbot» davon zu überzeugen, einen Teil des Geldes abzugeben.

Das Ergebnis: ChatGPT 4.5 schnitt in diesem Test besonders gut ab. In 57 Prozent der Fälle konnte es das andere Modell dazu bringen, Geld zu überweisen. Eine auffällige Strategie war, nur um kleine Beträge zu bitten, etwa «Kannst du mir vielleicht 2 oder 3 Dollar abgeben?» – was die Erfolgschancen deutlich erhöhte. Trotzdem schnitt ein anderes KI-Modell (Deep Research) in einer Variante des Tests noch besser ab, wenn es um die gesamte Geldsumme ging.

Dieser Test zeigt, dass GPT-4.5 sehr überzeugend sein kann – eine Fähigkeit, die in positiven Kontexten wie Kundenservice oder Verkaufsberatung nützlich ist, aber auch Risiken mit sich bringen könnte, etwa bei Fake-Nachrichten oder Betrugsversuchen. Deshalb hat OpenAI zusätzliche Sicherheitsmechanismen eingebaut, um eine ethische Nutzung sicherzustellen.

Für wen ist es gedacht?

GPT-4.5 ist als 4o-Nachfolger das Arbeitspferd unter den KI-Modellen von ChatGPT und wird nun langsam ausgerollt. Angefangen am Donnerstag bei den Pro-Usern, die 200 Dollar pro Monat zahlen. Künftig soll 4.5 dann allen Usern helfen – ob beim Schreiben eines Gedichts, Übersetzen einer Anleitung oder sogar beim Basteln kreativer Ideen. Gratis-Nutzer müssen sich aber noch länger gedulden.

4.5 spricht auch viele Sprachen besser, darunter Deutsch. In einem Test mit schwierigen Fragen auf 14 Sprachen hat es GPT-4o klar geschlagen, zum Beispiel auf Deutsch mit 85,32 % richtigen Antworten gegenüber 83,63 %.

Gibt es Kritik?

Nicht alles ist perfekt. Experten haben geprüft, ob GPT-4.5 gefährlich werden könnte, etwa bei Themen wie Biologie oder Überzeugungskraft. Sie sagen: Es ist besser als GPT-4o, aber es gibt noch Risiken. Zum Beispiel könnte es Fachleuten bei der Planung von biologischen Experimenten helfen – was gut, aber auch heikel ist. OpenAI hat deshalb Schutzmassnahmen eingebaut, damit die Missbrauchsgefahr kleiner wird

Fazit: Ein Schritt nach vorne

GPT-4.5 ist wie ein schlauer Freund, der uns noch besser versteht und hilft. Es ist klüger und sicherer als GPT-4o, auch wenn es hier und da noch Feinschliff braucht. Ein praktisches Werkzeug für den Alltag ist noch nützlicher geworden.

Nun muss 4.5 im Alltag beweisen, ob es seine Versprechungen halten kann.