Den eingangs kurz erwähnten ungenauen oder keinen Sinn ergebenden Antworten liegt vor allem die Tatsache zugrunde, dass ChatGPT zu sogenannten “Halluzinationen” neigt. Hiermit ist nicht etwa – wie die Halluzination beim Menschen – eine falsche Wahrnehmung gemeint oder, dass die KI sich spannende, kreative Fabelwesen, Märchen oder Fantasien ausdenkt.
Vielmehr geht es um falsche Angaben: ChatGPT ist dazu in der Lage, Dinge zu erfinden, ohne dabei anzugeben, dass es sich um inkorrekte, unechte oder unvollständige Informationen handelt.
Ein Beispiel für eine solche Halluzination ist ein Fall aus den USA, in dem ein Mann eine Fluggesellschaft verklagte, nachdem er auf seinem Flug von einem Servierwagen angefahren wurde. Der Rechtsanwalt des Mannes hatte in Kontakt mit der Rechtsabteilung der Fluggesellschaft einige Präzedenzfälle vorgelegt, die ihm – wie später bekannt wurde – ChatGPT zur Verfügung gestellt hatte. Nach eingehender Prüfung der Akten stellte sich heraus, dass die Fälle von der künstlichen Intelligenz frei erfunden wurden und somit auch nicht als unterstützendes Mittel in dem Prozess verwendet werden konnten.
Der Fall verdeutlicht, dass die Antworten von ChatGPT mit Vorsicht zu genießen sind und immer auf ihren Wahrheitsgehalt überprüft werden sollten.
Mehr Infos und Tipps zu KI-Halluzinationen gibt’s in unserem neuen Artikel: “Falsche Antworten durch KI? So entstehen KI-Halluzinationen”.
Mit einem neuen Test namens SimpleQA will OpenAI jetzt aber den Halluzinationen und falschen Ausgaben den Kampf ansagen. Der Test wurde entwickelt, um die Genauigkeit und Zuverlässigkeit von KI-Modellen zu überprüfen. Das Tool kann Fragen an verschiedene KI-Modelle stellen und bewertet anschließend die folgenden zwei Dinge:
- Einmal die Richtigkeit ihrer Antworten.
- Zum Anderen, wie sicher sich die Modelle selbst sind, ob die Antwort korrekt ist.
Was besonders auffällt: Selbst die größten Sprachmodelle, wie GPT-4o oder Claude-3.5-Sonnet sind weit von der 50%-Marke entfernt. Durch diesen Test, den OpenAI übrigens der breiten Öffentlichkeit kostenlos zur Verfügung gestellt hat, können Sprachmodelle also zuverlässiger und vertrauenswürdiger werden. Natürlich gibt es auch Grenzen von SimpleQA, zum Beispiel der Fakt, dass ein KI-Modell (wie GPT) andere bewerten soll, was die Neutralität der Bewertung in Frage stellt. Dennoch bietet dieser Test in der KI-Entwicklung große Vorteile, da Forscher und Entwickler auf der ganzen Welt ihre Modelle testen und verbessern können.