ChatGPT-Detektoren: Die zugrunde liegenden Verzerrungen in Chatbot-Erkennungsalgorithmen
Mit dem Aufkommen der generativen KI, die sich in Bereichen entwickelt, die viele als „sicher“ vor maschinellem Lernen betrachteten, sind die Argumente für authentische Kunst immer relevanter geworden. Begleitende Fotos und Kunstwerke, die von KI generiert wurden, wie in der Arbeit von Dall-E 2 oder Stabile Diffusion, KI-geschriebene Texte sind oft nicht von menschlich geschriebenen zu unterscheiden, was besonders große Besorgnis auslöst in der Welt der Wissenschaft. Während sich die Welt an diese Fähigkeit von Instant Media gewöhnt, greifen viele auf Erkennungsalgorithmen zurück, die für ein besseres Gefühl der Klarheit sorgen können.
Der Aufstieg der Chatbot-Erkennungsalgorithmen
ChatGPT gewinnt nur 2 Monate nach dem Start über 100 Millionen aktive Nutzer pro Monat und ist damit der Der beste KI-gestützte Chatbot. Tatsächlich wurde das neueste Modell, GPT-4, auf den Azure-KI-Supercomputern von Microsoft trainiert und bestanden eine simulierte Anwaltsprüfung im 90. Perzentil. Das ist ein beeindruckendes System, um sich von künstlichen Aufsätzen und Skripten abzuheben. Mit einer einfachen Befehlsfolge kann ChatGPT innerhalb von Sekunden den Ton eines bestimmten Autors vereinfachen, verbessern oder sogar dem Ton eines bestimmten Autors entsprechen. Mit solchen öffentlich zugänglichen Tools, die in der Lage sind, sowohl Konzepte zu konzipieren als auch ein einheitliches Ergebnis zu erstellen, ist die traditionelle Methode der Bewertung von Schülern durch Aufsätze in ihrem Kern bedroht, sodass die Lehrer nach Lösungen suchen müssen. Was passiert jedoch, wenn diese scheinbar unfehlbaren, überfachlichen Systeme Halluzinationen hervorrufen, insbesondere voreingenommene?
Turnitin, GPTzero und OpenAI selbst gehören zu den vielen, die versuchen, KI-ähnliche Tendenzen beim Schreiben zu identifizieren, den Aufsatz in seiner Gesamtheit hervorzuheben und zu bewerten und zu analysieren, ob die Arbeit wahrscheinlich — oder teilweise — von KI geschrieben wird. Zur Klassifizierung von Texten wurden mehrere Methoden eingeführt. So ist beispielsweise der Algorithmus von GPTzero darauf trainiert, Folgendes zu beurteilen „Ratlosigkeit und Burstigkeit“und nutzt letztlich die Zufälligkeit und Vielfalt der Satzstruktur, um festzustellen, ob es genug „Disuniformität“ gibt, um von Menschen geschrieben zu werden.
Obwohl sie in der Geschäftswelt anwendbar sind, werden die meisten Detektoren im akademischen Bereich eingesetzt, um Studenten zu erkennen und abzuschrecken, die ChatGPT und verwandte Bots möglicherweise verwenden, um Aufgaben zu erledigen. Die Bestätigung authentischen Lernens und die Sicherstellung der Qualität der Diplome sind von entscheidender Bedeutung. In den letzten Monaten wurde jedoch festgestellt, dass diese Erkennungsalgorithmen bei bestimmten demografischen Merkmalen zu hohen Raten falsch positiver Ergebnisse führen. Darüber hinaus verwenden viele Unternehmen irreführende Statistiken und Markenkennzeichnungen, um die Nutzung ihrer Websites zu fördern — was zu falschen und potenziell verheerenden Anschuldigungen führt. Da diese Behauptungen für die Legitimität der Existenz der Plattformen von entscheidender Bedeutung sind, erfordert dies letztlich die Implementierung eines überprüfbaren Standards für die Unvoreingenommenheit der Modelle, was sich letztlich in den wenigen verfügbaren KI-Risikomanagementdiensten wie Calvin Risk.
Fallstudie: Die Bestrafung der Arbeit von englischen Autoren, die keine Muttersprache haben
In einem Studie von Stanford-ForschernUnter Verwendung einer Stichprobe von 91 von Menschen verfassten TOEFL-Aufsätzen aus einem chinesischen Bildungsforum und 88 ASAP-Aufsätzen der 8. Klasse in den USA wurde festgestellt, dass Nicht-Englischsprachler eine Falsch-Positiv-Rate erhielten, die die von Muttersprachlern bei weitem übertraf.
Vollständige Studie hier
In den meisten Fällen wurde mehr als die Hälfte der TOEFL-Essays, die keine Muttersprache sind, als „KI-generiert“ gekennzeichnet, wobei die durchschnittliche Falsch-Positiv-Rate bei 61,22% lag. Bemerkenswert ist, dass 18 der 91 TOEFL-Essays von allen getesteten ChatGPT-Detektoren einstimmig als „KI-generiert“ eingestuft wurden, während 89 von 91 Aufsätzen durch mindestens einen Detektor hervorgehoben wurden. Die Forscher stellten fest, dass die Aufsätze, die einstimmig identifiziert wurden, als Die generierte KI wies im Vergleich zu den anderen eine deutlich geringere Verwirrung auf— hostet einen P-Wert von 9,74E-05. Somit kann festgestellt werden, dass Nicht-Muttersprachler mit eingeschränkteren sprachlichen Ausdrücken und Satzvariabilität unter einer inakzeptablen Fehlerquote vom Typ I litten.
Die Forscher testeten diese Schlussfolgerung weiter und baten ChatGPT, die Ergebnisse zu „verbessern“: Für die TOEFL-Aufsätze wurde ChatGPT aufgefordert, „die Wortwahl so zu verbessern, dass sie eher wie die eines Muttersprachlers klingen“, während die Aufsätze der 8. Klasse in den USA von der Aufforderung „Vereinfachen Sie die Wortwahl, als ob sie von einem Nicht-Muttersprachler geschrieben worden wäre“. Die folgenden Entdeckungen wurden als Ergebnis generiert:
Vollständige Studie hier
Folglich kommen die TOEFL-Tests zu einer deutlich niedrigeren Rate falsch positiver Ergebnisse, obwohl ChatGPT selbst Änderungen vorgenommen hat. Paradoxerweise greifen Schüler, wenn sie auf Probleme mit der Erkennung stoßen, obwohl sie vollständig von Menschen geschrieben wurden, tatsächlich auf KI zurück, um nicht beschuldigt zu werden, anstatt sich auf ihrem Weg zur Schreibentwicklung von Professoren leiten und ermutigen zu lassen.
Fallstudie: Ergebnisse von Halluzinationen mit KI-Detektoren
Solche falschen Anschuldigungen sind bereits an den Universitäten angekommen, da Professoren schnell versuchen, jegliche Form von KI-Plagiaten einzudämmen. Allerdings mit irreführenden Behauptungen wie „99% Genauigkeit auf GPT-4“ (Originality.ai) oder „Millionen von Nutzern vertrauen [uns]“ (ZeroGPT), erweisen sich voreingenommene Modelle als potenzielle Belastung für diese Unternehmen.
William Quarterman, Student an der UC Davis, wurde plötzlich von seinem Professor darüber informiert, dass seine Prüfung als KI-generiert eingestuft wurde und dass die Schrift „wenig Ähnlichkeit mit den Fragen hatte“. Mit GPTzero als einzigem Beweis erhielt Quarterman eine nicht bestandene Note und wurde wegen akademischer Unehrlichkeit an das Office of Student Support and Judicial Affairs verwiesen. Nachdem er Beweise für seine Bearbeitungshistorie in Google Docs und zahlreiche Studien zur Fehlbarkeit von KI-Erkennungsalgorithmen zusammengetragen hatte, stellte er nach der Tortur fest, dass die Erfahrung bei ihm zu „ausgewachsenen Panikattacken“ geführt habe. Obwohl der Fall abgewiesen wurde, können solche Modellfehler nicht nur zu Reputationsschäden oder rechtlichen Konsequenzen für die Nutzer führen, sondern auch emotionale Schäden für die Opfer nach sich ziehen.
Abschwächung von Vorurteilen an der Quelle
Um diese Probleme zu reduzieren, müssen sowohl die Endnutzer als auch die KI-Erkennungsfirmen einen ganzheitlichen Ansatz verfolgen.
Vorerst sollten Studierende — insbesondere diejenigen, die möglicherweise kein Englisch als Muttersprache haben — darauf achten, Informationen zu sammeln oder Dienste wie Google Docs zu nutzen, mit denen der Schreibverlauf aufgezeichnet werden kann. Ebenso sollte die Wissenschaft sicherstellen, dass die Professoren sich der Funktionsweise dieser Systeme und der versteckten Häufigkeit von Modellhalluzinationen bewusst sind und sich mit ihnen auskennen.
Darüber hinaus sollten die wichtigsten Maßnahmen von den KI-Erkennungsfirmen selbst getroffen werden. Die Bereitstellung öffentlich verfügbarer Software in einem so wichtigen Bereich muss mit einem System von KI-Richtlinien und Risikomanagement einhergehen, um Benutzern unabhängig von ihrem Hintergrund ein vollständiges und unvoreingenommenes Erlebnis zu bieten.
Die KI-Risikomanagement-Plattform von Calvin Risk geht diese Herausforderung im Kern an und identifiziert nicht nur die Probleme, die sich aus den Modellen ergeben, sondern liefert auch eine konkrete Risikobewertung und die damit verbundenen Kosten.
Anhand dieser Tenants, wobei die Makrofälle technische, ethische und regulatorische Risiken sind, identifiziert und bewertet Calvin Risk jedes dieser Schlüsselprinzipien vertrauenswürdiger KI: Leistung, Robustheit und Sicherheit, Fairness, Erklärbarkeit und Transparenz, Rechenschaftspflicht sowie Compliance und Kontrolle. Mit umsetzbaren Maßnahmen und klar umrissenen Portfoliorisiken sind Unternehmen in der Lage, die in ihren Systemen auftretenden Fehler in den Griff zu bekommen und ihren Benutzern das Wissen zu vermitteln, dass Systeme zuverlässig und unvoreingenommen sind.
Sind Sie daran interessiert, die Fairness und Erklärbarkeit Ihrer Modelle für Ihren Kundenstamm zu erhöhen? Eine Demo buchen kommen Sie mit uns zusammen und lassen Sie uns Ihnen zeigen, wie wir die Effektivität und Vertrauenswürdigkeit Ihrer KI-Systeme in der heutigen, sich ständig verändernden Landschaft verbessern können.