--------- Website Scaling Desktop - Max --------- -------- Website Highlight Effekt ---------

Der Kampf gegen das unfreiwillige Sammeln von Daten

Die Einschränkungen der KI-Web-Scraping-Tools haben sich in den letzten Monaten zu einer weitreichenden Bewegung entwickelt und die Welt des Journalismus durchforstet, während sich die generative KI im Jahr 2023 ausbreitete. Angesichts der Tatsache, dass führende Namen auf diesem Gebiet — darunter die New York Times, BBC, Bloomberg, CNN und viele mehr — Schutzmaßnahmen ergreifen, um ihre Inhalte vor unbefugter Datenerfassung zu schützen, stellt sich die Frage, wie genau diese Standards geistiges Eigentum schützen werden und welche Risiken sind mit diesen Maßnahmen verbunden?

Ein genauerer Blick auf Web Scraping und generative KI

Generative KI ist ein Eckpfeiler an dieser Schnittstelle von Natural Language Processing (NLP) und Machine Learning (ML) und hängt fast zwangsläufig von der Vielzahl der Daten ab, die sie aus dem Internet sammeln kann, um sie zu strukturieren und für ihre Ergebnisse zu lernen. Da die Größe dieser Modelle wie ChatGPT, LLama und Bard exponentiell zunimmt — gebaut mit potenziell Hunderten bis Milliarden von Tokens an Informationen — bietet das Internet die notwendige Fülle an unterschiedlichen Trainingspaketen, um kohärente, wettbewerbsfähige Ergebnisse zu gewährleisten.

Diese Wettbewerbsfähigkeit ist entscheidend für die Durchführbarkeit von Modellen im Vergleich zu ihren Mitbewerbern; Katie Gardner, Partnerin der internationalen Anwaltskanzlei Gunderson Dettmer, wies auf die Bedeutung von nutzergenerierten Inhalten und Texten für Unternehmen hin, die auf das Teilen verschiedener Formen von Blogbeiträgen spezialisiert sind — ein Punkt, der nur weiter auf den Journalismus übertragen wird. Der „Wettbewerbsvorteil liegt in den Daten“, wie Gardner erklärt. Unternehmen wie X (ehemals Twitter) und Reddit haben diesen Vorteil erkannt und stattdessen einen kostenpflichtigen Ansatz für die Datenübertragung gewählt.

Das Wort von Nachrichtenseiten

Einer der wichtigsten Gründe dafür, dass der Journalismus beim Verbieten/Verhindern von Web-Scraping eine so starke Haltung einnimmt, liegt in der Art des Geschäfts. Natürlich haben Nachrichtenseiten eine hohe Konzentration an seriösen, hochwertige schriftliche Informationen zum Trainieren von Modellen mit. Für ein CNN-Interviewwird derzeit eine Vielzahl von Maßnahmen ergriffen oder erwogen, deren Schweregrad von der Verabschiedung von Lizenzvereinbarungen bis hin zu Rechtsstreitigkeiten unter Ausnutzung des Urheberrechts reicht.

Ein weiteres Hauptanliegen von Nachrichten- und Verlagsunternehmen ist die Verwendung ihrer Inhalte für falsche oder irreführende Ausgaben. wie vom Guardian berichtet. Generative KI, bekannt als Halluzinationen, kann unbeabsichtigt Antworten mit falschen oder irreführenden Informationen erzeugen, die als Fakten dargestellt werden. Prinzipiell empfinden viele Menschen in der Welt des Schreibens und des Journalismus die Verwendung dieser Web-Scraper als eklatante Verletzung ihres geistigen Eigentums — was in ein System einfließen lässt, das dann ihre Arbeit ohne Vergütung nachahmen kann. Ähnliches gilt für Inhalte und Informationen, die von Personen außerhalb des beruflichen Kontextes gesammelt werden. Gardner stellt fest: „Es ist sehr schwierig zu wissen, ob personenbezogene Daten verwendet wurden und wenn ja, wie sie verwendet werden und welche potenziellen Schäden sich aus dieser Verwendung ergeben — unabhängig davon, ob diese Schäden für eine Einzelperson oder die Gesellschaft im Allgemeinen gelten.“ Angesichts mehrerer komplexer, sich überschneidender Bedenken muss auch ein rechtlicher Ansatz in Betracht gezogen werden.

Das rechtliche Argument

Der rechtliche Ansatz ist mit mehreren Nuancen ausgestattet, insbesondere in den unterschiedlichen Jurisdiktionen der einzelnen Länder. In den USA ist das Scraping von Daten argumentierte, gerecht zu sein aufgrund der Gesetze zur „fairen Verwendung“, die „die eingeschränkte Verwendung von urheberrechtlich geschütztem Material erlauben, ohne dass zuvor die Genehmigung des Copyright-Inhabers eingeholt werden muss“. Unternehmen wie OpenAI lehnen diesen Gedanken ab, insbesondere im Hinblick auf das aktuelle Urteil des Obersten Gerichtshofs, das urheberrechtlich geschütztes Material zulässt, solange es transformativen Charakter hat (das Werk wird verändert, anstatt es zu verpflanzen). Allerdings stellen sich viele die Frage, ob dieser Wandel immer zutrifft, und Gardner fährt fort: „... wir haben bereits viele Fälle gesehen, in denen Benutzeraufforderungen zu Ergebnissen führen können, die ganz offensichtlich eine Ableitung eines urheberrechtlich geschützten Werkes zu sein scheinen und somit eine Rechtsverletzung darstellen.“

In Europa ist der DSGVO ist derzeit das Hindernis für die Erfassung umfangreicher Daten ohne ausdrückliche Zustimmung der betroffenen Parteien. Das vorübergehende Verbot von ChatGPT in Italien im März 2023 stellt eine konkrete Definition dieser Bedenken dar und erlaubt die Nutzung erst, nachdem OpenAI Anpassungen an den Datenschutzbedenken vorgenommen hatte. Darüber hinaus wird die generative KI mit dem Inkrafttreten des EU-Gesetzes über künstliche Intelligenz konfrontiert erhöhte Offenlegungspflichten neben allgemeinen KI-Sicherheitsanforderungen.

Aufgrund dieser rechtlichen Bedenken hat sich bei vielen generativen KI-Modellen ein Rückgang des „Black-Box-Charakters“ ergeben. Margaret Mitchell, Forscherin und leitende Ethikwissenschaftlerin bei Hugging Face, reflektierte diese Entwicklungen und Diskussionen über das Scraping von Datenund erklärte, es sei ein „gutes Zeichen dafür, dass der ethische Diskurs über KI das öffentliche Verständnis weiter bereichert“.

Jenseits des Journalismus: Razzien in Unternehmen

Insbesondere der Journalismus ist nicht der einzige Bereich, in dem das Risiko eines Zusammenstoßes gegen das Auslesen von KI-Daten besteht. Im Bereich der Musikproduktion beantragte die Universal Music Group — einer der größten Vertriebspartner auf dem Markt — Spotify und Apple eine Sperrung für Durchforsten seiner Kataloge nach Daten, inmitten der Anfänge von KI-generierter Musik. Darüber hinaus gibt es mehrere Auflistungs- und Informationsseiten wie Amazon und Airbnb haben Webcrawlern, die generative KI antreiben, ein Ende gesetzt, ebenso wie Ikea, Indeed.com und sogar BAILII, das Gerichtsaktensystem des Vereinigten Königreichs.

Implikationen für das Gebiet der KI

Angesichts der Tatsache, dass eine große Anzahl von Unternehmen aus allen Bereichen den Einsatz von Web-Scraping-Tools verbietet, lohnt es sich, die Auswirkungen zu berücksichtigen, die auf Unternehmen der generativen KI zukommen werden. Da Datensätze restriktiver und kostspieliger werden, könnte die Qualität der Ergebnisse tatsächlich erheblich sinken, da seriöse Quellen für solche Unternehmen zunehmend unerreichbar sind. Es muss ein viel sorgfältigeres KI-Risikomanagement durchgeführt werden. Dabei muss sichergestellt werden, dass die optimierten Ergebnisse der GenAI-Modelle auf zuverlässigen, vertrauenswürdigen Daten basieren, wobei besonders darauf zu achten ist, dass die Ergebnisse verzerrungsfrei sind. Aus diesem Grund freut sich Calvin darauf, diesen Bereich durch das Festhalten an quantitativen Lösungen für das KI-Risikomanagement zu begleiten und Unternehmen anhand ihrer Modellvielfalt innerhalb von KI-Portfolios überprüfbare Ergebnisse zu liefern.

Möchten Sie mehr über unser Angebot für verantwortungsvolle KI erfahren? Buchen Sie noch heute eine Demo bei uns!

Autoren

Shelby Carter

Praktikant in der Geschäftsentwicklung

Aufrüsten KI-Risikomanagement heute!

fordern Sie eine Demo an

Abonniere unseren
monatlicher Newsletter.

Beitreten unsere
tolles Team
heute!

mailen Sie uns