KI-Systeme wie ChatGPT, aber auch Bild- und Programmcode-Generatoren, erzeugen Unmengen neuer Inhalte. Doch wem gehören diese Texte, Bilder oder Skripte? Wer hat das Copyright an den Erzeugnissen der GPT-Systeme? Und wie wird der Umgang mit Quellen geregelt?
Rechtlicher Status unklar
Bisher gibt es keine einheitliche Regelung, welchen Status von einer KI generierte Texte, Kunstwerke oder andere Erzeugnisse haben. In Großbritannien können rein computer-generierte Leistungen urheberrechtlich geschützt werden. In der EU fallen solche Werke dagegen nicht unter das Urheberrecht, wenn sie ohne menschliches Zutun entstanden sind. Allerdings kann das Unternehmen, das die KI entwickelt hat und betreibt, die Nutzungsrechte einschränken. OpenAI erlaubt allerdings bisher die freie Verwendung der von ChatGPT produzierten Texte, sie dürfen auch weiterverkauft, abgedruckt oder für Werbung genutzt werden.
Auf den ersten Blick ist dies eindeutig und für Nutzer sehr praktisch. Doch das wahre Problem liegt tiefer: Den Texten von ChatGPT ist nicht ohne weiteres anzusehen, aus welchen Quellen er seine Informationen bezogen hat. Selbst bei gezielter Nachfrage gibt das KI-System darüber keine Auskunft. Eine typische Antwort von ChatGPT darauf lautet beispielsweise: „Sie stammen nicht aus einer spezifischen Quelle, sondern sind eine Zusammenfassung verschiedener Ideen und Ansätze.“
Das Problem der Trainingsdaten
Doch das bedeutet auch: Ob das Sprachmodell wirklich seine Text völlig neu und eigenständig zusammengestellt hat oder ob es nicht doch Texte aus seiner Trainingsdaten paraphrasiert oder sogar plagiiert, ist für Nutzer nicht erkennbar. Weil die Trainingsdaten auch urheberrechtlich geschützte Texte umfassen, kann das im Extremfall dazu führen, dass ein KI-generierter Text gegen das Copyright eines Autors oder Verlags verstößt, ohne dass dies der Nutzer wusste oder intendiert hat.
Bisher dürfen Unternehmen durch Copyright geschützte Texte dann ohne explizite Erlaubnis der Autoren oder Verlage nutzen, wenn diese zum Text- oder Datamining verwendet werden. Darunter versteht man die statistische Auswertung großer Datenmengen, beispielsweise um übergeordnete Trends oder Zusammenhänge zu erkennen. Solche „Big Data“ werden unter anderem im Finanzbereich, im Marketing oder bei wissenschaftlichen Studien beispielsweise zu medizinischen Themen eingesetzt. Bei diesen Verfahren werden aber die Inhalte der Quelldaten nicht direkt reproduziert. Das ist bei den GPT-Systemen anders.
Gegen einige auf GPT-Systemen beruhende Text-zu-Bild-Generatoren wie Stable Diffusion und Midjourney laufen bereits Klagen von Künstlern und Fotoagenturen wegen Verletzung des Copyrights. Die KI-Systemen hatten für ihre Kollagen Teil geschützter Kunstwerke verwendet. OpenAI und Microsoft müssen sich wegen ihres KI-basierten Programmierassistenten Copilot verantworten, die Anklage lautet hier Software-Piraterie.
Plagiieren ChatGPT und Co?
Ob auch Sprachmodelle wie ChatGPT Plagiate produzieren, haben kürzlich Forscher der Pennsylvania State University näher untersucht. Dafür nutzten sie eine auf die Erkennung von Plagiaten spezialisierte Software, um 210.000 KI-generierte Texte und Trainingsdaten von verschiedenen Varianten des Sprachmodells GPT-2 auf drei Arten von Plagiaten zu überprüfen. GPT-2 nutzten sie deswegen, weil von dieser KI die Trainingsdatensätze öffentlich zugänglich sind.
Für ihre Tests prüften sie die Erzeugnisse des KI-Systems zum einen auf wortwörtliche Übernahmen von Sätzen oder Textpassagen. Als zweites suchten sie nach Paraphasen – nur leicht umformulierte oder umgestellte Abschnitte des ursprünglichen Textes. Und als dritte Form des Plagiats fahndete das Team mithilfe ihrer Software nach einer Ideenübernahme. Dabei werden die Kerninhalte eines Ausgangstexts zusammengefasst und komprimiert wiedergegeben.
Von wörtlicher Übernahme bis Ideenklau
Die Überprüfung ergab: Alle getesteten KI-Systeme produzierten in ihren Texten Plagiate der drei verschiedenen Typen. Die wortwörtlichen Übernahmen erreichten dabei sogar Längen von im Mittel 483 Zeichen, der längste Plagiatstext war sogar mehr als 5.000 Zeichen lang, wie das Team berichtet. Der Anteil der wörtlichen Plagiate schwankte je nach Sprachmodell zwischen 0,5 und knapp 1,5 Prozent. Paraphrasierte Abschnitte lagen dagegen im Schnitt bei unter 0,5 Prozent.
Ausgerechnet die GPT-Sprachmodelle, die auf den größten Trainingsdatensätzen und den meisten Parametern beruhten, produzierten dabei die meisten Plagiate. „Je größer ein Sprachmodell ist, desto größer sind normalerweise seine Fähigkeiten“, erklärt Erstautor Jooyoung Lee. „Aber wie sich nun zeigt, kann dies auf Kosten der Urheberrechte im Trainingsdatensatz gehen.“ Das sei vor alle deshalb relevant, weil neuere KI-Systeme wie ChatGPT auf noch weit größeren Datensätzen beruhen als die von den Forschern getesteten Modelle.
„Auch wenn die Erzeugnisse der GPTs ansprechend und die Sprachmodelle bei bestimmten Aufgaben hilfreich und produktiv sind – wir müssen in der Praxis mehr auf die ethischen und urheberrechtlichen Probleme achten, die solche Textgeneratoren aufwerfen“, sagt Koautor Thai Le von der University of Mississippi.
Rechtliche Fragen offen
Einige wissenschaftlich Fachjournale haben schon klar Stellung bezogen: Sowohl in „Science“ als auch in den Journalen der „Nature“-Gruppe werden keine Manuskripte akzeptiert, deren Text oder Grafiken von solchen KI-Systemen produziert wurden. Auch als Mitautor dürfen ChatGPT und Co nicht genannt werden. Bei den medizinischen Fachjournalen der American Medical Association (AMA) ist die Nutzung zwar erlaubt, es muss aber genau deklariert werden, welche Textabschnitte von welchem KI-System erzeugt oder editiert wurden.
Doch darüber das Problem des Urhebers hinaus gibt es noch weitere rechtliche Fragen, die es in Zukunft zu klären gilt, wie auch KI-Forscher Volker Tresp von der Ludwig-Maximilians-Universität München betont: „Durch die neuen KI-Leistungen müssen wir Fragen lösen wie diese: Wer ist verantwortlich für eine KI, die diskriminierende Aussagen macht – und damit nur das wiedergibt, was das System auf Basis von Trainingsdaten kombiniert hat? Wer übernimmt die Verantwortung für Behandlungsfehler, die auf Basis einer Empfehlung durch eine KI zustande kamen?“ Bisher gibt es auf diese Fragen keine oder nur ungenügende Antworten.