Künstliche Intelligenz

Titel von Penguin Randomhouse am häufigsten in KI-Software vertreten

Tausende Bücher dienten als Textgrundlage für eine Software, die beispielsweise in ChatGPT genutzt wird. Allen voran Titel von Penguin Randomhouse.

Prominente Autoren, darunter Margaret Atwood, Stephen King oder Sarah Silverman, haben in den vergangenen Monaten gegen die Nutzung ihrer Texte als Grundlage für Softwaremodelle, die beispielsweise von ChatGPT genutzt werden, geklagt. Auf amerikanischer Seite schlossen sich ihnen rund 8.000 Autoren an. Doch welche Verlage betrifft dies? Eine Suche in der Books3 Datenbank, die als Grundlage für Metas LLaMA und ChatGPT von OpenAI dient, zeigt, dass bestimmte Verlage diese Rangliste anführen.

Über 70.000 E-Books durchforstet

Mehr als 70.000 E-Books wurden unerlaubt genutzt, um Sprachmodelle für Künstliche Intelligenz mit Texten zu füttern.

So hat sich Peter Schoppert, Geschäftsführer von NUS Press, ein wenig mit den Datensätzen auseinandergesetzt. Mit weiterer Hilfe konzentrierte er sich auf rund 72.000 E-Books, die nach Autorenname, Verlagsname und ISBN durchsucht wurden. Als Grundlage, so das Online-Magazin AI and Copyright, dienten vornehmlich englischsprachige E-Books. Die Auswertung ergab laut Schoppert ein interessantes Bild.

Bleiben Sie auf dem Laufenden zu Neuerscheinungen und Buchtipps mit dem kostenlosen Newsletter unseres Partners 24books.de.

Penguin Randomhouse und Harper Collins auf Platz 1 und 2

Der Verlag mit der größten Anzahl an E-Book-Titeln in dieser gefilterten Liste ist die Penguin Publishing Group mit 6.866 ISBN, gefolgt von Harper Collins mit rund 5.800 Titeln und Random House Publishing mit rund 3.400 ISBN. Die aktuelle Auswertung kann hier eingesehen werden.

Auch die Univerlage sind laut Schoppert nicht verschont geblieben. So taucht die Columbia University Press mit 899 Tiiteln vor der Yale University Press mit 554 und Princeton UP mit 376 Titeln in der Liste auf. Dies zeigt laut Schoppert, dass die Annahme, die Texte, die für das Training der Software genutzt wurden, hauptsächlich Wikipedia und Reddit-Einträge seien, sowie Millionen Wörter aus dem Internet, falsch ist.

Die 20 nominierten Romane des Deutschen Buchpreises 2023 in der Übersicht

Cover zu „Drifter“ von Ulrike Sterblich
Cover zu „Südstern“ von Tim Staffel
Cover zu „Monde vor der Landung“ von Clemens J. Setz
Cover zu „Maman“ von Sylvie Schenk
Die 20 nominierten Romane des Deutschen Buchpreises 2023 in der Übersicht

Mehr als 72.000 illegale E-Books

Es wurden mehr als 72.000 illegal kopierte E-Book-Inhalte gefunden, die zur Schulung von Large Language Models (LLMs) verwendet wurden. Das Urheberrecht blieb hier auf der Strecke. Kürzlich wandte sich auch Horror-Schriftsteller Stephen King mit einem Artikel in The Atlantic an die Leserschaft, dass er keine Zustimmung zur Nutzung seiner Texte gegeben hatte.

Die Authors Guild, Amerikas älteste und größte Berufsorganisation für Schriftsteller, passte kürzlich ihren Verlagsautorenvertrag an. Ein Zusatz verbietet ab sofort das Trainieren der Software mit diesen Texten. Doch ob sich KI-Unternehmen daran halten werden, ist offen, heißt es auf AI and Copyright. In der Vergangenheit hatten sich diese auch an raubkopierten Inhalten bedient. Kürzlich gelang Autoren, darunter Stephen King, ein Teilerfolg. Eine kleine Datenbank mit dem Namen „Prosecraft“ wurde vom Netz genommen.

Bücher zum Thema Künstliche Intelligenz, die das Thema ausführlicher beleuchten, haben wir hier zusammengestellt.

Rubriklistenbild: © Jonathan Raa/Imago

Kommentare

Unsere Kommentarfunktion wird über den Anbieter DISQUS gesteuert.

Hinweise zum Kommentieren: Auf wa.de können Sie Ihre Meinung zu einem Artikel äußern. Im Interesse aller Nutzer behält sich die Redaktion vor, Beiträge zu prüfen und gegebenenfalls abzulehnen. Halten Sie sich beim Kommentieren bitte an unsere Richtlinien: Bleiben Sie fair und sachlich - keine Beleidigungen, keine rassistischen, rufschädigenden und gegen die guten Sitten verstoßenden Beiträge. Kommentare, die gegen diese Regeln verstoßen, werden von der Redaktion kommentarlos gelöscht. Bitte halten Sie sich bei Ihren Beiträgen an das Thema des Artikels. Lesen Sie hier unsere kompletten Nutzungsbedingungen.


Bitte beachten Sie: Die Kommentarfunktion unter einem Artikel wird automatisch nach drei Tagen geschlossen.

Netiquette
Hinweis: Kommentieren Sie fair und sachlich! Rassistische, pornografische, menschenverachtende, beleidigende oder gegen die guten Sitten verstoßende Äußerungen sind verboten und werden gelöscht.

Kommentare