Home

Data-Mining in der Wissenschaft: Gold bleibt in den Lizenzen vergraben

Mit der Entwicklung des Internets und insbesondere durch den Erfolg von Social Media ist die Produktion von Daten und Informationen dramatisch gestiegen. So werden jede Minute mehr als 500 neue Websites geschaffen und 48 Stunden Bildmaterial auf YouTube hochgeladen. Big Data, der Einsatz und die Verarbeitung des enormen Vorkommens an digitalen Daten, birgt enorme Potenziale für Wirtschaft und Wissenschaft. In den Geisteswissenschaften hat sich beispielsweise mit den Digital Humanities ein ganz neues Forschungsfeld aufgetan. Allerdings seien Bibliotheken, so Helen Heinrich von der California State University, bei Big Data bereits etwas hinten dran und es sei höchste Zeit, sich in diesem Bereich zu engagieren. Viele Kolleginnen und Kollegen teilten offenbar diese Ansicht – der Sitzungsraum für die Session „Gold mining! Text and data mining of journals“ war bis auf den letzten Sitzplatz gefüllt. Dort näherte man sich dem Thema mit vier einführenden Beiträgen. Der überblicksartige Vortrag von Ann Okerson sowie der Beitrag von Martha Speirs zum mehrsprachigen Information Retrieval stehen im IFLA-Repositorium zur Verfügung.

Schlüsselthema des Sitzungsblocks waren die lizenzrechtlichen Rahmenbedingungen als grundlegende Voraussetzung zur Durchführung von Data-Mining. Gültiges Urheberrecht und unklare bzw. intransparente Lizenzbedingungen bei veröffentlichten Zeitschriftenartikeln erschweren das Data-Mining oder machen vorherige Absprachen mit den betreffenden Verlagen notwendig. Selbst bei Open Access Repositorien wie PubMed Central stehen lediglich 17% der eingestellten Artikel ohne weitere Nachfragen oder Auflagen für Data-Mining zur Verfügung. Das bremst umfangreiche Data-Mining-Projekte aus, da Absprachen mit einer Vielzahl von Verlagen für Wissenschaftler zu aufwändig und umständlich sind. In den USA gibt es zwar Fair-Use-Regeln und in Europa existieren möglicherweise auch Urheberrechtsschranken, die das Data-Mining erlauben könnten, die rechtliche Unsicherheit bleibt jedoch problematisch. Zukünftige Lizenzen mit Verlagen sollten deshalb eine Erlaubnis zu Data-Mining verpflichtend vorsehen.

Die ReferentInnen und DiskussionsteilnehmerInnen waren sich darin einig, dass BibliothekarInnen eine Reihe von Funktionen bei Data-Mining im Wissenschaftsbereich einnehmen könnten. So könnten sie die Zusammenarbeit zwischen Verlagen, Bibliotheken und der wissenschaftlichen Community organisieren. Eine weitere Aufgabe könnten Schulungen für das wissenschaftliche Personal im Bereich Data-Mining und Big Data sein. Ob das bibliothekarische Fachpersonal auch technische und juristische Aufgaben übernehmen könnte oder sollte, blieb offen. Expertise in diesen Feldern wäre besonders wertvoll, da sie neben der IT-Infrastruktur und dem eigentlichen Indexierungsprozess offenbar zu den teuersten Faktoren des Data-Mining gehört.

(IFLA-Express Team: Martin Hermann)