loading . . . Probleme mit DCAT-AP.de, heute: Lizenzen Manchmal trifft man ja auf Dinge, bei denen man gar nicht glauben kann, dass sie einem nicht schon viel frueher aufgefallen sind. Und vor allem aber, dass das nicht schon laengst jemand anders aufgezeigt hat.
Aktuelles Beispiel sind die Lizenzdefinitionen in DCAT-AP.de, der nationalen Implementierung von DCAT-AP als Beschreibungsstandard fuer Open Data. Ich war schon im Fruehjahr 22 darueber gestolpert, dass DCAT-AP.de sprechende URIs fuer die Lieferanten von Daten definiert – was auch heisst, dass sich diese URIs immer wieder mal aendern. Das BMI hiess dort 2018 beispielsweise `bundesministeriumDesInnern`, 2020 `bundesministeriumDesInnernFuerBauUndHeimat`, 2022 `bundesministeriumDesInnernUndHeimat` – und im August 2025 in der aktuellsten Version und nach der Umbenennung des Ministeriums ist es dort immer noch das `bundesministeriumDesInnernUndHeimat`. Ein reines `bundesministeriumDesInnern` gibt es dort immer noch nicht als Datenlieferant – ebensowenig wie das BMDS oder das BMFTR.
_Einschub: Auch Wikidata macht diese Abbildung nicht ganz so perfekt.Das zugehoerige Datenobjekt ist dort immer dem Wikipedia-Artikel zum derzeit aktuellen BMI zugeordnet und schleppt quasi die Versionshistorie mit. In der Gemeinsamen Normdatenbank ist jede „Instanz“ des BMI mit einem eigenen Identifier bezeichnet; im Identifier fuer das vormalige Bundesministerium des Innern und fuer Heimat sind sowohl das „neue“ BMI (fuer den „Innern“-Teil“) als auch das „neue“ BMLEH (fuer den „Heimat“-Teil) als Nachfolgeinstanzen des „alten“ BMI angegeben. So waere das meines Erachtens auch fuer DCAT-AP.de richtig._
Als ich vergangene Woche bei einem Workshop die Liste der Lizenzen auf DCAT-AP.de vermutlich erstmals so _richtig_ angesehen habe, war ich aber wirklich ueberrascht. Denn neben Lizenzen, die vermutlich aus historischen Gruenden mitgeschleift werden, finden sich dort ein paar Definitionen, die meines Erachtens nie richtig sein konnten und dort auch nicht hingehoeren – aber in der Praxis in Gebrauch zu sein scheinen.
## Historisches, oder: Die Datenlizenz Deutschland als DDR der Lizenzen.
Bei Lizenzen, die historisch mal irgendwo in Gebrauch waren, kann man das nachsehen. Schliesslich soll solch eine Liste ja alle Faelle abdecken, die tatsaechlich real im Umlauf sein koennten. Die Datenlizenz Deutschland 1.0 ist seit dem Juli 2014 formell ueberholt (die Datenlizenz Deutschland 2.0 prinzipiell auch schon immer, aber darum geht es hier nicht), aber es koennen immer noch Datensaetze im Umlauf sein, die mit der DL-DE 1.0 lizenziert wurden.
Das ist quasi analog zu einem Eintrag „Geburtsland: Deutsche Demokratische Republik“ in den Urkunden von Menschen: Das gibt’s in der Realitaet, das ist auch formell korrekt so, und es ist auch sinnvoll, das maschinenlesbar abbildbar zu machen, solange das die Realitaet beschreibt (selbst wenn das nicht mehr lebende Personen betrifft). Das heisst aber natuerlich _nicht_ , dass es sinnvoll oder geboten waere, solch einen Eintrag bei einer jetzt gerade neu geborenen Person vorzunehmen. Weil das waere ja Quatsch. Bei bereits geborenen Menschen, fuer die das zutrifft: Prima. Neuvergabe: Nein.
Analog gilt das auch fuer Lizenzen, die mal fuer Datensaetze vergeben worden sind, deren Neuvergabe aber im Konflikt mit der EU-Open-Data-Richtlinie stuende. Die NC-Variante der CC-Lizenzen („nur zu nichtkommerziellen Zwecken“) geht ohnehin meist am Ziel vorbei (PDF), fuer Open Data ist sie jedenfalls gemaess der Open-Data-Richtlinie nicht passend und sollte daher auch nicht fuer neu hinzukommende Datensaetze ueberhaupt zur Auswahl stehen.
## Unsinniges, oder: Lizenzangaben, die so nie sein duerften
Wirklich am Kopf kratzen musste ich mich aber bei den Definitionen eigentlich „okayer“ Lizenzen gemaess der DCAT-AP.de-Liste. Die CC-BY-Lizenz gibt es beispielsweise in mehreren „Geschmacksrichtungen“: Der seit November 2013(!) ueberholten, aber vielfach noch verwendeten Version 3.0 (als `cc-by-de/3.0`), der zu bevorzugenden, aktuellen Variante CC BY 4.0 (als `cc-by/4.0`) und einer… ja, was eigentlich? Einer „allgemeinen“ Variante moechte man meinen, die als `cc-by` bezeichnet wird – _die aber nicht klarstellt, welche Version eigentlich gemeint ist_. Und das koennte ein Problem sein.
Gleich mehrere Lizenzen verweisen naemlich im Feld `Lizenztext` nicht etwa auf den kanonischen URL der jeweils bezeichneten Lizenz, sondern jeweils auf eine Uebersichtsseite bei opendefinition.org. `cc-by` verweist auf `https://opendefinition.org/licenses/cc-by/`, und dort findet sich eine Auflistung _aller fuenf Versionen dieser Lizenz_. Welche Version gemeint ist? Man weiss es nicht.
Genauso ist es bei der CC-0 1.0: Die wird in DCAT-AP.de `cc-zero` genannt (ohne Version, also nicht etwa `cc-zero/1.0`) und verweist ebenfalls auf eine Beschreibungsseite bei opendefinition.org und nicht auf die Freigabeerklaerung/Lizenz selbst. Solange es nur diese eine Version gibt, ist das vermutlich nicht schlimm. Korrekt ist das aber trotzdem nicht, weil hinter dem Lizenztext-Eintrag findet sich schlicht nicht der Lizenztext.
Noch kaputter ist das bei der (ohnehin zu vermeidenden, siehe oben) vermeintlich „allgemeinen“ Fassung von `cc-by-nc`, die auf `http://creativecommons.org/licenses/by-nc/` verweist: Dieser URL liefert laut Internet Archive seit etwa 2010 einen Fehler 404; zuvor _fand_ sich dort mal ein directory listing der darunter zu findenden verschiedenen Versionen der Lizenz. Als kanonischer URL fuer eine „allgemeine“ Fassung war das aber wohl erstens nie gedacht und ist auch weder fuer Altbestaende noch fuer neue Datensaetze sinnvoll.
## Was heisst das in der Praxis – fuer Verwendende?
Wann immer man irgendwo auf einen Datensatz mit `cc-by` oder `cc-by-sa` oder `cc-by-nc` in den Metadaten trifft, duerfte es sich um einen Datensatz mit „ungueltiger“ Lizenz handeln. Es ist nicht klar, welche Version genau gemeint ist. Sorry, Linie uebertreten, Versuch ungueltig. `cc-by-nd` verweist immerhin eindeutig auf die (seit nun fast 12 Jahren ueberholte) Lizenzversion 3.0, sinnvoll ist das aber ueberhaupt nicht.
## Was heisst das in der Praxis – fuer Open-Data-Stellen?
Spannend ist jetzt die Frage, wie Datenbereitstellende oder Betreibende von Datenportale mit dieser Liste umgehen sollen. Ich habe letzte Woche erfahren, dass manchmal der Eindruck entsteht, dass man in einem Datenportal auch _alle_ Lizenzen annehmen _muesse,_ die in dieser Liste stehen. Schon durch das DDR-Beispiel sollte klar sein, dass das nicht sinnvoll ist.
Aus meiner Sicht ergeben sich daher folgende Handlungsempfehlungen:
* Govdata.de, CCOD und weitere beratende Stellen muessen klarstellen: Die DCAT-AP.de-Lizenzliste ist keine „Positivliste“ aller auch jetzt noch zulaessigen Lizenzen fuer neue Datensaetze.
* Ebenso: Explizite Positiv-Empfehlungen, was als Standard gesetzt werden soll. Das ist CC-0 1.0 und CC BY 4.0 (mit expliziter Versionierung). Letzteres mit der verpflichtenden Namensnennung idealerweise nur dann, wenn es sich bei dem zu lizenzierenden Gegenstand auch zweifelsfrei um urheberrechtlich geschuetzte Inhalte handelt, nicht nur um Daten, die allenfalls dem Datenbankherstellerrecht unterliegen.
**Fuer Stellen, die Datenportale betreiben und/oder Daten von anderen per Harvesting konsumieren:**
* Fuer manuelle Pflege, solange es das noch gibt: Analog zum Open-Data-Kompass des ehemaligen BMDV (Archivlink) sollen die Lizenzen CC-0 1.0 und CC BY 4.0 bevorzugt angezeigt werden; „Lizenzen“ mit unklarer Geltung wie z.B. die DL-DE sollen allenfalls mit Warnhinweis ueberhaupt anwaehlbar sein. Idealerweise mit Verweis auf zentral (s.o.) gepflegte Erklaerungen, warum diese Lizenzen ein Problem sein koennten.
* Auch die „komischen“ Lizenzen koennen per Harvesting akzeptiert werden, sollten aber Ausloeser fuer eine Qualitaetssicherungs-Massnahme in Richtung der Quelle sein. D.h., wenn irgendwo etwas mit z.B. `cc-by` eingesammelt wird, sollte das einen automatischen Hinweis in Richtung dieser Stelle triggern: Das ist eventuell nicht das, was ihr machen solltet. Ziel muss sein, solche Schroedinger-Datensaetze in einen definierten Zustand zu heben.
**Und wer auch immer die Liste in DCAT-AP.de pflegt:**
* in DCAT-AP.de muss „aufgeraeumt“ werden. Insbesondere die Legacy-Lizenzen, aber auch die Definitionen mit unklarer Definition muessen als deprecated markiert werden: Die dienen der Beschreibung, was mal vorgekommen ist, sollen aber nicht fuer neue Datensaetze verwendet werden.
* und auch die CC-0 1.0 muss „richtig“ vergeben werden. Keine Ahnung, was das fuer einen Rattenschwanz nach sich zieht, aber der derzeitige Zustand ist… seltsam.
https://stefan.bloggt.es/2025/10/probleme-mit-dcat-ap-de-heute-lizenzen/