Talk
Open Standards for Data Mesh
Dr. Simon Harrer, Co-Founder & CEO @ Entropy Data · 21. April 2026
In diesem Vortrag beim Data Mesh Belgium Meetup #7 in Leuven gehe ich die drei offenen Standards durch, die prägen, wie wir Data Mesh heute bauen: den Open Data Contract Standard (ODCS), den Open Data Product Standard (ODPS) und das Open Semantic Interchange (OSI). Ich zeige, wie sie zusammenpassen, wohin sich das Tooling entwickelt und warum ein Standard in vier Jahren überall sein wird.
Danke an Tom De Wolf (ACA) und Emma Houben (AE) für die Einladung und das Hosten des Meetups, und an die BITOL-Community für die offenen Standards, die wir gemeinsam bauen.
Q&A
Ausgewählte Fragen aus dem Publikum nach dem Vortrag.
F: Wenn du viele Data Contracts aus derselben Quelle hast und dieselben Quality Checks über alle hinweg pflegen und ändern musst, wie gehst du damit um?
Der beste Ansatz ist, den Quality Check upstream zu schieben -- so nah wie möglich an das Quellsystem -- damit du Fehler früh fängst und nicht dieselben teuren Checks wiederholt den Graphen hinunter ausführen musst. Falls das nicht möglich ist, ist eine Antwort KI: mit Agenten wie Claude Code ist es relativ günstig, verwandte Checks über Contracts hinweg konsistent zu halten, und das ist nicht so frech, wie es klingt. Darüber hinaus ist das Muster, das wir typischerweise nutzen, eine Verknüpfung vom Contract zu einem semantischen Modell. Du definierst order_id einmal -- Beschreibung, Typ, Format ("beginnt mit 053") -- und erbst es überall. Bonus: Weil zwei Contracts auf dasselbe order_id-Konzept zeigen, weiß die KI, dass diese Tabellen gejoint werden können. Dasselbe, nicht ähnlich.
F: Wie verhält sich OSI zu DCAT?
Heute haben sie keine Beziehung zueinander. DCAT lebt in der RDF- / Semantic-Web-Welt als Katalog-Vokabular, inspiriert von Bibliotheken und Dataset-Angeboten. Es gibt eine Working Group in OSI, um Semantik hinzuzufügen -- Konzepte und Eigenschaften, im Grunde ein in YAML kodierter Graph -- was die beiden näher zusammenbringt, aber ich glaube nicht, dass sie jemals perfekt zusammenpassen werden. DCAT komponiert in RDF natürlich mit anderen Vokabularen (DPROD von der OMG zum Beispiel). YAML-Formate wie OSI sind strikter. Die Formatwahl hat Konsequenzen.
F: Du hast erwähnt, Transformationen mit dem Data Contract zu automatisieren. Kannst du ein Beispiel geben? Mein Verständnis ist, dass der Contract keine Transformationslogik erfasst.
Richtig -- der Contract ist auf den Consumer ausgerichtet, nicht auf die Implementierung. Er erfasst ein paar Transformationshinweise (woher eine Spalte kommt, eine kurze Beschreibung), ist aber bewusst begrenzt. Du kannst immer ODCS' Custom Properties nutzen, um zu kodieren, was du brauchst. Was wir in der Praxis sehr gut funktionieren sehen: Gib Claude Code die Input- und Output-Contracts plus einen Skill wie "so bauen wir typischerweise ein Databricks-Datenprodukt" und lass es die Lücken füllen. Füge semantische Verknüpfungen hinzu, die über Contracts hinweg auf dieselben Konzepte zeigen, und die KI findet auch die Joins heraus. Für tatsächliche Runtime-Lineage-Details -- wie die Pipeline wirklich funktioniert -- nutze OpenLineage-Traces. Das ist es, was Column-Level Lineage erfasst, nicht der Contract.