It's a perfect match

Haben zwei Codeliestenwerte dieselbe Bedeutung? Detektiere Ähnliches. Und dokumentiere Unterschiede.

Bundesamt für Statistik (BFS), Sektion Kompetenzzentrum für Datenbewirtschaftung und Basisdienste

Bedarf/Problem und Zielgruppe

In vielen Verwaltungsdatensätzen werden gleiche Inhalte unterschiedlich beschrieben: Ein Datensatz nennt den Status "active", ein anderer "laufend". Frauen erhalten im einen Datensatz den Code “w" zugeweisen, im anderen "1". Noch kniffliger wirds, wenn Kategorien nur teilweise übereinstimmen – etwa, wenn ein Datensatz lediglich «Grundschule» beinhaltet, während ein anderer zwischen «Primarschule» und «Sekundarstufe I» unterscheidet.

Solche Unterschiede erschweren den Datenaustausch und führen zu Unschärfen in Auswertungen. In dieser Challenge entwickelst du einen Prototypen, der Gemeinsamkeiten und Unterschiede zwischen Attributen sichtbar macht – oder sogar Unterschiede auflöst.

Grundlage sind Dateien im SHACL-Format, in denen Struktur und Attribute von Datensätzen beschrieben sind. Deine Lösung detektiert semantisch harmonisierbare Attribute. Vielleicht macht deine Lösung die Gemeinsamkeiten und Unterschiede in einem Dashboard sichtbar. Oder vielleicht generiert sie eine Mapping-Tabelle. Auf jeden Fall helfen deine Ideen dabei, die Behördendaten semantisch zu harmonisieren.

(Nicht) verfügbare Daten

Sämtliche öffentlich publizierten Einträge auf der Interoperabilitätsplattform I14Y.admin.ch. Bei Bedarf: der Code der Plattform.

Erwarteter Nutzen

Datenfachleute kennen das Problem: Viele Datensätze können nicht zusammengeführt werden, weil Attribute unterschiedlich definiert wurden. Das Fernziel ist eine Datenharmonisierung: Alle sollen identische Attribute gleich erfassen. In einer Zwischenphase kann es aber nötig sein, die Gemeinsamkeiten und Unterschiede zu dokumentieren. Damit wird die Grundlage für eine Datenharmonisierung geschaffen. Und damit wird es möglich, Datensätze trotz kleiner Codierungsunterschiede rasch zu kombinieren.

Ziel für den Hackathon

Entwicklung von Ideen, Methoden und Prototypen zur Dokumentation von Gemeinsamkeiten und Unterschieden zwischen zwei Codelistenwerten. Automatisierte Generierung von Mapping-Tabellen.

Einschränkungen

Die Arbeiten an I14Y werden in diesem Jahr abgeschlossen. Anschliessend steht der Code der Plattform als Open-Source-Software zur Verfügung. Einfache Erweiterungen insbesondere im Bereich der Mapping-Tabellen können noch integriert werden. Komplexere Erweiterungen werden allenfalls erst im Nachfolgeprojekt metadata.swiss umgesetzt.

Nachhaltigkeit

Das Entwicklungsteam prüft die Ideen, Ansätze und Prototypen und implementiert allenfalls Teile davon in I14Y.

All attendees, sponsors, partners, volunteers and staff at our hackathon are required to agree with the Hack Code of Conduct. Organisers will enforce this code throughout the event. We expect cooperation from all participants to ensure a safe environment for everybody.

The contents of this website, unless otherwise stated, are licensed under a Creative Commons Attribution 4.0 International License. The application that powers this site is available under the MIT license.