Neuer Schub für Open Data

Neue Konzepte beflügeln Linked Open Data

Traditionell wurden zur Verarbeitung und Analyse von Linked Open Data semantische Technologien wie beispielsweise Ontologien benutzt. Die Mächtigkeit des Konzepts führte letztlich dazu, dass die algorithmische Komplexität schon bei kleinen Problemen nicht mehr handhabbar war. Bei grossen Datenmengen stösst die Technik daher an Grenzen, die häufig eine praktikable Umsetzung verhindern. Nach einer kurzen Hype-Phase folgte deshalb in der Szene Ernüchterung. Doch es deutet sich ein Comeback an.

Quelle: FFHS / LOD Cloud Platform

Deutlich wird das anhand der Anzahl Updates, die auf der Linked Open Data Cloud Platform in den vergangenen zwölf Jahren registriert wurden. Nach einer Stagnation zwischen den Jahren 2008 und 2016 gab es seit 2016 zwölf Updates; die Anzahl der verfügbaren Datensätze ist seitdem auf über 1200 gewachsen (vgl. Grafik). Ebenso zeigt die Linked Open Data Cloud das Potenzial der Verknüpfung von Open Data und Linked Data.

Herausforderung für Machine Learning

Während klassische Verfahren der KI Algorithmen verwenden, die auf Formalismen der mathematischen Logik basieren, verwendet Machine Learning Modelle, die permanent und schnell mathematische Berechnungen auf Basis grosser Datenmengen durchführen. Beispiele sind Empfehlungen auf E-Commerce-Plattformen, selbstfahrende Autos oder Anwendungen der Betrugserkennung.

Es ist für viele Machine-Learning-Projekte allerdings eine grosse Herausforderung, Datensätze von guter Qualität und ausreichender Menge zu beschaffen. Neben dem Sammeln der Daten ist das Aufbereiten davon, das sogenannte Feature Engineering, in der Regel ein sehr zeitaufwendiger Teil eines Machine-Learning-Projekts. Denn Daten können aus unterschiedlichen Quellen stammen oder sie liegen in nicht standardisierten sowie unterschiedlichen Formaten vor. Genau hierin liegt das Potenzial einer Integration von Machine Learning und Linked Open Data. Denn bei Linked Open Data werden grosse Mengen an strukturierten und standardisierten Daten bereits angeboten. Die Datenstrukturen in der Welt von Linked Open Data sind jedoch häufig keine Tabellen, die sich ideal für das Machine Learning eignen, sondern komplexe Wissensgraphen. Eine Schwierigkeit, für die bereits an Lösungen gearbeitet wird.

Ansätze zur Verknüpfung von Machine Learning und Linked Open Data wurden von den Wissenschaftlern Peter Bloem und Victor de Vries 2014 mit der Idee entwickelt, dass RDF-Daten in einen Machine-Learning-Prozess direkt einbezogen werden müssten. In einer späteren Arbeit von Xander Wilcke, Peter Bloem und Victor de Vries 2017 wurden diese Ansätze konkretisiert: Statt einen Wissensgraphen in tabellarische Daten zu transformieren, sollten sie direkt als Input für Machine-Learning-Algorithmen verwendet werden. Aufbauend auf den klassischen Convolutional Neuronal Networks, wurden Graph Convolutional Networks entwickelt.

Es gibt bereits erste praktische Anwendungen des Konzepts. Eine solche ist das Empfehlungssystem PinSage für Pinterest. PinSage wurde in der Zusammenarbeit von Pinterest mit der Stanford University realisiert und übertrifft klassische Deep Learning Baselines (Ying et al 2018). Eine weitere Anwendung ist die Suite PoolParty der Semantic Web Company aus Wien. Das Unternehmen wurde 2018 im Gartner Hype Cycle for Artificial Intelligence Report als Musteranbieter erwähnt. PoolParty enthält einen sogenannten Semantic-Web-Klassifikator, dem Fachwissen in Form eines Wissensgraphen bereitgestellt wird.

Fazit

Gemäss Gartner sind Graphen einer der bedeutendsten Daten- und Analytik-Trends dieses Jahres. Ferner sei bis 2022 mit einem jährlichen Anstieg von 100 Prozent bei der Anwendung von Graph-Datenbanken zu rechnen. Im Gartner-Hype-Zyklus für aufkommende Technologien wird postuliert, dass Wissensgraphen und Graph-Analytik in fünf bis zehn Jahren das Plateau der Produktivität erreichen. Eine Kombination von Linked Open Data und Machine Learning wird hierbei eine wichtige Rolle spielen.

Die Autoren

Verfasst wurde dieser Beitrag von Urs-Martin Künzi und Martina Perani. Künzi ist Dozent am Laboratory for Web Science der Fernfachhochschule Schweiz. Perani ist an diesem als wissenschaftliche Mitarbeiterin tätig.

< Vorherige Seite

Seite 2/2

Auf einer Seite lesen

Autor(in) Computerworld Redaktion

Neuer Schub für Open Data

Neue Konzepte beflügeln Linked Open Data

Herausforderung für Machine Learning

Fazit

Aktuelle Jobs