4. Smarte Erschließung, Kuratierung und Auffindbarkeit als Mensch-Maschine-Kooperation

Zweck dieses Abschnitts

Im Internetzeitalter, in dem Inhalte von Nutzenden generiert werden, sind sehr große Mengen von Inhalten zu erschließen und zu kuratieren. Hierfür braucht es smarte maschinengestützte Ansätze. Dieser Abschnitt zeigt Bedarf und Lösungsansätze auf.



Motivation und Überblick

Lehr- und Lerninhalte müssen besser auffindbar werden. Künftig sollen sie den Lehrenden und Lernenden in der passenden Situation vorgeschlagen werden. Softwareanwendungen, die solche Vorschläge machen sollen, benötigen dafür günstigere Voraussetzungen. Beispielsweise müssen die Lehr- und Lerninhalte gut verschlagwortet sein. "Verschlagworten" meint hier das Kennzeichnen eines Inhalts zum Beispiel:

  • geeignet für den Erwerb folgender Kompetenz(en)
  • geeignet für Nutzende mit folgenden Vorkenntnissen
  • geeignet für Berufsausbildung für Beruf X
  • geeignet für Nutzende mit folgenden Sprachkenntnissen (z.B. Deutsch einfache Sprache)
  • geeignet für Zielgruppe im Alter von - bis oder eingeschränkt nutzbar gemäß FSK-Alterstufe
  • geeignet für Online-Unterrichtsformate
  • Sachrichtigkeit des Inhalts wurde bestätigt durch Fachredaktion im Schulbereich (oder durch maschinelle Überprüfung)

Insgesamt gibt es mehr als 50 Eigenschaften, die in aktuellen Redaktions- und Bibliothekssystemen den Inhalten zugeordnet werden. Für die zunehmende Menge von nutzergenerierten Inhalten braucht es hierfür 2 Arbeitsebenen:

  1. zunehmende maschinelle Lösungen für Erschließung und Kuratierung
  2. Vernetzung vorhandener redaktioneller Akteur*innen unter Einbezug der Community der Inhalte-Nutzenden und -Produzierenden

Als technische Voraussetzung dafür braucht es insbesondere:

  1. gemeinsame Vokabulare für die Verschlagwortung sowie ein Mapping zwischen sich notwendigerweise unterscheidenden Vokabularen der Bildungsbereiche oder Berufs- und Fachgebiete
  2. aktuelle Datenbank mit Kompetenzen (wie z.B. ESCO), digital lesbar und für Verschlagwortung nutzbar (Schnittstellen, Standards)
  3. maschinenlesbare aktuelle Curricula in allen Bildungsbereichen, die mit Kompetenzen (Punkt 2) verknüpft sind
  4. digitale und interoperable Kompetenzprüfungsmöglichkeiten
    (beispielsweise mit Zielkompetenzen verschlagwortete Selbsttestdatenbanken analog zu IQB-Abituraufgaben)
  5. je Bildungs- u.a. Bereich gut verschlagwortete Lehr- und Lerninhalte die als Lerndatensätze für Künstliche Intelligenz nutzbar sind.


Dafür sind vernetzte Redaktionen nötig

Um diese Grundlagen zu schaffen braucht es vernetzte Redaktionssysteme und die Kooperation einschlägiger etablierter Akteure und neuer community-basierter Akteure wie WirLernenOnline.


Die Größe und Gemeinschaftlichkeit der Aufgabe wird an folgendem Beispiel transparent.

Die 2. Marktübersicht unterstützt Metadaten- und Bildungs-Akteure zum Thema digitalisierter Lehrpläne und Kompetenzschemata. Zusammengetragen wurden Standards, Lösungsansätze und Akteure zum Thema digitale Abbildung von Kompetenzen und Curricula im nationalen und internationalen Bereich. Die Übersicht wurde aktuellen einschlägigen Arbeitskreisen und Projekten zugearbeitet, z.B. Akteuren in der DINI AG Curricula. Mit internationalen Akteur*innen wurden Interviews geführt.

Expert*innen fordern, dass Bildungsinhalte mit Zuordnungen zu Lehrplänen, anderen Curricula bzw. Kompetenzen “verschlagwortet” werden sollen. Dadurch wird die Auffindbarkeit verbessert. Lehrende und Lernende könnten so Lerninhalte passend zu ihren Vorkenntnissen und aktuellen Lernzielen finden bzw. vorgeschlagen bekommen. Dies setzt voraus, dass Lehrpläne und Kompetenzraster in digitaler Form zum Verschlagworten zur Verfügung stehen. Hier besteht Handlungsbedarf, den die Marktübersicht für Expert*innen transparent macht.

Lehrpläne im Schulbereich liegen heute noch nicht flächendeckend in digitaler Form vor. Zudem verursacht das deutsche föderalistische System erhebliche Mehraufwände. Lehrpläne von Bundesländern müssten aufeinander gemappt werden oder Inhalte müssen je Bundesland verschlagwortet werden. Die Ressourcen, die je Bundesland Inhalte verschlagworten stehen dieser Herausforderung in keinem gesunden Verhältnis gegenüber. Maschinelle KI-basierte Methoden benötigen Lerndatensätze, die ungenügend vorhanden sind und digital lesbare Lehrpläne voraussetzen.

Im Berufsbildenden Bereich scheint ESCO eine gemeinsam ausbaubare Lösungsoption. ESCO (European Skills, Competences, Qualifications and Occupations) ist eine mehrsprachige Klassifikation, die Fähigkeiten, Kompetenzen, Qualifikationen und Berufe identifiziert und kategorisiert, die für den EU-Arbeitsmarkt und die Bildung relevant sind und wird seit 2010 von der Europäischen Kommission entwickelt.
Die Herausforderung einer Weiterentwicklung einer solchen Lösung wird am Beispiel unten gezeigter Bildschirmaufnahme deutlich. Sie zeigt einen ESCO-Datensatz, der für das Organisieren von Projekttreffen die Fähigkeit des Einrichtens einer Telefonkonferenz fordert, während zeitgemäße, inspirierende und zielführende Projekttreffen eher das Planen und Moderieren interaktiver digitaler Formate erfordern würde. Solch eine (z.B. Brainstorming oder Entscheidungsfindung in Online-Boards). Künftige vernetzte redaktionelle Lösungen sollten eine Kooperation zwischen vielen Akteuren z.B. Fach- und Berufsgesellschaften oder Vorrreiter*innen zu digitalen Lern- und Arbeitsformaten ermöglichen, um ein Aktuellhalten von Kompetenzdatenbanken sicherzustellen und Innovationen in der Berufswelt voran zu treiben.







Mit der Aggregation der Inhalte in einer Plattform entstehen Herausforderungen, die innovative und kreative Ansätze erfordern, um ein möglichst optimales Arbeiten der Kurator*innen und auch der Endnutzer*innen zu ermöglichen. Schon allein die hohe Anzahl an Inhalten, stellt den Nutzer vor die Herausforderung, die relevanten Inhalte zu identifizieren und zu organisieren, um das eigene Informationsbedürfnis ausreichend zu befriedigen. Hierbei ist es notwendig, dass die Plattform Methoden bereitstellt, um den Nutzer bei der Beurteilung der Relevanz der Inhalte bestmöglich zu unterstützen und den Aufwand dafür zu verringern.

Die Ergebnisse der Kompetenzrecherche gingen in der DINI AG Curicula ein.(siehe Abschnt #)

4 Ergebnis:   Recherche OER-Sammelecke

In der OER - Quelensammelecke trugen Communitymitglieder ineressantwe Matioalien zusammen. Je Fachgebiet wurde so eigene  eihe An verendgaren Inalten erstsllt


Herausforderungen

Die folgenden Eigenschaften des Datenbestands zeigen die Herausforderungen mit denen die Nutzer konfrontiert sind:

Sehr viele Daten

Die Plattform enthält gegenwärtig mehr als 150k Inhalte. Dies bedeutet, dass die Nutzer*innen auf der Suche nach Inhalten unter Umständen einer sehr großen Anzahl an Suchergebnissen gegenüber stehen. Z.B. ergibt die Suche nach “Satz des Pythagoras” über 1100 Treffer, aus denen die Nutzer*innen letztendlich die für sie relevanten Ergebnisse auswählen müssen. Durch klassische Methoden der Suchmaschinentechnologie, wie zum Beispiel Facetten-Filter, lassen sich die Suchergebnisse weiter einschränken. Das setzt allerdings voraus, dass die hierfür notwendigen Metadaten auch vollständig vorhanden sind. Ein Filtern nach z.B. “Fach: Physik”, funktioniert nur dann, wenn auch alle Inhalte diese Information enthalten. Dies ist leider nicht immer der Fall (vgl. Punkt 3). D.h. es gibt Physik-Inhalte, die jedoch nicht dem Fach Physik zugeordnet wurden. Aus diesem Grund ist davon auszugehen, dass der Nutzer ein unvollständiges Ergebnis erhält. Die große Menge der Daten erschwert also die Arbeit mit den Inhalten und erhöht den Aufwand, die Daten zu sichten und zu beurteilen.

Sehr heterogene Daten

Die Inhalte der Plattform bestehen aus unterschiedlichen Ausprägungen: Texte, Bilder (Fotos/Grafiken), Animationen, Präsentationen, Videos, Tabellen, uvm. Diese Heterogenität erschwert es, die Daten einheitlich zu erfassen. Ebenfalls muss zwischen den Daten selbst und den darüber zur Verfügung stehenden Metadaten unterschieden werden. Oft ist nicht klar zu erkennen, welche Information zum eigentlichen Inhalt und welche zu den Metadaten gehört. Dies erschwert die Kategorisierung und somit die Möglichkeit Filterfunktionen zu implementieren.

Unvollständige Metadaten

Für einen Großteil der Inhalte existieren nicht alle Metadaten. Um die wie in Punkt 1 angesprochenen Filter- und Organisationsmöglichkeiten zu implementieren, müssen die Inhalte kategorisiert werden, z.B. Einordnung in Fächer, Einordnung in Schulform und Klassenstufen, oder z. B. die Einordnung in Sprachen (z.B. Deutsch, Englisch, etc.). Diese Meta-Informationen werden von zahlreichen Quellen nicht angeben oder können nicht auf herkömmliche Weise extrahiert werden. Dies erschwert die Implementierung entsprechender Filter. Um diesem Problem zu begegnen sind innovative Methoden, beispielsweise auf Machine-Learning-Basis notwendig, die es ermöglichen entsprechende Informationen aus den Objekten zu generieren.

Unterschiedlicher inhaltlicher Detailgrad

Die Nutzer*innen haben einen unterschiedlichen Bedarf am Detailgrad der Inhalte, je nachdem in welchem Kontext der Inhalt verwendet werden soll (beispielsweise Grundschule oder Gymnasium). Während manche Nutzer*innen eine eher einfache Darstellung einer Information erwarten, erwarten andere Nutzer eine sehr detaillierte Information. Dies spiegelt sich z.B. in dem Umstand wider, dass manche Inhalte zu einem bestimmten Thema für Grundschüler aufbereitet worden sind, jedoch andere Inhalte zum selben Thema für höhere Klassenstufen, also mit einem höheren "Detailgrad", aufbereitet sind. Diese Unterschiede in der didaktischen Aufbereitung stellen für die Nutzer also ein wichtiges Relevanzkriterium dar. Die Tiefe der didaktischen Aufbereitung ist jedoch nur selten in den Metadaten angegeben, weshalb ein Filtern nicht möglich ist.

Identische Inhalte die mehrfach aus unterschiedlichen Quellen kommen (syntaktische Dubletten)

Da die Plattform Inhalte aus mehreren Quellen akquiriert, kann es vorkommen, dass Quellen dieselben - identischen - Inhalte liefern. Dies passiert z.B. wenn eine der Quellen auch eine Aggregator-Funktion hat, und die gleiche Primärquelle genutzt wird. Dies führt zu der Herausforderung, dass Inhalte in der Plattform mehrfach vorhanden sind. Diese Dubletten zu identifizieren ist aufgrund der technischen Herausforderungen aus den vorangegangenen Punkten (z.B. Formate, Struktur, Unvollständige Metadaten) nicht immer einfach möglich.

Inhalte, die sehr ähnlich sind, bzw. das gleiche Thema behandeln (inhaltliche Dublette)

Einige Inhalte aus unterschiedlichen Quellen behandeln das selbe Thema. Wenn diese Inhalte auf sehr ähnliche Weise aufbereitet und den selben Detailgrad enthalten, stellen sie eine inhaltliche Dublette dar. In manchen Fällen kann es vorkommen, dass bestimme Inhalte in anderen Inhalten enthalten sind. All diese Fälle können die Arbeit der Nutzer erschweren, da die Nutzer selbst feststellen müssen, dass einzelne Suchergebnisse keinen Mehrwert zur Befriedigung des Informationsbedürfnisses stiften. Dies erschwert die Arbeit mit den Suchergebnis.

Zuordnung der Inhalte zu Lehrplänen 

Lehrpläne geben die Struktur des Unterrichts wieder. In vielen Fällen bezieht sich das Informationsbedürfnis der Nutzer nur auf einen bestimmten Teil des Lehrplans. Um eine adäquate Filterung der Suchergebnisse zu ermöglichen, müssen also Metadaten vorhanden sein, die auf den entsprechenden Teil des Lehrplans verweisen. Dies ist jedoch nur sehr selten der Fall. D.h. die Nutzer*innen müssen diese Leistung selbst erbringen, und dies kostet einen hohen Aufwand bei der Auswertung der Suchergebnisse.

Lösungen und Ideen

Um die genannten Herausforderungen zu bewältigen, ist die Anwendung verschiedener Methoden möglich. Einige Herausforderungen, beispielsweise im Themenbereich "Unvollständige Metadaten" können durch recht simple technische Werkzeuge, wie eine Spracherkennung, gelöst werden. Die Zuordnung eines Objekts zu einem Schulfach ist allerdings wieder etwas herausfordender und benötigt Technologien maschinellen Lernens. Auf den folgenden Unterseiten werden verschiedene Themen beleuchtet, die sich einerseits mit dem Erschließungsprozess an sich beschäfigen und andererseits mit den Technologien und Services, die benötigt werden, um die Metadaten zu den erschlossenen Objekten zu schließen und zu verbessern, um den Endnutzer*innen ein besseres Suchergebnis ermöglichen zu können:



<< Zurück zur Startseite / Gesamtinhaltsverzeichnis


Inhalt dieser Seite


Mitwirkende an dieser Seite:

UserEditsCommentsLabels
Joerg Waitelonis 2100
Anne Zobel 1000
Steffen Rörtgen 1000
Herr Torsten Simon 400
Matthias Hupfer 100