BP:
 

Verbesserung der Informationsextraktion aus Online-Stellenanzeigen: Kompositionelle Entitätsmodellierung und Relationenklassifikation

Kai Krüger

Online-Stellenanzeigen sind eine zentrale Datenquelle, um Entwicklungen am Arbeitsmarkt sichtbar zu machen – etwa welche Fähigkeiten und Fertigkeiten (auch Skills) aktuell gefragt sind oder wie sich Aufgaben-/Tätigkeitsprofile verändern. Um solche Anforderungen automatisiert aus den Texten zu gewinnen, kommen Methoden des Natural Language Processing (NLP) zum Einsatz. Aktuelle Verfahren stoßen dabei jedoch an Grenzen: Sie vereinfachen inhaltlich komplexe Begriffe wie Skill oft zu stark und verlieren dabei wichtige inhaltliche Nuancen und Zusammenhänge.

Diese Dissertation, die fachlich im Bereich der Computerlinguistik und Machine Learning angesiedelt ist, entwickelt einen neuen Modellierungsansatz, bei dem Anforderungen nicht mehr als einfache Begriffe behandelt werden, sondern als zusammengesetzte, strukturierte Einheiten – zum Beispiel bestehend aus einem Prozess, einem Objekt und Modifikatoren wie Erfahrungsgrad (z.B. erste Erfahrung in der Beratung von Stammkunden). Ergänzend werden die Beziehungen zwischen diesen Bestandteilen explizit erfasst, um sprachliche Feinheiten und Kontextabhängigkeiten besser abzubilden. Aus methodischer Sicht wird dabei die Anforderungsextraktion neu gedacht: Statt sie nur als Sequenz-Tagging-Aufgabe zu behandeln, wird sie als Kombination aus Sequenz-Tagging und Relationserkennung modelliert, was ein Desiderat im Bereich der Stellenanzeigenforschung darstellt.

Die Arbeit verbindet also theoretische Überlegungen zur semantischen Struktur relevanter Konzepte mit empirischer Forschung im Bereich der KI-Methodenentwicklung. Dafür wird unter anderem ein eigener, umfassend annotierter deutschsprachiger Datensatz aus 500 Online-Stellenanzeigen genutzt. Darauf aufbauend werden moderne Deep-Learning-Verfahren – insbesondere Transformer-Modelle – trainiert und evaluiert, um die vorgeschlagenen Konzepte praktisch umzusetzen. Diese Modelle ermöglichen eine präzisere und fehlerfreiere Erfassung und Analyse von geforderten Skills und Tätigkeiten und leisten damit einen konkreten Beitrag zur stellenanzeigenbasierten Arbeitsmarktforschung.

Ziel ist es, die Informationsextraktion aus Stellenanzeigen präziser und differenzierter zu gestalten. Die entwickelten Modelle richten sich vorrangig an Anwendungen in der Arbeitsmarktforschung. Darüber hinaus werden die konzeptionellen Erkenntnisse zur Modellierung komplexer Einheiten in einen breiteren Kontext eingebettet, der auch für andere forschungsnahe Felder mit realweltlichen Textdaten relevant ist.