Wenig überraschend: die International Joint Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024) stand in diesem Jahr ganz im Zeichen der Large Language Models.
Ganz neu allerdings ein Verfahren, das OTH-Absolvent, Promotionsstudent und IKKI-Mitarbeiter Sebastian Steindl auf der Konferenz erstmalig vorstellte. In der Publikation, die er mit seinen Promotionsbetreuern Prof. Dr. Ulrich Schäfer (OTH Amberg-Weiden) und Prof. Dr. Bernd Ludwig (Universität Regensburg) eingereicht hatte, wird ein neues Verfahren beschrieben und evaluiert, das helfen kann, sogenannte task-orientierte Dialogsysteme mit weniger Trainingsdaten annotieren zu müssen als bisher nötig war.
Task-orientierte Dialogsysteme helfen zum Beispiel bei Reisebuchungen oder Telefonbanking. Bisher mussten dazu Dialoge zwischen Menschen bzw. von Menschen mit Maschinen aufwändig ausgewertet und annotiert werden.
Die neu entwickelte Technik für Dialoge, "Counterfactual Dialog Mixing" (CDM), überträgt Ideen aus der Bildaugmentierung auf Dialoge. Mit CDM werden aus vorhandenen Annotationen realistisch wirkende, synthetische Gespräche generiert. Der „counterfactual“-Ansatz sorgt dafür, dass das in einer bestimmten Weise getan wird, die ein Dialogsystem wirklich verbessert. Die künstlich erzeugten Dialoge sind insofern realistisch, als weiterhin das gleiche Dialogziel erreicht und auch auf dem Weg dorthin ähnliche Teilkonversationen eingesetzt werden. Der Vorteil des neuen Verfahrens ist, dass es vollautomatisch funktioniert, also ohne weitere Annotation oder menschliche Intervention.
COLING und LREC gehören seit Jahrzehnten zu den wichtigsten internationalen wissenschaftlichen Konferenzen im Bereich Natural Language Processing, der Verarbeitung natürlicher Sprache. In diesem Jahr fanden sie erstmals gemeinsam Ende Mai in Turin statt und vereinten rund 2000 NLP Forscher an einem Ort. Am Ende des Newsletters finden Sie noch weitere Eindrücke dieser Konferenz.