1 Minute

December 20, 2025

Erste Phase Entwicklung Vorgehensmodell zur Entwicklung von LLM für Minderheitensprachen am Beispiel Obersorbisch abgeschlossen (SorBERT)

Published by Tobias Goecke (Göcke) , SupraTix GmbH (4 months ago updated)

Die erste Projektphase zur Entwicklung eines Vorgehensmodells für große Sprachmodelle für Minderheitensprachen wurde erfolgreich abgeschlossen. In dieser Phase wurde am Beispiel des Obersorbischen systematisch untersucht, wie trotz sehr begrenzter Datenlage ein tragfähiger Entwicklungsweg für ein Sprachmodell gestaltet werden kann. Der Fokus lag auf der Evaluation von Methoden, Datenstrukturen und technischen Entscheidungen, nicht auf der Fertigstellung eines lauffähigen Modells. Auf Basis dieser Ergebnisse ist nun der nächste Schritt die strukturierte Einbindung von Muttersprachlerinnen und Muttersprachlern zur weiteren Entwicklung, zum Anlernen und zur späteren Veröffentlichung des Modells sorBERT.

Mit dem Abschluss der ersten Projektphase ist ein wichtiger Zwischenschritt erreicht. In dieser Phase ging es ausdrücklich noch nicht um die Fertigstellung oder Veröffentlichung eines obersorbischen Sprachmodells, sondern um die systematische Entwicklung und Überprüfung eines belastbaren Vorgehensmodells zur Entwicklung großer Sprachmodelle für Minderheitensprachen. Am Beispiel des Obersorbischen wurde untersucht, welche Schritte notwendig sind, um trotz sehr begrenzter Datenlage perspektivisch ein funktionierendes Sprachmodell entwickeln zu können.

Im Mittelpunkt der ersten Phase stand daher die Frage, ob und wie ein solcher Entwicklungsprozess grundsätzlich umsetzbar ist.

Dazu wurden vorhandene obersorbische Datenquellen gesichtet, technisch analysiert und hinsichtlich ihrer Eignung für maschinelles Lernen bewertet. Parallel dazu wurde geprüft, welche bestehenden Methoden aus der KI Forschung sich auf Minderheitensprachen übertragen lassen und an welchen Stellen Anpassungen erforderlich sind. Ziel war es nicht, ein fertiges Modell zu trainieren, sondern einen nachvollziehbaren und wiederholbaren Weg zu definieren, der eine spätere Modellentwicklung überhaupt erst ermöglicht.

Im Rahmen dieser Arbeiten wurden unterschiedliche Datentypen betrachtet, ihre Qualität überprüft und typische Probleme identifiziert, die bei kleinen Sprachen besonders stark auftreten. Dazu zählen unter anderem die geringe Textmenge, eine starke thematische Verzerrung der vorhandenen Inhalte sowie fehlerhafte oder vermischte Sprachdaten in öffentlich zugänglichen Quellen. Durch gezielte Tests und Experimente konnte gezeigt werden, dass diese Herausforderungen zwar erheblich sind, aber mit geeigneten methodischen Entscheidungen adressiert werden können. Insbesondere die Kombination aus sorgfältiger Datenbereinigung, technischer Vorstrukturierung und der Nutzung bestehender mehrsprachiger Basismodelle erwies sich als tragfähiger Ansatz.

Ein zentrales Ergebnis der ersten Phase ist somit kein fertiges Sprachmodell, sondern ein validiertes Vorgehensmodell. Dieses beschreibt, welche Schritte in welcher Reihenfolge notwendig sind, welche technischen Entscheidungen sinnvoll sind und wo besondere Sorgfalt erforderlich ist. Damit wurde ein verlässlicher Rahmen geschaffen, auf dessen Grundlage ein obersorbisches Sprachmodell künftig gezielt entwickelt werden kann. Gleichzeitig ist dieses Vorgehensmodell auch auf andere Minderheitensprachen übertragbar, die vor ähnlichen strukturellen Herausforderungen stehen.

Der nächste Projektschritt baut bewusst auf diesen Ergebnissen auf. In der folgenden Phase steht nicht mehr die methodische Erprobung im Vordergrund, sondern das strukturierte Einbinden von Muttersprachlerinnen und Muttersprachlern. Sie werden eine zentrale Rolle beim Anlernen, Überprüfen und Korrigieren des Modells übernehmen. Erst durch diese enge Zusammenarbeit kann sichergestellt werden, dass sprachliche Feinheiten, kulturelle Kontexte und reale Sprachpraxis korrekt abgebildet werden. Auf dieser Grundlage soll das Modell schrittweise finalisiert, stabilisiert und anschließend veröffentlicht werden.

Die abgeschlossene erste Phase markiert damit keinen Endpunkt, sondern die Voraussetzung für die eigentliche Modellarbeit. Sie zeigt, dass ein fundierter, verantwortungsvoller Weg zur Entwicklung eines obersorbischen Sprachmodells möglich ist und legt die technische und methodische Basis für die kommenden Schritte.





Write the first comment!

Log in with your account or fill in the fields below.

Please note our community guidelines

We at SupraTix welcome controversial discussions and an open exchange Ideas and Opinions. However, we would like to emphasize that we do not tolerate offensive, grossly offensive, racist and do not tolerate criminally relevant statements and contributions. We ask you, at Compose When making comments and contributions, make sure that you do not publish any texts, for the you do not have express permission from the author.

We would also like to point out that the mention of product names, manufacturers, service providers and websites is only permitted if the primary purpose is not advertising is being pursued.
We reserve the right to delete posts that violate these rules Accounts temporarily or to block it permanently.

However, we encourage you to express your opinions, other perspectives to introduce and through to contribute further information to the exchange of knowledge. We are always up the Search after exciting and interesting articles and look forward to working with you constructive Dialogue to kick.

The SupraTix team





Send comment


SupraTix GmbH or partner companies - All rights reserved reserved.

Copyright © 2016 - 2026