Laut und deutlich: Open Source für Indiens Sprachenvielfalt

In Indien, einem sprachlich vielfältigen Land, kann Sprachtechnologie die Kommunikation mit Informationen und Dienstleistungen grundlegend verändern. Für viele Menschen bleibt dieses Potenzial jedoch unerreichbar. Das Indian Institute of Science (IISc) will das in Zusammenarbeit mit der BMZ-Initiative „FAIR Forward – Künstliche Intelligenz für alle“ ändern. Dazu erstellt es hochwertige Sprachdatensätze in neun indischen Sprachen. Damit legt das IISc den Grundstein für Anwendungen, die Menschen in ihrer Sprache und ihrem kulturellen Kontext bedienen.
Das SYSPIN-Projekt des IISc fokussiert sich auf neun Sprachen: Bengali, Bhojpuri, Chhattisgarhi, Hindi, Kannada, Magahi, Maithili, Marathi und Telugu. Diese Sprachen hatten bisher keine technologischen Ressourcen für moderne Sprach-Systeme, die auf künstlicher Intelligenz (KI) basieren. Um die Lücke zu schließen, produziert das IISc 720 Stunden Audiodaten in Studioqualität. Dabei sprechen pro Sprache eine männliche und eine weibliche Stimme für jeweils 40 Stunden. Das Projekt legt jedoch nicht nur Wert auf Quantität, sondern auch auf Qualität, phonetische Vielfalt und menschenzentrierte Validierung bei jedem Schritt.
Unser Ziel war es, eine Grundlage zu schaffen, die wissenschaftlich robust und gesellschaftlich sinnvoll ist. Wir haben intensiv daran gearbeitet, dass die Stimmen in unseren Datensätzen die Menschen und Regionen wirklich widerspiegeln, die sie vertreten.
Prof. Prasanta Ghosh, Projektleiter am IISc
Für jede Sprache des SYSPIN-Projekts entstanden Open-Source-Sprachmodelle. Forschende, Entwickler*innen und Organisationen können sie frei unter https://huggingface.co/SYSPIN nutzen. Zudem sind alle Sprachdatensätze als Open Source mit CC-BY-Lizenz veröffentlicht. Sie stehen unter https://spiredatasets.ee.iisc.ac.in/syspincorpus zum Download bereit. Die Sprachmodelle entwickelte das IISc mit Rechenressourcen und KI-Expertise des Deutschen Forschungszentrums für Künstliche Intelligenz (DFKI).
Digitale öffentliche Güter für Sprachtechnologien eröffnen viele Anwendungen: Sprachassistenten, Bildschirmlesegeräte, Sprachlerntools, automatische Helplines und barrierefreie öffentliche Dienste. Sie helfen Nutzer*innen in ländlichen Gebieten und mit geringer Lesekompetenz in ihrer Muttersprache mit digitalen Systemen zu kommunizieren, die digitale Kluft zu schließen und Bildung, Gesundheitsversorgung sowie Regierungsbeteiligung zu verbessern.
SYSPINs Mission steht in engem Bezug zu Indiens nationalem Ziel, Sprachtechnologie für alle zugänglich zu machen. „Offene, inklusive Sprachtechnologie in indischen Sprachen ist kein Luxus, sondern notwendig“, erklärt Herr Nag, Leiter der Bhashini-Mission im IT-Ministerium. Durch hochwertige Datensätze und Tools im Open-Source-Ökosystem fördert SYSPIN die Demokratisierung von KI und die digitale Integration im ganzen Land.
Das in Kooperation mit der deutschen Entwicklungszusammenarbeit entwickelte Projekt ist ein Beispiel globaler Zusammenarbeit bei digitalen öffentlichen Gütern. Es zeigt, wie viel möglich ist, wenn Forschung, gesellschaftliches Engagement und politische Unterstützung eine gemeinsame Vision teilen.
Neben SYSPIN existiert das Schwesterprojekt RESPIN, das Datensätze für automatische Spracherkennung in indischen Sprachen entwickelt. RESPIN, gefördert von der Gates Foundation, stellt hochwertige Sprachdaten bereit, um integrative sprachbasierte Anwendungen für verschiedene Sprachgemeinschaften zu ermöglichen. Zusammen bilden SYSPIN und RESPIN eine ergänzende Initiative zur Förderung der Sprachtechnologie in Indien.