Contribution de Le laboratoire des langues africaines

Les langues africaines représentent près d'un tiers de toutes les langues du monde. Pourtant, sur les plus de 2 000 langues parlées sur le continent, seules 49 sont disponibles sur des plateformes de traduction telles que Google Translate. Pire encore, 88 % des langues africaines sont « gravement sous-représentées » ou « complètement ignorées » dans la linguistique informatique(Joshi et al., 2020).

L'intelligence artificielle (IA) offre la possibilité de protéger les langues sous-représentées, mais des conseils et des garde-fous sont indispensables. Sans eux, les grands modèles linguistiques risquent de renforcer les langues institutionnelles et d'accélérer le déclin des autres. Les conséquences sont désastreuses : 40 % des langues du monde sont menacées d'extinction, dont des centaines sont parlées en Afrique. (UNESCO, 2022).

Le Laboratoire des langues africaines (All Lab) est une collaboration dirigée par des jeunes qui s'engage à préserver les langues africaines en les documentant, en les numérisant, en les traduisant et en les rendant plus autonomes grâce à des systèmes avancés d'IA et de traitement du langage naturel (NLP). Avec des partenaires comme Smartling, nous faisons des progrès considérables dans la réduction de la fracture numérique pour les langues africaines. Voici comment.

 

La nécessité d'une documentation linguistique en Afrique

La diversité linguistique est l'un des plus grands atouts du continent africain, mais elle présente également des défis monumentaux. De nombreuses communautés, en particulier les plus petites, parlent des langues uniques qui ne sont pas bien documentées. Ces langues "à faibles ressources » ne disposent pas des ensembles de données nécessaires à leur utilisation informatique, ce qui rend la traduction automatique (TA), le traitement de la parole, la transcription automatique et d'autres applications NLP difficiles, voire impossibles.

Le défi est omniprésent : moins de 5 % des langues africaines disposent de ressources numériques importantes. (Association for Computational Linguistics, 2019) Il est clair que nous devons mieux documenter ces langues, mais le processus n'est pas une mince affaire. Laboratoire de langues africaines Stats

 

Le défi de la documentation des langues africaines à faibles ressources(Issaka et la., 2024)

  • Rareté des données : La plupart des cultures africaines ont historiquement mis l'accent sur les traditions orales. Par conséquent, beaucoup d'entre eux existent principalement sous forme orale, et la documentation écrite est souvent rare ou inexistante. En l'absence de langage écrit, l'assemblage de données de corpus - une collection de langage écrit et parlé nécessaire pour former des modèles d'apprentissage automatique - devient compliqué.
  • Politiques gouvernementales et financement limité de la recherche : La plupart des gouvernements africains ont donné la priorité aux langues officielles comme l'anglais et le français - souvent des vestiges de la domination coloniale - tout en apportant peu de soutien institutionnel à la documentation, à la préservation et au développement des langues indigènes. L'insuffisance du financement universitaire due au manque d'intérêt limite également la recherche et le développement des technologies des langues indigènes.
  • L'éducation de la petite enfance : Certains pays africains s'efforcent de préserver les langues indigènes dans l'enseignement, mais leurs efforts sont souvent insuffisants. Au Ghana, par exemple, une politique impose l'enseignement dans la première langue de l'enfant de la maternelle à la troisième année avant la transition vers l'anglais. Cependant, elle limite l'enseignement à 11 langues parrainées par le gouvernement, ce qui se traduit par une diminution des ressources, de l'attention et du nombre de locuteurs pour les autres langues. Malgré ces politiques, les éducateurs utilisent souvent l'anglais comme principal moyen d'enseignement en raison de ressources et d'une formation limitées.
  • Absence d'orthographes respectant la norme : La collecte de données pour de nombreuses langues africaines à faibles ressources, telles que l'haoussa et le peul, est très difficile en raison de leur vaste distribution géographique et des variations dialectales importantes. La création de ressources numériques unifiées pour ces langues nécessite donc une coordination et une normalisation minutieuses et importantes.
  • Obstacles à la collecte de données : Dans certaines régions, les conflits actifs ou la marginalisation de certains groupes linguistiques affectent négativement la collecte de données et les initiatives de développement linguistique. En outre, de nombreux locuteurs de langues à faibles ressources vivent dans des communautés rurales ou isolées, avec un accès limité à l'internet et aux technologies numériques, ce qui rend la collecte de données linguistiques encore plus difficile.

 

Innover pour l'équité linguistique

À l'African Languages Lab, nous utilisons des systèmes d'IA et de NLP pour numériser, traduire et préserver les langues africaines afin d'obtenir des résultats positifs pour les populations du continent. Notre approche reposant sur quatre piliers soutient actuellement 40 langues, du bantou parlé au khoisan moins connu, représentant diverses cultures, régions et familles linguistiques à travers le continent.

 

Comment le laboratoire des langues africaines soutient les langues à faibles ressources

  1. Collecte, extraction, nettoyage et stockage des données : Nous rassemblons des données linguistiques provenant de diverses sources, les conservons et les normalisons en supprimant les incohérences, puis les conservons de façon sécuritaire pour l'utilisation du modèle d'IA.
  2. Recherche et développement de modèles : Nous menons des recherches pour créer des modèles d'IA qui améliorent la compréhension et l'application des langues africaines.
  3. Engagement communautaire et crowdsourcing : Nous collaborons avec les institutions, les communautés et les locuteurs d'origine pour collecter et traduire les données, en garantissant une représentation authentique et une durabilité à long terme grâce à nos technologies innovantes basées sur l'IA.
  4. Déploiement de la technologie : En partenariat avec des chefs de file du secteur et des institutions universitaires, nous utilisons des systèmes d'IA et de NLP pour traduire nos données en sorties linguistiques utilisables qui alimentent des plateformes telles que notre application All Voices et un chatbot multilingue, qui est intégré à l'application mobile Base.

Les pays qui intègrent les langues locales dans l'enseignement et le contenu numérique ont tendance à avoir des taux d'alphabétisation plus élevés et une meilleure rétention culturelle.

La technologie qui rend notre travail possible

La mise en œuvre de nos quatre piliers nécessite une technologie et des partenaires de collaboration adéquats. C'est pourquoi nous avons formé un partenariat stratégique avec Smartling, un chef de file dans le domaine des technologies de traduction et d'emplacement. Ce partenariat nous permet d'exploiter les outils de pointe de Smartling pour la traduction, la gestion et la précision contextuelle des langues, transformant ainsi la manière dont les langues à faibles ressources sont documentées et partagées numériquement.

Voici comment la technologie stimule nos progrès en matière de numérisation et de traduction des langues africaines.

 

Compilation des données existantes : Agrégation de corpus

Pour de nombreuses langues africaines, il n'existe pas de données linguistiques centralisées. Nous collectons et normalisons des données provenant de diverses sources, en utilisant des scripts Python pour nettoyer, normaliser et convertir les données dans un format commun, dans le but de créer un corpus centralisé destiné à une large utilisation. La consolidation et l'affinage des données linguistiques garantissent la cohérence et l'accessibilité, ce qui permet aux communautés de créer des ressources éducatives, des outils de traduction et du contenu numérique.

Le laboratoire des langues africaines a recueilli plus de 400 Go de données vocales et textuelles pour 40 langues africaines à faibles ressources, ce qui a permis de faire progresser leur documentation et leur disponibilité numérique.

Réimaginer le crowdsourcing : Toutes les voix

Comme mentionné précédemment, les données incomplètes constituent une lacune critique pour la préservation des langues, qui peut être difficile à combler dans certaines communautés africaines. Notre application innovante de collecte de données, All Voices, permet aux institutions, aux communautés et aux locuteurs d'origine de documenter et de numériser leur langue locale. Les contributeurs peuvent enregistrer la parole dans 40 langues africaines, ce qui répond à notre besoin collectif de recueillir des données sur les langues à faibles ressources.

À l'avenir, All Voices comblera les lacunes en matière de communication au sein des communautés et rendra les langues locales accessibles à tous. Il permet également de traduire entre les langues africaines et les langues courantes telles que l'anglais et le français. Grâce à une traduction transparente et précise dans une grande variété de langues, All Voices vise à favoriser des échanges culturels plus profonds, tout en contribuant à l'enrichissement d'un ensemble de données sur les langues à faibles ressources.

 

Gestion des données : Du stockage à la traduction

L'agrégation et l'organisation des données linguistiques - en plus de la disponibilité de la communauté - sont essentielles à notre travail à l'All Lab. Smartling joue un rôle essentiel dans l'ensemble de notre processus de gestion des données, de la collecte à la traduction en passant par le stockage. Avec Smartling, nous pouvons télécharger, organiser et conserver les données de plusieurs projets dans un système sécurisé et centralisé.

L'API de Smartling nous permet non seulement de partager nos données à grande échelle sur plusieurs plateformes, mais aussi d'effectuer des mises à jour en temps réel, ce qui garantit que chaque membre de notre communauté a accès au corpus numérique le plus précis et le plus complet.

Nous nous sommes appuyés sur la mémoire de traduction de Smartling, les traductions assistées par l'IA et des traducteurs qualifiés pour soutenir un contenu cohérent et précis dans différentes langues africaines. Le référentiel linguistique structuré et accessible qui en résulte est essentiel pour développer l'accessibilité numérique et les efforts de préservation dans toute la diversité linguistique de l'Afrique.

 

Utiliser nos données à bon escient

Notre travail à l'All Lab - soutenu par les technologies ci-dessus - génère des ensembles de données linguistiques africaines structurées, qui jouent un rôle essentiel dans la numérisation des langues à faibles ressources. Ces ensembles de données sont essentiels au développement de nouveaux outils de traduction automatique, de reconnaissance vocale et de préservation de la langue. En fin de compte, nos données contribuent à faire avancer la recherche linguistique africaine et à soutenir le développement de modèles linguistiques plus précis et culturellement pertinents.

Nous mettons également nos ensembles de données à disposition sur des plateformes à accès libre telles qu'Huggingface. Notre travail favorise le développement communautaire de l'IA et encourage l'investissement dans les technologies des langues africaines.

 

Des avancées et un regard vers l'avenir

Au Laboratoire des langues africaines, nous avons réalisé des progrès considérables dans la réduction de la fracture numérique pour les langues africaines grâce à la collecte de données, à l'agrégation, à la normalisation, au crowdsourcing, ainsi qu'au développement et au déploiement de modèles. Nous sommes fiers de notre corpus de données linguistiques robuste et en pleine expansion - qui représente environ un demi-téraoctet -, de nos outils de traduction avancés et de l'élargissement réussi de l'accès aux ressources linguistiques.

À ce jour, nous avons collecté plus de 400 Go de données vocales et textuelles pour 40 langues africaines à faibles ressources, ce qui a permis de les documenter et de les faire progresser sur le plan technologique. Grâce à des partenariats avec des institutions universitaires telles que le laboratoire MARS de l'UCLA et des chefs de file de l'industrie tels que Smartling, nous exploitons la recherche et la technologie de pointe pour faire avancer notre mission. Nous nous efforçons également de faire connaître le paysage linguistique africain par le biais de séminaires, de conférences et de documents techniques.

À l'avenir, nous nous efforcerons de préserver davantage de langues africaines à faibles ressources, en plus de nos 40 langues actuelles. Nous visons également à élargir la disponibilité de nos ensembles de données et de nos outils. Et nous nous engageons à stimuler l'innovation en matière de traduction automatique, de préservation des langues et de recherche linguistique pilotée par l'IA dans toute l'Afrique. Ensemble, nous veillerons à ce que le patrimoine linguistique de l'Afrique ne se contente pas de survivre, mais prospère à l'ère numérique.

Pourquoi attendre pour traduire plus intelligemment?

Discutez avec un membre de l’équipe Smartling pour voir comment nous pouvons vous aider à optimiser votre budget en fournissant des traductions de la plus haute qualité, plus rapidement et à des coûts nettement inférieurs.
Cta-Card-Side-Image