Hacking Tigrinya

Met machine learning een vertaalmachine trainen die automatisch zinnen van Tigrinya naar het Engels omzet om Eritrese vluchtelingen te helpen.

Wat doe je als een taal niet in Google Translate voorkomt? Dan bouw je zélf een vertaalmachine! Samen met Travis Foundation ontwikkelde onze non-profit venture Hack The Planet een machine learning-model voor het vertalen van Tigrinya naar Engels en vice versa.

Vluchtelingen helpen met een online vertaalmachine
Elk jaar slaan duizenden Eritreeërs op de vlucht voor de vele gewapende conflicten in Oost-Afrika. Wanneer zij in een nieuw land hun leven opnieuw proberen op te bouwen, lopen zij tegen een taalbarrière aan die niet wordt opgelost door vertaalmachines. De taal van mensen uit Eritrea, Tigrinya, wordt weliswaar wereldwijd door zo'n acht miljoen mensen gesproken maar is niet gedigitaliseerd. Voor commerciële techpartijen als Google is de taal te klein om op te nemen in Translate-diensten. Travis Foundation, een Nederlandse NGO, besloot daarom om zélf Tigrinya te digitaliseren en een online vertaalmachine te creëren voor Eritrese vluchtelingen.

De eerste stappen
In eerste instantie probeerde Travis Foundation Eritreërs in te zetten om zinnen te vertalen naar het Engels, maar dat ging te langzaam. En je hebt dan nog geen vertaalmachine. Daarom stapte onze venture Hack The Planet in. Door op een grote hoeveelheid taaldata machine learning toe te passen creëerden wij een model dat gebruikt zou kunnen worden voor het automatisch voorspellen van een goede tekst-naar-tekst vertaling. Deze aanpak wordt ook wel neurale machinevertaling ('neural machine translation') genoemd.

Trainen van het machine learning-model
Wij zijn begonnen een model zo te trainen dat het nieuwe zinnen van Tigrinya naar het Engels zou weten om te zetten en vice versa. Als basis hiervoor hadden we een groot taalcorpus van zinsparen nodig, dat exact dezelfde zinnen bevat in de bron- als de doeltaal. Met de Bijbel kom je dan al een heel eind. Want alhoewel de Bijbel niet een heel groot corpus is en veel onalledaags taalgebruik bevat, delen Bijbel-teksten in verschillende talen dezelfde structuur. Zo ook voor Tigrinya en Engels. Door deze teksten op te knippen en machine learning er op toe te passen, waren we in staat ons model te trainen. In dit technische artikel op ons Engineering Blog leggen Q'ers Jaap en Leonard uit hoe succesvol dat was.

Resultaat en vervolgstappen
Helaas hebben we ons machine learning-model niet verder kunnen trainen om betere vertalingen te genereren. Aan de financiering van de Travis Foundation kwam een einde en daarmee stopte de ontwikkeling van de vertaalmachine voorlopig. Het project is overgedragen aan de non-profit organisatie Translators without Borders, maar het doel is hetzelfde gebleven: Eritrese vluchtelingen helpen met hun integratie door de taalkloof te verminderen.