Koliko je sjajan postao Google Translate: prevoditelj koji će uskoro prevoditi bolje od ljudi

Google Translate (GT) je definitivno najbolji i najkorišteniji softver za prevođenje na svijetu. Podržava čak 103 jezika, 10.000 jezičnih parova, a svaki dan obrađuje čak 500 milijuna prijevoda. Stručnjaci predviđaju da će GT-ov neuralni sustav uskoro moći obrađivati audio i video datoteke osim tekstova.

Google prevoditelj od 2016. koristi sustav neuronskog strojnog prevođenja (GNMT). Sustav temeljen na umjetnoj neuronskoj mreži je značajno poboljšao kvalitetu prijevoda. Od tada je prošlo tri godine i sada možemo procijeniti njegovu učinkovitost. Je li se kvaliteta prijevoda doista poboljšala i što još treba promijeniti da bi se poboljšala?

Kako uopće funkcionira algoritam Google Translate?

Google Translate su razvijen 2006 a u početku je radio uz pomoć statističke metode strojnog prevođenja. To znači da je u svoj program pohranio milijarde i milijarde riječi. Prilikom prevođenja jednostavno je birao najprikladnije ili najpopularnije ekvivalente obaju jezika i ispisivao ih. Google je koristio u izradi prevoditelja dokumenti Ujedinjenih naroda (engleski, arapski, francuski, kineski, ruski i španjolski) i tako proizveli korpus od šest svjetskih jezika s približno 20 milijardi riječi. Taj je proces bio spor, neprecizan i trošio je mnogo računalne energije.

Danas Google Translate koristi tzv metoda dubokog učenja (Deep Learning Method), u kojoj je posebno važna velika umjetna neuronska mreža.

Prije nego što je Google počeo koristiti neuronske mreže, prijevod je bio riječ po riječ. Sustav je s lakoćom preveo svaku riječ zasebno, poštujući osnovna gramatička pravila. Stoga je kvaliteta prijevoda bila vrlo upitna.

S novim, neuralnim modelom prijevoda, međutim osnovna prevodna jedinica više nije riječ, već samo dio riječi. Dakle, prijevod nije usmjeren na oblike riječi, već na kontekstu i značenju cijele rečenice. Program stoga prevodi rečenicu kao cjelinu, u skladu s njezinim kontekstualnim značenjem, bez pohranjivanja stotina mogućih verzija prijevoda u svoju memoriju.

Softver stoga prevodi cijelu rečenicu uzimajući u obzir kontekst i više se ne fokusira samo na pojedinačne riječi. Ne sprema stotine verzija prijevoda u svoju memoriju. Umjesto toga, radi na semantici teksta i dijeli rečenice u rječničke segmente.

Watch this video on YouTube

Kako Google prevodi pomoću neuronske mreže?

Danas koristi Google Translate oko 32 000 takvih fragmenata. Uz pomoć pojedinačnih dekodera inicijalno određuje značenje svakog dijela teksta. Zatim izračunava najveći mogući broj značenja i mogućih prijevoda. Na kraju, kombinira prevedene segmente s gramatičkim pravilima. Prema programerima, ovaj pristup omogućuje visoku brzinu i točnost prijevoda bez trošenja prekomjerne računalne snage. Međutim, budući da svaki jezik ima svoja pravila (semantička i gramatička), Google Translate također treba posebne module i rječnike za svaki jezik, koji su implementirani u zasebnim algoritmima.

interlingua

Umjetna inteligencija koju koristi Google Translate kao posredni jezik, zove se Interlingua. Ovaj univerzalni računalni jezik je, naravno, potpuno neprikladan za ljudsku komunikaciju. Umjetna inteligencija se koristi u prevođenju, gdje se koristi kao posredni jezik s kojim također može prevoditi na i s jezika za koje nije stvoren.

Prednost neuronske mreže je što može raditi s većim brojem jezičnih parova, čak i s onima koji nisu bili uključeni u izvorni proces učenja. Na primjer, ako je sustav osposobljen za prevođenje jezičnih parova engleski-japanski i engleski-korejski, također može lako prevesti jezični par japanski-korejski bez korištenja engleskog kao posrednog jezika.

Metoda prevođenja koju implementira Google, a programeri su je nazvali zero-shot translation, je sofisticiranija i oslanja se na posredni umjetni jezik za prijevod. Ovo područje istraživanja razvija se vrlo brzo i uskoro će ovi sustavi za prevođenje postati primarni alat za prevođenje. To je sustav samouk - sam usavršava svoje znanje te može pravilno prevesti žargon i žargonske riječi, neologizme i druge riječi koje nisu obuhvaćene općim rječnicima.

Jezični parovi

Sustav GNMT uvelike je poboljšao prijevod najčešće korištenih jezičnih parova: španjolski-engleski i francuski-engleski. Ispravnost prijevoda porasla je na čak 85%.

Google je 2017. proveo anketu među redovitim korisnicima prevoditelja. Zamoljeni su da procijene tri opcije prijevoda: strojno statističko, neuralno i ljudsko. Rezultati su bili impresivni – prijevodi koje je napravila neuronska mreža bili su gotovo savršeni u nekim jezičnim parovima.

Očito je da je kvaliteta prijevoda u jezičnim parovima engleski-španjolski i francusko-engleski gotovo jednaka kvaliteti prijevoda koji rade ljudi. Ova činjenica nije iznenađujuća, budući da su ti jezični parovi korišteni za dubinsko učenje algoritama Google Translatea. Situacija je drugačija za druge jezične parove. Međutim, ako neuronsko prevođenje funkcionira usporedivo između strukturno sličnih jezika, tada će računalno prevođenje biti mnogo lošije za jezične parove u kojima su jezični sustavi radikalno različiti.

Longines Spirit Pilot: Longines (ponovno) oživljava svoje zrakoplovne korijene s dva idealno proporcionirana pilotska sata

Koji su nedostaci Google prevoditelja?

Istina je da je Google Translate vrlo praktičan, a zbog svoje dostupnosti i brzog rada pomaže u svakodnevnom prevođenju. No, još uvijek nedostaje nešto bitno – razumijevanje. Računalno prevođenje nikada nije usmjereno na razumijevanje. Programeri programa pokušali su poboljšati metodu dešifriranja, ili drugim riječima, pokušali su natjerati prevoditeljski stroj da to podnese svojim analitičkim sposobnostima. Međutim, morali su pronaći ravnoteža između točnosti i brzine prijevoda.

Eliza efekt

Za svaki stroj, računalni uređaj ili softver, riječi su važne. Međutim, strojevi još ne mogu razumjeti duboko značenje riječi.

Godine 1960 napravili su Elizu, mehanički uređaj koji je manipulirao nizom odgovora, ostavljajući dojam da zapravo generira inteligentne fraze. Od tada je pitanje mogu li strojevi razmišljati poput ljudi dobilo ime Eliza efekt.

Efekt Elize desetljećima je utjecao na istraživače umjetne inteligencije i programere softvera. Većina korisnika Google Translatea vjeruje da ovaj program, barem ponekad, može razumjeti značenje riječi. Međutim, to nije istina - Google Translate ne razumije jezik, ali svejedno ponekad uspijeva napraviti rečenice koje zvuče prilično dobro. Ponekad čak uspije savršeno prevesti odlomak ili dva, pa gotovo vjerujemo da program doista razumije jezik. No, ne smijemo zaboraviti da Google Translate nije sposoban razmišljati kao čovjek i može samo obrađivati tekstove na specifičan način. Računalni program nema memoriju, nema maštu i ne razumije skrivena značenja riječi. Dakle, nema razloga ne vjerovati da će računala jednog dana moći razmišljati poput ljudi.

Međutim, od njih se očekuje da budu sposobni za izvrsne prijevode između različitih jezika. Vrlo je vjerojatno da će jednog dana sposobni prevoditi viceve, kratke priče, poeziju i eseje. Uostalom, tehnologija se razvija brzinom svjetlosti.