Microsoft demostra el traductor universal anglès-xinès que us manté la veu i l’accent

Un traductor universal de Star Trek

En un acte a la Xina, el cap de Microsoft Research, Rick Rashid, ha demostrat un motor de traducció de veu a veu en anglès en mandarí en temps real. La traducció no només és molt precisa, sinó que el programari també conserva l’accent i l’entonació de l’usuari. Aquí no només parlem d’un traductor robotitzat digitalitzat, sinó que està dins dels àmbits Doctor Who o bé Star Trek traducció universal.

La millor manera d’apreciar aquesta tecnologia és veure el vídeo següent. Els primers sis minuts més o menys Rick Rashid explica la dificultat fonamental de la traducció per ordinador i, a continuació, els darrers minuts demostren el motor de traducció de veu a veu de l’anglès al mandarí. Lamentablement, no parlo xinès, de manera que no puc donar fe de la veracitat de la traducció, però el públic (uns 2.000 estudiants xinesos) sembla bastant impressionat. Un intèrpret professional d’anglès / xinès també em va comentar que la traducció per ordinador és sorprenentment bona; no s’acosta al nivell de traducció humana, però s’acosta.





Hi ha, per descomptat, molta màgia tecnològica que es produeixen entre bastidors. Per començar, cal programar el programari, tant amb algunes hores de xinès parlat nadiu com amb una hora d’anglès parlat per Rick Rashid. A partir d’això, el programari divideix bàsicament la vostra parla en els components més petits (fonemes) i, després, els combina amb l’equivalent xinès, creant un gran mapa de sons d’anglès a mandarí. Després, durant la presentació real a l’escenari, el programari converteix el seu discurs en text (com es veu a la pantalla esquerra), el seu text en text mandarí (pantalla dreta) i, a continuació, el mash-up Rashid / Chinese creat durant l’entrenament. s’utilitza un procés per convertir aquest text en paraules parlades.

El resultat final té definitivament un fort toc de Microsoft Sam digitalitzat i robotitzat, però sorprèn la quantitat de l'accent, el timbre i l'entonació de Rashid que es conserva.



En termes de precisió, Microsoft diu que el sistema complet té una taxa d’error d’aproximadament una paraula de cada vuit, una millora del 30% respecte a la millor anterior d’una paraula de cada cinc. Una millora tan espectacular es va permetre amb l'ús de Xarxes neuronals profundes, una tècnica d’aprenentatge automàtic ideada per Geoffrey Hinton de la Universitat de Toronto. Una xarxa neuronal profunda és bàsicament una xarxa neuronal artificial (programari que modela milers de 'neurones' interconnectades), però amb alguns ajustaments perquè imiti més de prop el comportament del cervell humà.

Avançant, la gran pregunta és quan el programari de traducció de veu a veu de Microsoft Research realment trobarà el seu camí al mercat, i sí, en cas que us ho preguntéssiu, el programari no es limita només a l’anglès i al xinès; es poden utilitzar els 26 idiomes compatibles amb Microsoft Speech Platform, inclòs el mandarí a l'anglès. El cas d’ús més evident seria el telèfon intel·ligent Windows Phone 8 (o 9?) O Skype: podríeu trucar a una empresa de la Xina, Alemanya o Brasil, parlar normalment en anglès i escoltarien la vostra veu en el seu idioma local . També podeu fer servir el telèfon intel·ligent com a traductor universal mentre viatgeu. Com podeu veure a continuació, Microsoft va estar jugant amb la traducció de telèfon a telèfon en temps real fins al 2010:

Presumiblement, Microsoft està treballant en aquestes aplicacions, però probablement es vegi frenat per consideracions pràctiques, com ara la potència de processament necessària per fer traducció de veu a veu o proporcionar una interfície fàcil d’utilitzar per al procés d’entrenament / aprenentatge. El procés de formació en si pot requerir més potència de processament que un usuari domèstic que també pugui proporcionar. Però sempre hi ha el núvol!

Copyright © Tots Els Drets Reservats | 2007es.com