De ce nu vorbește Siri toate limbile din lume?

Asistentul digital inteligent de la Apple, Siri, este disponibil pentru toate produsele Apple. Cu toate astea, e accesibil doar în câteva limbi. Din nefericire limba română nu este una dintre ele. Am încercat să aflăm care sunt motivele pentru acest lucru.

siri

Ne-am adresat celor de la SmartLab, Laboratorul Tehnologiei Vorbirii și Interacțiunilor Inteligente, care este unul dintre grupurile de cercetare de excepție dedicate vorbirii în Europa Centrală și care se ocupă de sintetizatori de vorbire, interfețe artificiale, deep learning, cercetare și dezvoltare de interfețe om-mașină. Au fost implicați în mai multe proiecte, printre care și realizarea unui voiceover cu ajutorul sintetizatorului de vorbire pentru Stephen Hawking, în filmul Theory of Everything, în mai multe limbi diferite.

Dezvoltarea unui sintetizator de vorbire este un proces aproape la fel de complicat ca dezvoltarea unui  software. Cel mai important este să cunoști baza de utilizatori și care sunt principalele obiective sau probleme ce trebuie rezolvate.

siri vorbeste limbi diferite

Dacă dorești să creezi un software pentru utilizatori cu deficiențe de vedere, acesta trebuie să funcționeze complet diferit de difuzoarele unei stații de tren. Pentru clienții cu deficiențe de vedere, este important să auzi clar textul, iar viteza de vorbire trebuie să fie reglabilă într-o gamă cât mai variată. Pe de altă parte, în cazul difuzoarelor sau boxelor, suntele acestora ar trebui să fie ușor de înțeles și în condiții proaste.

Cea mai mare problemă cu Siri este faptul că aplicația se adresează tuturor utilizatorilor. Ar putea fi mai eficientă dacă s-ar crea diferite module, personalizate pentru fiecare funcție în parte. Apoi, toate aceste module ar putea fi unite și software-ul ar decide pe care să le folosească.

Există multe tehnologii pentru sintetizarea vorbirii – cel puțin cinci sau șase tipuri diferite – toate bazate pe vorbirea umană. În cazul sintezei parametrice, diferite aspecte ale vorbirii sunt  re-generate din text, aplicând reguli diferite. Este practic un sistem care creează tonuri de vorbire pe baza parametrilor.

Sintetizatorul formant a fost unul dintre primele elemente ale acestei metode. Vocea emblematică a lui Stephen Hawking folosea același tip de tehnologie. Deși au existat mai multe soluții moderne, el a folosit-o până în ultima zi a vieții sale. Era o vorbire cumva robotică, dar distinctivă.

siri

O altă metodă este utilizată pentru a-i da glas aplicației Siri. În acest caz, o persoană citește cu voce tare o cantitate mai mare de text. Dezvoltatorii au tăiat diferite elemente și le-au îmbinat. Cu cât baza de date este mai mare, cu atât sunetul va fi mai natural. Pentru companiile uriașe specializate în tehnologie este soluția perfectă pentru a concepe cea mai realistă voce posibilă.

Utilizatorii nu preferă vocile robotice, în special atunci când au la dispoziție un singur ton și stil. Aceste voci nu se pot raporta cu adevărat la contextul comunicării și utilizează aceeași pronunție în orice moment. Într-o conversație live, fiecare persoană se adaptează vitezei de vorbire a celeilalte. Dacă partenerul tău vorbește mai repede, vei vorbi și tu mai repede. Siri nu se poate adapta în acest fel, însă aceasta ar fi o actualizare importantă. Ar trebui să-și adapteze stilul la subiectul vorbirii. Există sintetizatoare care sună excelent pentru câteva propoziții. Dar citirea cu voce tare a unei pagini întregi de text probabil că te-ar enerva. În viața reală nu există prea multe șanse să spui chiar și cele mai simple expresii exact în același fel.

Siri pe iphonePentru ca Siri să învețe o limbă e nevoie de mult mai mult decât de o simplă traducere. Procesul presupune multă energie și bani pentru a face ca lucrurile să iasă bine. Companiile multinaționale implementează învățarea unor noi limbi, angajând câțiva lingviști care nu sunt speciliști în tehnologie – pentru că nu doresc ca cei cu care colaborează să dezvăluie informații despre programele lor.

Există peste 7 000 de limbi cunoscute în întreaga lume, majoritatea companiilor tind să se ocupe de primele 10 – în funcție de PIB-ul țării respective – și nu pe numărul de vorbitori la nivel mondial al unei limbi materne. Cei de la Apple au acordat o atenție deosebită acestor tipuri de software. Toate produsele lor, începând cu anii 80, au inclus recunoaștere vocală sau sintetizator. Totuși, impelementarea unor limbi noi pentru Siri depinde doar de necesitățile companiei, dacă aceasta dorește să cheltuiască bani pentru o limbă sau alta.