A la recent Conferència Mundial d'Apple es varen presentar sistemes de reconeixement intel·ligent de converses.
El reconeixement de veu ha estat en la consciència pública durant fa molt de temps. En lloc d'utilitzar un teclat, no seria més bo parlar amb un ordinador en el llenguatge natural i que aquest entengui tot el que es diu?
Des que la conversa del capità Kirk amb l'ordinador a bord del USS Enterprise en la sèrie original de Star Trek, de la dècada del 60, i de Scotty amb l'intent fallit de parlar amb un ordinador del segle XX en una de les posteriors pel·lícules de la sèrie original, s'ha somiat sobre com poder aconseguir-ho.
Els investigadors han estat treballant en aquesta tecnologia des de fa molts anys. S'han desenvolupat tècniques que extreuen característiques d'una manera similar a la de l'oïda humana i les reconeixen com a fonemes i sons que els éssers humans usen com a part del seu discurs. Això implica l'ús de les xarxes neuronals artificials, models ocults de Markov i altres idees que són part de l'ampli camp de la intel·ligència artificial.
A través d'aquests models, les taxes de reconeixement de veu han millorat. Segons Google, les taxes d'error ja són de menys del 8%.
Però fins i tot amb aquests avenços, el reconeixement auditiu és només a la meitat de l'objectiu final ja que actualment, només és possible reproduir un text llegit, però aquest no és interpretat.
Un cop la màquina ha convertit la lectura del text, falta que després entengui el que realment s'ha dit. Aquest procés s'anomena "processament del llenguatge natural". Per tant, això és, sens dubte, més difícil que el procés de reconeixement de veu, ja que el llenguatge humà s'interpreta en funció del context i de la semàntica. Això fa que el procés de reconeixement de llenguatge natural sigui difícil.
Qualsevol persona que hagi utilitzat els sistemes de reconeixement de veu anteriors, pot testificar sobre el difícil que pot arribar a ser. Els primers sistemes tenien un vocabulari molt limitat, a més, calia anomenar els comandaments en la forma correcta per assegurar que l'equip els entenia.
Això era cert no només per als sistemes de reconeixement de veu sinó fins i tot per als sistemes d'entrada de text, en els quals l'ordre dels mots i la inclusió de certes paraules presentaven una gran diferència en com el sistema processava la comanda. Això era degut al fet que els primers sistemes de processament de llenguatge utilitzaven regles rígides i en jerarquia per prendre decisions i per interpretar les ordres, de manera que qualsevol desviació d'aquestes comandes podia presentar problemes.
Els nous sistemes, però, utilitzen algoritmes d'aprenentatge similars als models ocults de Markov utilitzats en el reconeixement de veu, per construir un vocabulari. Aquests sistemes encara necessiten que se'ls ensenyi, però són capaços de prendre decisions més suaus, basades en les ponderacions de les paraules individuals que s'utilitzen. Això permet consultes més flexible en el llenguatge utilitzat, però el contingut de la consulta pot seguir essent la mateixa.
Malgrat aquests avenços encara hi ha reptes en aquest espai. En el camp del reconeixement de veu, accents i pronunciació encara presenten problemes.
A causa de la forma en què els sistemes treballen, la diferent pronunciació dels fonemes pot fer que el sistema no reconegui el què s'ha dit. Això és especialment cert quan els fonemes en una paraula s'assemblen.
De fet, les màquines estan millorant molt en termes de comprensió del context però, encara manca molt de camí per recòrrer.
Font: PHYSorg
Cap comentari:
Publica un comentari a l'entrada
Aquest és un blog amb moderador dels comentaris. Per tant, no apareixen immediatament