Cas pràctic: IA conversacional
BHASHINI, la plataforma de traducció d'idiomes de l'Índia basada en IA, és una part vital de la iniciativa de l'Índia digital.
Dissenyada per proporcionar eines d'intel·ligència artificial (IA) i processament del llenguatge natural (NLP) a MIPIMES, startups i innovadors independents, la plataforma Bhashini serveix com a recurs públic. El seu objectiu és promoure la inclusió digital permetent als ciutadans indis interactuar amb les iniciatives digitals del país en la seva llengua materna.
A més, pretén ampliar significativament la disponibilitat de contingut d'Internet en llengües índies. Està especialment adreçat a àrees d'interès públic com ara la governança i la política, la ciència i la tecnologia, etc. En conseqüència, això incentivarà els ciutadans a utilitzar Internet en la seva pròpia llengua, afavorint la seva participació activa.
Solució del món real
Alliberant el poder de la localització amb les dades
L'Índia necessitava una plataforma que es concentrés a crear conjunts de dades multilingües i solucions tecnològiques basades en IA per oferir serveis digitals en llengües índies. Per llançar aquesta iniciativa, l'Institut Indi de Tecnologia de Madras (IIT Madras) es va associar amb Shaip per recopilar, segmentar i transcriure conjunts de dades de la llengua índia per crear models de parla multilingüe.
Challenges
Per ajudar el client amb el seu full de ruta de parla de la tecnologia de la parla per a les llengües índies, l'equip necessitava adquirir, segmentar i transcriure grans volums de dades d'entrenament per crear un model d'IA. Els requisits crítics del client eren:
Recopilació de dades
- Adquireix 3000 hores de dades de formació en 8 idiomes índies amb 4 dialectes per idioma.
- Per a cada idioma, el proveïdor recollirà Extempore Speech i
Discurs conversacional de grups d'edat de 18 a 60 anys - Assegureu-vos una combinació diversa de parlants per edat, gènere, educació i dialectes
- Assegureu-vos d'una combinació diversa d'entorns de gravació segons les especificacions.
- Cada gravació d'àudio ha de ser com a mínim de 16 kHz, però preferiblement de 44 kHz
Segmentació de dades
- Creeu segments de parla de 15 segons i marqueu l'hora de l'àudio amb els mil·lisegons de cada altaveu, el tipus de so (discurs, balbuceig, música, soroll), els torns, les enunciats i les frases d'una conversa.
- Creeu cada segment per al seu senyal de so objectiu amb un farciment de 200-400 mil·lisegons a l'inici i al final.
- Per a tots els segments, s'han d'omplir els objectes següents, és a dir, hora d'inici, hora de finalització, identificador de segment, nivell de sonoritat, tipus de so, codi d'idioma, identificador d'altaveu, etc.
Transcripció de dades
- Seguiu les directrius de transcripció detallades sobre caràcters i símbols especials, ortografia i gramàtica, majúscules, abreviatures, contraccions, lletres individuals parlades, números, puntuació, acrònims, disfluents, parla, parla inintel·ligible, idiomes no objectiu, no parla, etc.
Comprovació de qualitat i comentaris
- Tots els enregistraments s'han de sotmetre a una avaluació i validació de la qualitat, només es lliurarà un discurs validat
Solució
Amb la nostra comprensió profunda de la IA conversacional, vam ajudar el client a recopilar, segmentar i transcriure les dades amb un equip de col·leccionistes experts, lingüistes i anotadors per crear un gran corpus de conjunt de dades d'àudio en 8 idiomes índies.
L'àmbit de treball de Shaip incloïa, entre d'altres, l'adquisició de grans volums de dades d'entrenament d'àudio, la segmentació de les gravacions d'àudio en múltiples, la transcripció de les dades i el lliurament dels fitxers JSON corresponents que contenien les metadades [SpeakerID, Age, Gender, Language, Dialect,
Llengua materna, Qualificació, Ocupació, Domini, Format de fitxer, Freqüència, Canal, Tipus d'àudio, Nombre de parlants, Nombre d'idiomes estrangers, Configuració utilitzada, Àudio de banda estreta o de banda ampla, etc.].
Shaip va recopilar 3000 hores de dades d'àudio a escala mentre mantenia els nivells desitjats de qualitat necessaris per entrenar la tecnologia de la parla per a projectes complexos. Es va recollir el formulari de consentiment explícit de cadascun dels participants.
1. Recopilació de dades
2. Segmentació de dades
- Les dades d'àudio que es van recollir es van bifurcar encara més en segments de parla de 15 segons cadascun i es van marcar l'hora dels mil·lisegons per a cada altaveu, tipus de so, girs, enunciats i frases determinats en una conversa.
- Va crear cada segment per al seu senyal de so objectiu amb un farciment de 200-400 mil·lisegons a l'inici i al final d'un senyal de so.
- Per a tots els segments, els objectes següents estaven presents i emplenats, és a dir, hora d'inici, hora de finalització, identificador de segment, nivell de sonoritat (fort, normal, tranquil), tipus de so primari (parla, balbuceig, música, soroll, solapament), codi d'idioma altaveu DNI, transcripció, etc.
3. Comprovació de qualitat i comentaris
- Es va avaluar la qualitat de tots els enregistraments i només es van lliurar enregistraments de parla validats amb un WER del 90% i un TER del 90%
- Llista de control de qualitat seguida:
» Màxim 15 segons de durada del segment
» Transcripció de dominis específics, a saber: temps, diferents tipus de notícies, salut, agricultura, educació, feina o finances
» Baix soroll de fons
» Sense clip d'àudio desactivat – Sense distorsió
» Segmentació d'àudio correcta per a la transcripció
4. Transcripció de dades
Totes les paraules parlades, incloses les vacil·lacions, les paraules de farciment, els inicis falsos i altres tics verbals, es van capturar amb precisió a la transcripció. També vam seguir les directrius de transcripció detallades sobre majúscules i minúscules, ortografia, majúscules, abreviatures, contraccions, números,
puntuació, sigles, parla disfluent, sorolls que no són de parla, etc. A més, el flux de treball seguit per a la recollida i transcripció és el següent:
Resultat
Les dades d'àudio d'alta qualitat de lingüistes experts permetran a l'Institut de Tecnologia de l'Índia - Madras entrenar i construir models de reconeixement de parla multilingües amb precisió en 8 idiomes índies amb diferents dialectes en el temps estipulat. Els models de reconeixement de veu es poden utilitzar per:
- Superar la barrera lingüística per a la inclusió digital connectant els ciutadans amb les iniciatives en la seva pròpia llengua materna.
- Fomenta la governança digital
- Catalitzador per formar un ecosistema de serveis i productes en llengües índies
- Contingut digital més localitzat en els dominis d'interès públic, en particular, governança i polítiques
Ens va impressionar l'experiència de Shaip en l'espai d'IA conversacional. La seva competència global d'execució del projecte d'aprovisionament, segmentació, transcripció i lliurament de les dades de formació requerides de lingüistes experts en 8 idiomes dins de terminis i directrius estrictes; tot mantenint l'estàndard de qualitat acceptable".
Accelereu al 100% el desenvolupament de la vostra aplicació d'IA conversacional
Clients destacats
Potenciar els equips per construir productes d’intel·ligència artificial de primera línia.