Daugelis žmonių žino, kad robotai nebeatrodo kaip „Tinny“ šiukšliadėžės. Jie skamba kaip Siri, Alexa ir Dvyniai. Jie skamba kaip „Labirintine“ klientų palaikymo telefonų medžių balsai. Ir net tuos robotų balsus pasenę nauji AI sugeneruoti balsai, kurie gali imituoti kiekvieną vokalinį niuansą ir žmogaus kalbą, iki konkrečių regioninių akcentų. Ir vos keliomis sekundėmis garso, AI dabar gali klonuoti kažkieno konkretų balsą.

Ši technologija pakeis žmones daugelyje sričių. Automatizuotas klientų aptarnavimas sutaupys pinigų, sumažinant personalą skambučių centruose. AI agentai skambins mūsų vardu, kalbėdamiesi su kitais natūralia kalba. Visa tai įvyks ir netrukus bus įprasta.

Tačiau kalbant su robotu, o ne asmeniu yra kažkas iš esmės kitaip. Žmogus gali būti draugas. PG negali būti draugas, nepaisant to, kaip žmonės gali su tuo elgtis ar reaguoti. AI geriausiu atveju yra įrankis, o blogiausiu atveju – manipuliavimo priemonė. Žmonės turi žinoti, ar mes kalbamės su gyvu, kvėpuojančiu žmogumi, ar robotu su darbotvarke, kurią nustato asmens, kuris jį kontroliuoja. Štai kodėl robotai turėtų skambėti kaip robotai.

Negalite tiesiog žymėti AI sukurtos kalbos. Tai bus įvairių formų. Taigi mums reikia būdo, kaip atpažinti AI, kuris veikia, nesvarbu, koks yra būdas. Jis turi veikti ilgiems ar trumpiems garso fragmentams, net vos per antrą ilgą. Tai turi veikti bet kuriai kalbai ir bet kokiam kultūriniam kontekstui. Tuo pat metu neturėtume apriboti pagrindinės sistemos rafinuotumo ar kalbos sudėtingumo.

Turime paprastą pasiūlymą: visi kalbantys AIS ir robotai turėtų naudoti žiedo moduliatorių. Dvidešimtojo amžiaus viduryje, prieš tai buvo lengva sukurti tikrą robotą skambančią kalbą, žiedo moduliatoriai buvo naudojami, kad aktoriai balsuotų robotai. Per pastaruosius kelis dešimtmečius mes pripratome prie robotų balsų vien todėl, kad teksto į kalbą sistemos buvo pakankamai geros, kad sukurtų suprantamą kalbą, kuri nebuvo panaši į žmogų. Dabar mes galime naudoti tą pačią technologiją, kad atliktume robotų kalbą, kuri vėl nesiskiria nuo žmogaus garso robotikos.

Žiedo moduliatorius turi keletą pranašumų: jis yra skaičiuojamas paprastas, gali būti pritaikytas realiuoju laiku, neturi įtakos balso suprantamumui ir, svarbiausia-visuotinai „robotų skambėjimas“ dėl istorinio naudojimo vaizduojant robotus. .

Atsakingos AI kompanijos, kurios bet kokios formos balso sintezę ar AI balso padėjėjus teikia, turėtų pridėti tam tikro standartinio dažnio žiedo moduliatorių (tarkime, nuo 30 iki 80 Hz) ir minimalios amplitudės (tarkime, 20 procentų). Tai viskas. Žmonės greitai pasivys.

Čia yra keletas pavyzdžių, kurių galite klausytis, ką mes siūlome. Pirmasis klipas yra AI sukurtas šio straipsnio „Podcast“, kurį sukūrė „Google“ „NotebookLM“, kuriame yra du AI „Hosts“. „Google“ „NotebookLM“ sukūrė „Podcast“ scenarijų ir garso įrašą, pateiktą tik šio straipsnio tekstą. Kiti du klipai pateikiami tą pačią podcast’ą su AIS balsais, kurie subtiliai modifikavo žiedo moduliatorių:

Garso efektą sugebėjome sugeneruoti su 50 eilučių „Python“ scenarijumi, kurį sukūrė „Anthropic“ Claude’as. Vienas žinomiausių robotų balsų buvo „Daleks iš„ Doctor Who “-septintajame dešimtmetyje. Tuomet robotų balsus buvo sunku sintetinti, todėl garsas iš tikrųjų buvo aktoriaus balsas, einantis per žiedo moduliatorių. Jis buvo nustatytas maždaug 30 Hz, kaip mes darėme savo pavyzdyje, turint skirtingą moduliacijos gylį (amplitudę), atsižvelgiant į tai, koks stiprus yra robotinis efektas. Mes tikimės, kad AI pramonė išbandys ir suartins gerą tokių parametrų ir parametrų balansą ir naudos geresnius įrankius nei 50 eilučių „Python“ scenarijus, tačiau tai pabrėžia, kaip paprasta tai pasiekti.

Žinoma, taip pat bus naudinga PG balsų naudojimas. Suktybės, kuriose naudojamas balso klonavimas, kasmet tapo lengviau, tačiau jie daugelį metų buvo įmanoma su tinkama žiniomis. Kaip ir mes sužinojome, kad nebegalime pasitikėti vaizdais ir vaizdo įrašais, kuriuos matome, nes jie lengvai galėjo būti AI sukuriami, mes visi netrukus sužinosime, kad kažkas, kuris skamba kaip šeimos narys, skubiai prašantis pinigų Balso-klonavimo įrankis.

Mes nesitikime, kad sukčiai laikysis mūsų pasiūlymo: jie ras kelią, nesvarbu. Bet tai visada pasakytina apie saugumo standartus, o kylanti banga pakelia visas valtis. Mes manome, kad didžioji dalis naudojimo būdų bus su populiariomis pagrindinių kompanijų balso API-ir visi turėtų žinoti, kad jie kalba su robotu.

Iš jūsų svetainės straipsnių

Susiję straipsniai visame internete



Source link

By admin

Draugai: - Marketingo paslaugos - Teisinės konsultacijos - Skaidrių skenavimas - Fotofilmų kūrimas - Karščiausios naujienos - Ultragarsinis tyrimas - Saulius Narbutas - Įvaizdžio kūrimas - Veidoskaita - Nuotekų valymo įrenginiai -  Padelio treniruotės - Pranešimai spaudai -