La IA accelera amb avenços en pocs dies
La captura facial de Runway i la veu de ChatGPT ens apropen a noves formes de creació
Claude 3.5 i ElevenLabs canvien l’experiència creativa i milloren la productivitat
“Imagina que un nen de sis anys pugui fer una pel·lícula que sembli de Hollywood”, va piular Bryan McAnulty, entusiasmat amb el que havia vist de Runway Act-One. Aquesta eina d’intel·ligència artificial ha causat sorpresa, especialment entre creadors visuals i audiovisuals. Act-One de Runway permet capturar moviments facials amb una precisió que fins ara només estava a l’abast de grans estudis cinematogràfics, cosa que la converteix en una referència per a la indústria. Però aquest ha estat només un dels molts avenços que han sacsejat el món de la IA els últims dies.
La setmana passada, una autèntica allau de novetats va sorprendre el sector tecnològic. Entre elles, l’arribada de noves funcionalitats a ChatGPT, com la veu personalitzada a Europa, o el llançament d’eines com Voice Design d’ElevenLabs i Claude 3.5 d’Anthropic, que prometen transformar la productivitat i la manera com interactuem amb els nostres dispositius. És evident que la competència entre empreses és cada vegada més ferotge, i totes busquen innovar a un ritme vertiginós.
Runway ha estat al capdavant d’aquesta onada d’innovació amb el llançament d’Act-One, una eina que captura les expressions facials amb un nivell de detall i realisme impressionant. Aquesta nova funcionalitat permet als usuaris capturar els gestos del rostre i aplicar-los a animacions en temps real, sense necessitat d’equipament especialitzat. Les reaccions no s’han fet esperar. “Disney està acabada, tret que compri una companyia com aquesta”, va comentar Mike Does Finance a X, i va posar en relleu com Act-One podria redefinir els estàndards de la creació audiovisual. Aquesta eina posa el poder de la captura de moviment a l’abast de petits creadors i ofereix una eina assequible per a projectes de tota mena, des d’animacions professionals fins a vídeos amateurs.
Voice Design d’ElevenLabs. Dins del sector de l’àudio, ElevenLabs ha destacat amb Voice Design, que permet crear veus personalitzades simplement escrivint un text. Aquest avenç no només simplifica la creació de veus per a projectes audiovisuals, sinó que també obre la porta a noves formes de personalització de continguts. “És el nivell següent”, va escriure Alex Patrascu, elogiant la facilitat d’ús i el potencial de Voice Design per crear veus adaptades a les necessitats específiques de cada projecte. La possibilitat de crear veus amb accents particulars o sense l’accent de l’actor original és només una de les opcions que ofereix. ElevenLabs, introduint la possibilitat d’adaptar el to, la velocitat i altres aspectes de la veu, facilita un control total sobre l’àudio generat. Serà una eina clau per a creadors de pòdcasts, dobladors i altres professionals del sector audiovisual.
Claude 3.5 Sonnet. Mentre que Runway i ElevenLabs innoven en el camp visual i sonor, Claude 3.5 Sonnet d’Anthropic representa un salt important en la interacció amb dispositius digitals. Aquesta IA avançada pot controlar un ordinador de manera autònoma, cosa que permet executar tasques complexes a partir d’instruccions senzilles. El que fa que Claude 3.5 sigui especial és la seva capacitat per comprendre i adaptar-se a les necessitats de l’usuari. Ja no es tracta només de donar ordres senzilles a un assistent digital, sinó de tenir una IA que controli aplicacions i gestionar múltiples tasques de manera eficient. Des de l’enviament de correus fins a la gestió de documents, Claude 3.5 es defineix com una eina indispensable per a la productivitat diària.
ChatGPT amb veu. Ara els usuaris poden mantenir converses verbals amb el bot de conversa d’OpenAI, cosa que transforma completament l’experiència d’interactuar amb la IA. Aquesta funció, disponible en múltiples llengües, incloent-hi el català i diferents varietats dialectals, obre noves oportunitats a usuaris de tot el món. La veu de ChatGPT ofereix diverses opcions de personalització, amb tons masculins i femenins que fan que la conversa sigui més natural i fluida. Amb aquesta funcionalitat, OpenAI ha fet un pas important cap a la “humanització” de les interaccions amb assistents digitals.
Suno i Timbaland. El món de la música també ha experimentat una revolució els últims dies amb la col·laboració entre Suno i Timbaland. Aquesta aliança ha permès als seguidors de l’artista fer remixs del seu nou senzill utilitzant IA generativa, la qual cosa marca una nova manera de participar en el procés creatiu. Suno ha creat una plataforma perquè els seguidors puguin personalitzar la música i participar activament en la creació d’obra musical. Això representa un canvi radical en la indústria, on els artistes poden col·laborar amb els seus seguidors d’una manera que abans era impensable.
Gemini Live i Notebook LM. Google no es queda enrere amb les seves innovacions. Notebook LM permet ara generar pòdcasts i resums d’àudio en espanyol a partir de textos, cosa que facilita enormement el procés de creació de continguts per a professionals. Aquesta funcionalitat, que alguns usuaris estan aconseguint que respongui en català amb un accent millorable, suposa un gran avenç en la manera com es poden consumir i compartir continguts educatius o professionals.
Copilot a WhatsApp. A més, l’arribada de Gemini Live amplia les capacitats d’IA en la gestió de converses i continguts integrant-se en plataformes com WhatsApp per millorar l’experiència diària d’usuaris arreu del món. La IA de Microsoft Copilot també s’integra a WhatsApp. Afegeix a través d’aquest enllaç Copilot al mòbil com a contacte el número de telèfon +1 877-224-1042. A continuació ja podràs enviar-li un missatge, que pot ser “Hola, Copilot”. A continuació rebràs un breu missatge amb els termes d’ús, la política de privacitat i un article de preguntes freqüents.
Els avenços en IA d’aquesta setmana han deixat clar que la tecnologia no té intenció de frenar. Cada setmana porta noves eines per millorar la productivitat, creativitat i accessibilitat, i fer que les possibilitats per a creadors, professionals i usuaris quotidians siguin pràcticament infinites.
Breus
Professionals de la comunicació local debaten l’impacte de la IA
Les II Jornades de la Comunicació Local, organitzades per la Diputació de Barcelona, han reunit més de 200 professionals per debatre sobre la integració de la IA en l’àmbit municipal. Experts com Pere Vila, de RTVE, Cristina Aced i Enrique San Juan han analitzat com la IA pot millorar la feina dels mitjans i gabinets locals, sempre amb un enfocament ètic.
Protesta massiva d’artistes contra l’ús no autoritzat de les seves obres
Més de 20.000 figures del món de l’art, com Thom Yorke de Radiohead i Julianne Moore, han signat una carta oberta denunciant l’ús no autoritzat de les seves obres per al desenvolupament d’IA com ChatGPT. La carta reclama que aquesta pràctica és una amenaça per als creadors i insta a regular aquest ús.
Apple redueix la producció de Vision Pro per centrar-se en un model més econòmic
Apple ha decidit reduir la producció de les seves ulleres Vision Pro, valorades en 3.500 dòlars, i concentrar-se en un model més assequible. Aquest canvi estratègic respon a la voluntat de la companyia d’arribar a un mercat més ampli amb un producte de realitat augmentada més accessible econòmicament.
OpenAI fitxa Scott Schools com a nou cap de compliment legal
OpenAI ha anunciat la incorporació de Scott Schools com a cap de compliment, un expert amb àmplia experiència en el Departament de Justícia dels Estats Units i en el sector privat. Schools arriba en un moment clau per a la companyia, que afronta desafiaments legals i regulacions globals, després de dimissions col·lectives a la cúpula.