Schopnosti generovania obsahu prostredníctvom umelej inteligencie sa neustále zlepšujú. Ukazuje sa, že si budeme musieť dávať veľký pozor na to, čomu môžeme veriť. Vedci z Alibaby predstavili nový projekt, ktorý za pomoci AI z jednej fotografie človeka vytvorí pomerne realisticky vyzerajúcu tvár, ktorá hovorí alebo zaspieva to, čo jej zadáte.
Projekt Sora od spoločnosti Google ukázal, že generatívna umelá inteligencia dokáže na základe jednoduchého textového zadania vygenerovať pomerne realistickú filmovú scénu. Jedným z prvých výtvorov tohto systému bolo aj ázijské dievča prechádzajúce sa po meste, ktoré sa tak stalo symbolom tejto generatívnej AI.
Teraz tento produkt umelej inteligencie vzali odborníci z Inštitútu pre inteligentné IT, ktorý prevádzkuje Alibaba Group, a naučili ju „rozprávať a spievať“.
Sora ale nebola jediná, na ktorej si vyskúšali schopnosti svojho difúzneho modelu, ktorý nazvali EMO. Skratka vychádza z názvu Emote Portrait Alive, čo je ich systém na generovanie portrétnych videí pomocou difúzneho modelu.
Vedci z inštitútu uvádza, že stačí poskytnúť fotografiu a zvukový súbor a EMO následne dokáže generovať AI videá, kde môžu ľudia hovoriť a spievať.
EMO: Emote Portrait Alive od Alibaby pic.twitter.com/kaz4PM6V72
— Janusz Pietruszyński (@PietruszynskiJ) March 11, 2024
„Naša metóda dokáže generovať hlasové videá s expresívnymi výrazmi tváre a rôznymi polohami hlavy a zároveň dokáže generovať videá s ľubovoľnou dĺžkou trvania v závislosti od dĺžky vstupného videa,“ vysvetľujú autori.
Celý proces je podľa jeho tvorcov nastavený tak, aby sa v prvej fáze extrahovali rysy z predloženej snímky, a výsledok je potom použitý na vytvorenie série rozpohybovaných snímok. Druhou je fáza difúzneho procesu, kedy vopred natrénovaný zvukový kodér spracováva zvukové vložky.
The Institute for Intelligent Computing at @AlibabaGroup has launched its latest research report on EMO: Emote Portrait Alive.
Breaking it down for you:
🠮 This research features a groundbreaking framework for generating expressive portrait videos driven by audio input,… pic.twitter.com/g2wbTShZht
— Anmol Mahajan | AI Builder (@mister_mahajan) March 9, 2024