Az AI generálás aranylázában az OpenAI erős kihívót küldött a meglévő videogeneráló eszközök, például a Google Imagen, vagy a Runway Gen-2 ellen.
Míg a versenytársak erőfeszítési eléggé elmosódottak, alacsony felbontásúak, plasztikus megjelenésűek és teljesen kezdetlegesek voltak – inkább a szintetikus képek jövőjébe pillantottak be, mint életképes termékekbe. Az OpenAI Sora egy teljesen másfajta megközelítés, amely szöveges utasítások alapján fotórealisztikus embereket, állatokat és tájakat készít. A filmtechnikát vagy mobiltelefonos felvételeket utánzó kezelést használ, és professzionális tárgy követést, és kamera mozgásokat alkalmaz.
Valósághű videók
Nem tökéletes, de nagyon közel van ahhoz, hogy megkülönböztethetetlen legyen a valóságtól.
Az eredmény meglehetősen lenyűgöző. Egy nő fülbevalója természetes módon leng a járásával, ahogy a fény valósághűen tükröződik a szemüvegén és az esőtől áztatott tokiói utcákon. Egy másik videóban több óriási gyapjas mamut közeledik, amint egy havas réten lépkednek, árnyékuk a várakozásoknak megfelelően körbeöleli őket és a környezetet. Több videóban nyoma sincs annak az érzésnek, ami miatt a múltbeli szintetikus videókban sikoltozott, hogy valami mesterséges.
Ezek a lenyűgöző eredmények egyben riasztóak is.
Túl azon a félelmeken, hogy ez mit jelent a kreatív munkahelyekre nézve (ahogyan arra a 2023-as hollywoodi író- és színészsztrájkok rávilágítottak), vagy hogy mit jelent a fotók és videók megértésére nézve, a legnagyobb vészharangot az jelenti, hogy mit jelent ez az objektív igazság, a dezinformáció és a hatalom jövőjére nézve.
Ha nem tudod megmondani, hogy mi a valóságos (az AI által generált, valódinak tűnő videók, valamint a mások által hamisnak állított valódi videók), akkor semmi sem valóságos, csak az, amit elhiszel. Az elmúlt évtized világszerte megmutatta nekünk a közösségi média által terjesztett megvágott videók veszélyeit; a szelektív tények szelektív valóságot eredményeznek, és végső soron további megosztottságot és kárt okoznak a társadalomnak.
Mi a valóság?
Ha a fenti példát nézzük a gyapjas mamutokkal, könnyű azt mondani, hogy nem valóságos. Nézőként talán emlékszik arra, hogy a gyapjas mamutok körülbelül 4000 évvel ezelőtt haltak ki, ezért arra gondol, hogy ez csak valamilyen illusztráció lehet, akár mesterséges intelligencia generálta, akár nem.
De gondoljunk csak bele egy pillanatra, hogy egy ilyen videót becsomagolnának és pontosnak mutatnának be olyan embereknek, akik nincsenek tisztában azzal, hogy kihaltak. Ez nem is olyan erőltetett, mint gondolnánk. Amint arról a BBC tavaly beszámolt, a gyerekeket célzó, mesterséges intelligenciával generált tudományos YouTube-videók figyelemre méltóan hatékonyan győzték meg az óvodásokat arról, hogy az egyiptomi piramisok elektromos generátorok, a földönkívüliek léteznek, és hogy a NASA eltitkolja, hogy az emberi tevékenység nem játszott szerepet az éghajlatváltozásban. Ezek mind hamisak, de ez nem akadályozta meg az 5 éveseket abban, hogy elhiggyék, és a videókat ezen állítások bizonyítékaként tekintsék.
Egy olyan eszköz, mint a Sora, amely azt ígéri, hogy bárki számára könnyen és gyorsan fotórealisztikus embereket és valós környezetet tud biztosítani, kevés vagy semmilyen tanulási folyamat nélkül, valóban kihívást jelent a gyerekeket (és felnőtteket) megtéveszteni igyekvő, ártó szereplők részéről, és ez elgondolkodtató lehet.
A múltban a mélyhamisítások (Deep Fake) valósághű kivitelezéséhez bizonyos szintű szakértelemre és számítási teljesítményre volt szükség (2019-ben legalább két hét és 552 dollár kellett egy kezdetleges hamisítványhoz), de az olyan eszközökkel, mint a Sora, a küszöb lecsökkent bárki számára, akinek van egy billentyűzete, némi ideje és szándéka.
Úgy tűnik, az OpenAI valamilyen szinten felismerte a mesterséges intelligencia eszközeinek veszélyeit. A bejelentés nagy részét a biztonsági résznek szentelték, amely egy kiemelt fejléccel ismeri el a félretájékoztatás és a társadalmi károkozás kockázatát. A platformnak egyelőre nincs nyilvános megjelenési dátuma; jelenleg csak a tesztelők egy kiválasztott csoportja számára érhető el, akiket azzal is megbíztak, hogy segítsenek azonosítani és értékelni a kockázatokat és a lehetséges károkat. Remélem, hogy ez a szintű gondoskodás valódi, és nem csak beetetés.
Vadiúj vadnyugat
Jelenleg nincs szabályozás a mesterséges intelligenciát generáló eszközökre vonatkozóan. Az EU mesterséges intelligenciáról szóló törvénye lehet az első, ha elfogadják, és szabályozná az iparágat a mesterséges intelligencia vállalati és bűnüldözési célú felhasználásának korlátozásával, valamint a nyilvánosság számára panasztételi lehetőséget biztosítana. Az Egyesült Államokban és Kínában is számos törekvés van a mesterséges intelligencia használatának szabályozására, de jelenleg ezek a legjobb esetben is csak foltokban léteznek.
Jelenleg az egyetlen létező biztosítékot a mesterséges intelligencián dolgozó vállalatok saját maguk szabták meg.
Az OpenAI nyelvi szűrőkkel ellenőrzi és elutasítja az olyan szöveges kéréseket, amelyek erőszakosnak, szexuálisnak vagy gyűlöletkeltőnek ítélt elemeket tartalmaznak, illetve amelyek szerzői jogvédelem alatt álló anyagokat vagy hírességek képmását próbálják felhasználni. A tervek szerint a C2PA metaadatokat beépítik az eszköz bármelyik nyilvános verziójába.
A C2PA (Coalition for Content Provenance and Authenticity) egy hitelesítési szabványokra irányuló erőfeszítés, amelyet többek között az Adobe, a Sony és a BBC támogat. A CAI (Content Authenticity Initiative) és a Project Origin erőfeszítéseit egyesíti, hogy a képek eredetiségével és hitelességével foglalkozzon a szerzői és metaadat-szabványok meghatározásával, valamint a tartalom hitelességével kapcsolatos nyilvános oktatásra szolgáló nyílt forráskódú eszközökkel.
Azzal, hogy csatlakozott ehhez a csoporthoz, és elfogadta a szabványt, az OpenAI úgy tűnik, elismeri, hogy szükség van egy papír alapú nyomvonalra annak meghatározásához, hogy mi hiteles és mi szintetikus. Amíg a Sora nem kerül nyilvánosságra, nem tudjuk, hogyan fogják megvalósítani, hogyan fogják a nyilvánosságot betanítani a hitelesítési eszközök használatára, vagy ami még fontosabb, milyen értéket képvisel az ilyen eszközök használata.
Egy kulcsfontosságú dolog azonban hiányzik ebből a felismerésből. A C2PA erőfeszítései túlnyomórészt az újságírókat célozták meg, akiket a médiahitelesítés talán a leginkább érint. Mit jelent a képek eredetisége és hitelessége az átlagos Sora-felhasználó számára?
A jövő már itt van
Évek óta tartó vita folyik a mesterséges intelligenciával készült képekről, és arról, hogy azok fotók, művészet, szerzői jogi védelem alá helyezhetők vagy hasznosak. Gúnyolódtunk azon, hogy a mesterséges intelligencia nem képes emberi kezeket vagy olvasható szöveget készíteni. De ha a Sora emlékeztet minket egy dologra, akkor az az, hogy a technológia gyorsabban fejlődik, mint mi, emberek, és csak korlátozott időnk van arra, hogy proaktívak legyünk, mielőtt reagálnánk bármilyen kárra.
Ez most a legrosszabb mesterséges intelligencia által generált videó, amit valaha is látni fogunk. Egy évvel ezelőtt még azon kuncogtunk, hogy az AI-eszközök hogyan küszködnek az emberi testekkel, és nem tudnak valósághűen megjeleníteni egy spagettit evő Will Smitht, 11 hónappal később pedig már olyan videókat láthatunk, mint az alábbi, egy könyvet olvasó férfiról.
Az OpenAI a prezentációjában példákat osztott meg arra, hogy az eszköz még mindig küszködik a kezekkel, a fizikával és az egymást átfedő állatokkal. Ha alaposan megnézzük a részleteket, meg lehet állapítani, hogy valami nem valódi, de ehhez több kell egy futó pillantásnál. Vagy a közösségi média és az emberek által újra megosztott képernyőmentések esetében, ahol a vizuális tömörítés csökkenti a képminőséget, szkeptikusnak kell lennünk, és meg kell keresnünk a forrást, hogy meggyőződjünk róla. A C2PA-eszközök segíthetnek, ha technikai oldalról megfelelően alkalmazzák őket, de szükség lesz egy erőteljes médiaműveltség-oktatásra is.
Ha megnézzük, hogy pár hónap alatt milyen messzire jutott a mesterséges intelligencia által generált videók fejlődése, elkerülhetetlennek tűnik, hogy az AI által generált képek és videók furcsaságai idővel megoldódnak.
Szebb világ?
Kétségtelenül lenyűgöző ez a technológia, de pontosan milyen problémát old meg? A Szilícium-völgy kedvenc mantráját kölcsön véve: jobbá teszi-e ez a világot?
Megértem, hogy aranyláz van. Látom az Nvidia és a Microsoft részvényárfolyamának emelkedését, és megértem, hogy a pénz hogyan motiválja a mesterséges intelligencia fejlesztését. Azt is látom, hogy az emberek olyan találékony dolgokat készítenek, amelyek kreativitásra ösztönöznek. De látom a veszélyeket is.
Az OpenAI által megosztott példavideók közül egyik sem tűnt számomra igazán meggyőzőnek. A Sora lényege, hogy olyan fotorealisztikus videót próbál készíteni, amely akár valósnak is tűnhet, és el kell gondolkodnom azon, hogy vajon milyen céllal? A hamis videók egy futó pillantással valódiaknak tűnhetnek. A valódi videókat pedig bárki hamisnak állíthatja.
Értem én, hogy rengeteg lehetőség van ebben a technológiában, gombnyomásra lehet reklámfilmet forgatni, amit előtte csak milliókból lehetett megoldani, vagy akár majd mozifilmet gyártani sokkal alacsonyabb költségvetéssel valódi színészek nélkül. De ne feledjük a veszélyeit sem, amikor ezen eszközöket rossz célokra használják, bezárva számunkra a valóságos világ kapuit.