Szövegbeágyazás és alaposan átdolgozott utasítások a képalkotásban! Az AI képgenerátor, a MidJourney bejelentette hatodik verzióját a népszerű eszközének, lehetővé téve hosszabb utasítások használatát, nagyobb részletességet és még a fotókhoz szöveg hozzáadását is.
Ünnepi ajándék
A MidJourney 2022 júliusában lépett a nyílt béta verzióba, és azóta gyors és lenyűgöző fejlődést mutatott a képek minőségében és pontosságában minden egyes kiadással. Ez a kiadás olyan időszakban érkezett, amikor a MidJourney egyre nagyobb nyomás alá kerül a versenytársaktól, beleértve az OpenAI DALL-E 3-at, amely például sokkal jobban tud szövegeket generálni, és hasonlóan mint például a Meta ingyenes eszközei és olyan szolgáltatások, mint a Leonardo, vagy a Tengr.ai egyre több kontrollt kínálnak a képgenerálás felett.
Tekintsük ezt egy ünnepi ajándéknak: a Midjourney hatodik verziója, a népszerű képgeneráló AI modell legújabb és legnagyobb iterációja, amelyet az azonos nevű kutatócsoport alapítója, David Holz vezetett, tegnap éjjel jelent meg alfa kiadásként – és már sokan el vannak ragadtatva az általa hozott fejlesztésektől.
Az új funkciók között szerepel a jelentősen javított és realisztikusabb, részletesebb képek, valamint a modell képessége arra, hogy olvasható szöveget generáljon a képeken belül, ami a 2022-es megjelenése óta elkerülte a Midjourney-t, miközben más rivális AI képgenerátorok, mint az OpenAI DALL-E 3 és az Ideogram, már bevezették ezt a funkciót.
„Ez a modell sokkal valósághűbb képeket képes generálni, mint bármi, amit korábban kiadtunk,” – írta Holz egy üzenetben, amelyet a Midjourney Discord szerveren tett közzé, amelynek több mint 17 millió tagja van. Holz szerint a V6 valójában a „harmadik modell, amit az MI szuperklasztereinken készítettünk teljesen újra” és kilenc hónapot vett igénybe a fejlesztése.
Hogyan lehet aktiválni a Midjourney v6-ot?
A frissítés nem lép automatikusan érvénybe a felhasználók számára. Be kell gépelni a „/settings” parancsot a Midjourney Discord szerveren vagy egy közvetlen üzenetben a Midjourney botnak, majd a legördülő menüben kiválasztani a v6-ot, vagy manuálisan beírni a
"--v 6"
utasítást az utasítások után.
Milyen újítások kerültek a v6-ba?
Konkrétan Holz több új funkciót is említett, beleértve:
- Sokkal pontosabb utasításkövetés, valamint hosszabb utasítások
- Javított koherencia és modelltudás
- Javított képutasítások és remix
- Jobb szöveg rajzolási képesség (a szöveget idézőjelek között kell írni, és a –style raw vagy alacsonyabb –stylize értékek is segíthetnek)
- Javított upscaler-ek, mind a ‘visszafogott’, mind a ‘kreatív’ módban (2x-es felbontásnövekedés)
Új utasítási módszerek
A Midjourney projekt alapítója és vezetője azt is tisztázta, hogy egy teljesen új utasítási módszert fejlesztettek ki.
A Midjourney utasításai – ahogy a felhasználók képeket generálnak azzal, hogy konkrét szövegleírásokat és kulcsszavakat gépelnek be a Discord szerverre vagy az alfa verziójú weboldalra – hosszú ideje valamelyest rejtélyesek és technikaiak voltak, a felhasználók olyan technikákról osztottak meg példákat a közösségi médiában, amelyek jól működtek számukra, mint például kameranevek, filmtekercs (35mm) és felbontás (8k) szavak használata, hogy kiváló minőségű, fotorealisztikus vagy filmes eredményeket érjenek el az MI modellből.
Holz azonban világossá tette a Discordon közzétett bejegyzésében, hogy ezek a típusú utasítási trükkök már nem fognak olyan az eredményeket hozni, amelyeket a felhasználók várnak. „Újra meg kell tanulnotok, hogyan adjatok utasításokat” – írta. „A v6-os utasítások jelentősen eltérnek a v5-östől. Újra meg kell tanulnotok, hogyan adjatok utasításokat. A v6 sokkal érzékenyebb az utasításaitokra. Kerüljétek a ‘felesleges’ dolgokat, mint ‘díjnyertes, fotorealisztikus, 4k, 8k’ Legyetek konkrétak abban, amit akartok. Ha konkrétak vagytok, most sokkal jobban megért titeket. Ha valamit fotográfiailag kevésbé elfogultat, szó szerintibbet szeretnétek, akkor valószínűleg alapértelmezetten a –style raw használatát kell választanotok. Az alacsonyabb –stylize értékek (alapértelmezett 100) jobban érthetik az utasításokat, míg a magasabb értékek (akár 1000-ig) esztétikailag jobbak lehetnek.”
Folyamatos fejlesztések
A frissítések azt mutatják, hogy a Midjourney folyamatosan fejleszti modelljét – amit sokan a legkiválóbb és legmagasabb minőségű, valamint legkreatívabb AI művészeti generátornak tartanak a jelenleg elérhetők közül -, megőrizve vezető szerepét még akkor is, ha szembesül a versenytársak kihívásaival, akik saját belső modelljeiket vagy a népszerű nyílt forráskódú Stable Diffusion modellt használják, amely egy népszerű alap AI technológiára, az úgynevezett „diffúzióra” támaszkodik.
Eközben a Midjourney és más diffúzió alapú AI művészeti generátorok szembesülnek csoportos keresettel a szerzői jogok megsértéséért, mert művészek azzal vádolják őket, hogy a nyilvánosan közzétett munkáikon képezik ki őket anélkül, hogy erre kifejezett beleegyezést vagy kompenzációt adtak volna.
Bárhogy is alakul az AI képgenerátorok fejlesztése, a folyamatos verseny számunkra csak jót tesz, és egyre szebb és élethűbb képeket alkothatunk majd a szabad szöveges utasítások által.
Ingyenes kipróbálás
A YesChat.ai oldalán keresztül most bárki kipróbálhatja a MidJourney 6 tudását.