Gadiem ilgi vienkāršākais veids, kā pamanīt mākslīgā intelekta (MI) ģenerētu attēlu, bija meklēt digitālas kļūmes pazīmes. Jūs varētu redzēt rokas ar sešiem pirkstiem, acis, kas īsti nesakrīt, un, kas ir visslavenākais, pilnīgu nespēju rakstīt. Ja 2023. gadā lūgtu MI uzzīmēt „Cafe” izkārtni, jūs, visticamāk, saņemtu „Cafféé” vai virkni citplanētiešu rūnu, kas izskatījās tā, it kā tās piederētu zinātniskās fantastikas rekvizītu telpai. Mēs par to smējāmies, veidojām mēmes un izmantojām to kā mierinošu atgādinājumu, ka mašīnas vēl nav gluži gatavas pārņemt grafiskā dizaina nodaļu.
Lai gan populārais viedoklis liecināja, ka MI ir vienkārši „pārāk radošs”, lai to apgrūtinātu stingrie alfabēta noteikumi, realitāte bija daudz tehniskāka. Taču līdz ar ChatGPT Images 2.0 izlaišanu šis stāsts ir oficiāli mainījies. Tas nav tikai neliels labojums vai nedaudz ātrāks dzinējs; tās ir fundamentālas izmaiņas tajā, kā MI „redz” saikni starp pikseļiem un valodu.
Lai saprastu, kāpēc šis ir liels lēciens, mums jāieskatās „zem pārsega”, kā attēlu ģeneratori darbojās iepriekš. Vēsturiski šie rīki gandrīz pilnībā balstījās uz difūzijas modeļiem. Vienkāršoti sakot, difūzijas modelis ir kā tēlnieks, kurš sāk ar statisku trokšņu bloku — tīru digitālo troksni — un lēnām atšķeļ tos gabaliņus, kas neizskatās pēc jūsu uzvednes.
Asmelash Teka Hadgu, Lesan AI izpilddirektors, vēl 2024. gadā atzīmēja, ka šie modeļi pēc būtības mēģināja rekonstruēt ievadi no haosa. Tā kā teksts uz izkārtnes vai t-krekla parasti aizņem tikai nelielu daļu no kopējiem attēla pikseļiem, modeļa matemātika prioritizēja lielās lietas — apgaismojumu, tekstūras, seju formas —, savukārt burtus uzskatīja par maznozīmīgiem stilistiskiem rakstiem. Mākslīgajam intelektam burts „A” nebija lingvistisks simbols; tas bija tikai specifisks līniju izvietojums, ko tas bieži sapludināja ar fona troksni.
Raugoties uz kopējo ainu, tas nozīmēja, ka, lai gan MI varēja uzgleznot šedevru Van Goga stilā, tas nespēja uzrakstīt sakarīgu pārtikas produktu sarakstu uz līmlapiņas. Tas bija nenogurdināms praktikants ar neticamu krāsu izjūtu, bet ar smagu disleksijas formu.
Images 2.0 attālinās no šīs „trokšņa-attēla” veidošanas un virzās uz kaut ko līdzīgāku tam, kā faktiski darbojas lielie valodu modeļi (LLM), piemēram, GPT-4. Lai gan OpenAI raksturīgi klusē par precīzu arhitektūru, nozares analītiķi norāda uz autoregresīvo modelēšanu.
Citiem vārdiem sakot, tā vietā, lai mēģinātu vienlaikus noņemt troksni no visa attēla, modelis tagad veic prognozes par to, kādai jāizskatās nākamajai attēla daļai, pamatojoties uz to, ko tas jau ir uzzīmējis. Tas padara procesu daudz mērķtiecīgāku. Kad modelis „domā”, tas ne tikai ģenerē pikseļus; tas seko loģiskai prasību ķēdei.
| Funkcija | Vecie difūzijas modeļi | Images 2.0 (Autoregresīvais) |
|---|---|---|
| Teksta precizitāte | Bieži „savārstījumi” vai rūnu simboli | Augstas precizitātes latīņu un nelatīņu rakstības |
| Loģiskā konsekvence | Grūtības ar vairāku posmu instrukcijām | Spēj ģenerēt vairāku paneļu komiksus |
| Darba plūsma | Vienreizēja ģenerēšana | „Domā”, meklē tīmeklī un pārbauda |
| Izšķirtspēja | Parasti ierobežota līdz 1024px | Profesionāla līmeņa līdz 2K |
| Valodu atbalsts | Galvenokārt orientēts uz angļu valodu | Spēcīgs hindi, japāņu, korejiešu, bengāļu valodu atbalsts |
Praktiski tas nozīmē, ka modelis tagad var tikt galā ar „blīvām kompozīcijām”. Ja pieprasāt lietotāja saskarnes (UI) elementu mobilajai lietotnei — uzdevums, kas pirms gada būtu radījis izplūdušu nekārtību —, Images 2.0 var attēlot pogas, etiķetes un ikonas ar profesionāla prototipēšanas rīka precizitāti.
Viens no intriģējošākajiem Images 2.0 papildinājumiem ir tas, ko OpenAI sauc par „domāšanas spējām”. Tas nav tikai mārketinga žargons; tas atspoguļo sistēmiskas izmaiņas ģenerēšanas darba plūsmā. Iepriekšējās versijās jūs nospiedāt „Enter”, un modelis piecās sekundēs sniedza savu labāko minējumu.
Ar Images 2.0 process ir cikliskāks. Modelis tagad var meklēt tīmeklī vizuālas atsauces, izveidot vairākas attēla versijas, lai redzētu, kura vislabāk atbilst uzvednei, un pat vēlreiz pārbaudīt savu darbu, vai tajā nav kļūdu. Vidusmēra lietotājam tas nozīmē, ka „viena mēģinājuma uzvednes” ēra beidzas. Jūs vairs nemetat šautriņu mērķī uz labu laimi; jūs sadarbojaties ar rīku, kas saprot kontekstu.
Piemēram, ja esat mazā uzņēmuma īpašnieks, kurš mēģina izveidot mārketinga materiālus, tagad varat pieprasīt vienotu zīmola identitāti un likt modelim to izvadīt dažādos izmēros — Instagram kvadrātā, LinkedIn banerī un 2K drukas izšķirtspējā —, vienlaikus saglabājot precīzu jūsu zīmola nosaukuma rakstību visos tajos. Šis ir mērogojams risinājums, kas pārvieto MI no „rotaļlietu” kategorijas uz leģitīmu industriālo pamatu satura izveidei.
Papildus pareizai angļu vārdu rakstībai Images 2.0 ir veicis nepieredzētu lēcienu nelatīņu rakstībās. Tādu valodu kā hindi, bengāļu, japāņu un korejiešu attēlošana ir bijusi bēdīgi slavens šķērslis mākslīgajam intelektam. Šīs rakstības bieži ietver sarežģītas ligatūras un rakstzīmju triepienus, kuriem difūzijas modeļi vienkārši nespēja izsekot.
Uzlabojot izpratni par šīm rakstībām, OpenAI piekļūst milzīgam, augošam globālajam tirgum. Radītājam Mumbajā vai Tokijā iespēja ģenerēt augstas precizitātes UI dizainus vai reklāmas plakātus savā dzimtajā valodā, bez nepieciešamības vēlāk manuāli labot tekstu Photoshop programmā, ir taustāms produktivitātes ieguvums. Šī dizaina rīku demokratizācija ir atkārtota tēma tehnoloģiju nozarē, kuras mērķis ir padarīt saskarni pēc iespējas intuitīvāku globālai auditorijai.
Tomēr kā žurnālistam, kurš ir aprakstījis nepastāvīgās MI tirgus svārstības, man ir jāsniedz realitātes pārbaude. Šai jaunatklātajai „inteliģencei” ir sava cena. Tā kā modelis „domā” un vēlreiz pārbauda savu darbu, ģenerēšana vairs nav tūlītēja.
Sarežģīta, vairāku paneļu komiksa izveide var aizņemt vairākas minūtes. Mūsu tūlītēja gandarījuma pasaulē tas varētu šķist kā solis atpakaļ, taču no profesionālā viedokļa trīs minūšu gaidīšana uz 2K izšķirtspējas, nevainojami uzrakstītu materiālu joprojām ir par vairākām kārtām ātrāka nekā trīs stundu sesija Adobe Illustrator programmā.
Turklāt pastāv zināšanu robeždatuma problēma. Tā kā modeļa dati beidzas 2025. gada decembrī, tam trūkst informācijas par pavisam nesenām vizuālajām tendencēm vai ziņu notikumiem no 2026. gada pirmā ceturkšņa. Ja mēģināt ģenerēt attēlus, pamatojoties uz mēmi, kas kļuva populāra pagājušajā nedēļā, modelim varētu būt grūtības ar specifiskām niansēm, pat ja tā pareizrakstība ir perfekta.
No tirgus viedokļa jaunā gpt-image-2 API cena, visticamāk, būs nākamais lielais diskusiju temats. Augstas izšķirtspējas „domājošiem” modeļiem ir nepieciešama ievērojama skaitļošanas jauda. Šī nav digitālā jēlnafta, kas plūst bez maksas; tas ir rafinēts produkts, un pakāpeniskā cenu noteikšana maksas lietotājiem atspoguļo lielās industriālās izmaksas, kas saistītas ar šo milzīgo serveru fermu darbināšanu.
Galu galā Images 2.0 signalizē, ka MI iziet no savas „halucināciju fāzes” un pāriet „lietderības fāzē”.
Ikdienas lietotājam tas nozīmē, ka beidzot varat izmantot ChatGPT, lai izveidotu reālus, lietojamus dokumentus. Jūs varat izveidot dzimšanas dienas ielūgumu, kurā tiešām rakstīts „Daudz laimes dzimšanas dienā”, nevis „Daudz laimms dzimšš”. Jūs varat izveidot veikala skatloga maketu savam papildu darbam. Jūs varat izveidot izglītojošas infografikas, kurās etiķetes ir faktiski salasāmas.
Radošajai industrijai šī pāreja ir sistēmiskāka. Mēs redzam virzību uz „no uzvednes līdz ražošanai”, kur MI nav tikai iedvesmas avots, bet gan nenogurdināms asistents, kas spēj tikt galā ar smago formatēšanas, izmēru maiņas un korektūras darbu.
Virzoties uz priekšu, vissvarīgākā prasme nebūs zināšanas, kā „apmānīt” MI, lai tas pareizi uzrakstītu vārdu. Tā būs prasme virzīt tā „domāšanas” procesu, lai sasniegtu konkrētu, augstas precizitātes rezultātu. Mums vajadzētu pārstāt uzskatīt šos rīkus par burvju kastēm un sākt tos uztvert kā ļoti sarežģītus, lai gan dažreiz lēnus, digitālos praktikantus.
Vērojiet savus digitālos paradumus nākamo dažu nedēļu laikā. Jūs varētu atklāt, ka nepieciešamība pēc atsevišķa grafiskā dizaina rīka vienkāršiem, uz tekstu balstītiem attēliem sāk izgaist. Dizaina pasaules neredzamais mugurkauls mainās, un šoreiz mašīnas beidzot lasa sīko druku.
Avoti:



Mūsu end-to-end šifrētais e-pasta un mākoņdatu glabāšanas risinājums nodrošina visefektīvākos līdzekļus drošai datu apmaiņai, garantējot jūsu datu drošību un konfidencialitāti.
/ Izveidot bezmaksas kontu