Зошто генеративната вештачка интелигенција се мачи кога треба да прикаже раце?

Моделите на ГенВИ (Генеративна вештачка интелигенција) како Stable Diffusion, Dall.e или Midjourney „мака мачат“ кога треба да прикажат човечки раце. Зошто е тоа така и што може да се направи да се подобрат?


Како човек учи да ги црта рацете?

Ако сте учеле да цртате, како хоби или професија, тогаш знаете дека цртањето раце е помеѓу потешките техники за совладување.

Кога се учи да се црта, целото тело, па и рацете, се делат на едноставни пропорции и геометриски форми кои потоа ја добиваат вистинската форма.

Како вештачката интелигенција (ВИ) учи да ги „црта“ рацете?

ВИ учи да „црта“ нешто така што „гледа“ многу фотографии и илустрации на тоа нешто. Но, проблемот е што ВИ не знае што се рацете, која е нивната функција и како функционираат тие.

Освен тоа, рацете можат да заземат многу повеќе позиции и форми во однос на другите делови од телото. Со други зборови, рацете се многу покомплексни.

Кои се главните проблеми за ВИ да ги „разбере“ рацете

Според ова видео и научниците вклучени во унапредувањето на ГенВИ, Илун Ду (Докторирал на лабораторијата за компјутерски науки и вештачка интелигенција на МИТ/CSAIL) и Рој Шилкрот (Главен научник, МИТ, Tufts) постојат 3 основни причини.


1) Големината на датотеките и квалитетот

  • ВИ одлично прикажува лица затоа што има огромна база на лица, но не и толку на раце. На пример базата на Flickr има 70.000 лица и многу помалку раце.
  • При обучувањето на лицата обично оди и описот, додека рацете не се означени заради комплексноста на таквите податоци. Ако субјектот држи чадор, не се назначува „палецот оди од една страна и го покрива показалецот, додека другите прсти се закривени од другата“.

2) Начинот на кој функционираат рацете

  • Лицето нема многу варијации, очите, носот и устата се секогаш поставени на исто место, додека рацете имаат многу различни позиции, некогаш се гледаат сите прсти, некогаш не.
  • Овој проблем не се однесува само на рацете. Дури и кога претставува животни кога трчаат, ВИ некогаш ги прикажува со 3 нозе.

3) Ниската маргина за грешка

  • Ако на моделот му побарате слика на дрво со 100 гранки, не е битно дали ќе има 50 или 150, но само еден прст е голема разлика кога станува збор за рацете.
  • ГенАи моделите се одлични за комплексни компјутерски програми, но се многу лоши кога треба да направат обични математички пресметки.

Тоа го докажавме на примерот кога треба да напишат панграм (реченица која ги содржи сите букви од азбуката). Тогаш ГенАИ (пр. ChatGPT) дава неточни изјави и ги брои буквите грешно.

Истото важи и за прстите на рацете, ВИ не знае колку прсти имаат рацете, зашто од нејзино гледиште, некогаш се 2, некогаш 4, некогаш повеќе, зависно од аголот на гледање.

Еве неколку примери на раце од Midjourney добиени со наједноставна наредба (prompt) “hands”:

Hands (Midjourney v4)
Shaking hands (во Midjourney v5 има подобрување)

Ова е тежок проблем за решавање, и Midjourney v5 веќе дава многу подобри резултати, но се уште треба да се работи. Веруваме дека ГенВИ ќе го надмине и овој проблем. Само, како што се вели во видеото од погоре, не му барајте да ви „нацрта“ рака како држи чадор.

Midjourney v5

RHLF како решение?

Едно од решенијата, како што сугерира видеото, е вклучување на т.н. „засилено учење од човечки повратни информации“ (RLHF, Reinforcement Learning from Human Feedback). Во овој метод се вклучуваат оценувачи кои рангираат резултати според нивната точност. Тоа е искористено при тренирањето на ChatGPT, и би можело да се искористи и кај визуелните модели.

Немаме податоци дали при обучување на некој модел на „текст-во-слика“ е користен овој метод и дали е тоа возможно, поради различниот пристап отколку кај јазичните модели. Останува да видиме.

Како го прават тоа мајсторите на уметноста

За крај ве оставаме со неколку иконички слики на раце од историјата на уметноста.

Куева де лас Манос/Пештера на рацете (11000 п.н.е.)
Леонардо да Винчи, Студија на раце (1474)
Леонардо да Винчи, анатомски скици (1510)
Микеланџело, Создавањето на Адам – детал (1512), Сикстинската капела
Албрехт Дирер, Раце кои се молат (1508)
М.Ц. Ешер, Раце кои (се) цртаат (1948)
Џорџо де Кирико, Метафизичка внатрешност со раката на Давид (1968)

Напишете коментар

Вашата адреса за е-пошта нема да биде објавена. Задолжителните полиња се означени со *