Chatbot looking out of a smartphone display. Text bubbles floating around. Pink background.

(SeaPRwire) –   Sa maraming paraan, 2023 ang taon kung saan nagsimula ang mga tao na maintindihan kung ano talaga ang AI—at kung ano ang maaaring gawin nito. Ito ang unang taon na naging viral ang mga chatbot, at ang unang taon na sinimulan ng mga pamahalaan na seryosohin ang panganib ng AI. Hindi ito gaanong bagong mga pag-unlad, kundi mga teknolohiya at ideyang nagsimula nang makuha ang atensyon matapos ang mahabang paghahanda.

Ngunit marami pa ring bagong mga pag-unlad. Eto ang tatlong pinakamalaking pag-unlad noong nakaraang taon:

Multimodality

“Multimodality” ay maaaring maging teknikal na termino, ngunit mahalaga na maintindihan ang ibig sabihin nito: ang kakayahan ng isang sistema ng AI na prosesohin ang maraming uri ng data—hindi lamang teksto, kundi pati mga imahe, video, audio at higit pa.

Ito ang unang taon na nakakuha ang publiko ng access sa malakas na mga modelo ng multimodal AI. Ang GPT-4 ng OpenAI ang unang modelo nito, na nagpapahintulot sa mga gumagamit na i-upload ang mga imahe pati na rin ang mga tekstong input. Maaaring “makita” ng GPT-4 ang nilalaman ng isang imahe, na nagbubukas ng maraming posibilidad, halimbawa na paghingi ng payo kung ano ang iluluto batay sa larawan ng nilalaman ng ref ng pagkain. Noong Setyembre, inilabas ng OpenAI ang kakayahan para sa mga gumagamit na makipag-usap sa ChatGPT gamit ang boses pati na rin ang teksto.

Ang pinakabagong modelo ng Google DeepMind na Gemini, inilabas noong Disyembre, ay maaari ring gumana sa mga imahe at audio. Pinakita ng isang bidyo ng paglulunsad na ipinakita ng Google ang modelo na nakakilala ng isang puting ibon batay sa linyang guhit sa isang post-it note. Sa parehong bidyo, pagkatapos ipakita ang larawan ng pink at asul na yarn at tanungin kung ano ang maaaring gawin nito, nag-generate ang Gemini ng isang larawan ng pink at asul na octopus na laruan. (Pareho sa bidyo ng paglulunsad ng Google na ipinakita ang Gemini na nag-oobserba ng gumagalaw na mga imahe at sumasagot sa mga utos na boses sa totoong oras, ngunit sa isang post sa kanilang website, sinabi ng Google na naka-edit ang bidyo para sa kabrevahan—at ang modelo ay binibigyan lamang ng pagkakataon gamit ang mga larawang di-gumagalaw, hindi video, at mga tekstong utos, bagamat kaya ng modelo ang .)

“Sa tingin ko ang susunod na makasaysayang bagay na pagtitinginan at tatandaan ng mga tao ay [ang mga sistema ng AI] na magiging mas buo sa pagiging multimodal,” ayon kay Shane Legg, co-founder ng Google DeepMind sa isang noong Oktubre. “Maaga pa lang ito sa paglipat na ito, at kapag nagsimula nang tunay na pag-unawa sa maraming video at iba pang bagay tulad nito, magsisimula nang may mas malalim na pag-unawa ang mga sistema sa mundo.” Sa isang panayam sa TIME noong Nobyembre, sinabi ni Sam Altman, CEO ng OpenAI na ang multimodality sa kanilang mga bagong modelo ay isa sa mga pangunahing bagay na dapat abangan sa susunod na taon.

Ang pangako ng multimodality ay hindi lamang ang pagiging mas kapaki-pakinabang ng mga modelo. Ito rin ay ang mga modelo ay maaaring patraining sa masaganang bagong mga set ng data—mga imahe, video, audio—na naglalaman ng higit na impormasyon tungkol sa mundo kaysa sa teksto lamang. Ang paniniwala sa loob ng maraming pangunahing kompanya ng AI ay ang bagong training data ay maaaring isalin sa mga modelo upang maging mas kaya o mas malakas. Ito ay isang hakbang patungo, nais ng maraming siyentista ng AI, sa “artipisyal na heneral na intelihensiya,” ang uri ng sistema na maaaring magpatumbas ng intelektwal na kakayahan ng tao, na gumagawa ng bagong mga pagkakatuklas sa agham at pagganap ng ekonomikang mahalagang trabaho.

Constitutional AI

Isa sa pinakamalaking hindi pa nasasagot na mga tanong sa AI ay kung paano ito i-a-align sa mga halaga ng tao. Kung ang mga sistema ay magiging mas matalino at mas malakas kaysa sa tao, maaari itong magdulot ng hindi matutukoy na pinsala sa ating species—iba pa nga ay nagsasabi ng kabuoang pagkawasak—maliban kung sa isang paraan, ito ay nakabalanse ng mga alituntunin na naglalagay ng kapakanan ng tao sa kanilang sentro.

Ang proseso na ginamit ng OpenAI upang i-align ang ChatGPT (upang maiwasan ang ng mga nakaraang modelo) ay gumana nang mabuti—ngunit nangangailangan ng malaking halaga ng paggawa ng tao, sa pamamagitan ng isang teknik na kilala bilang “reinforcement learning with human feedback,” o RLHF. Ang mga tagataya ng tao ay susuriin ang mga tugon ng AI at bibigyan ito ng katumbas na computational na “puri” kung ang tugon ay nakatulong, walang pinsala, at sumusunod sa listahan ng mga alituntunin sa nilalaman ng OpenAI. Sa pagbigay ng gantimpala sa AI kapag mabuti ito at pagparusa kapag masama, nabuo ng OpenAI ang isang epektibo at komparatibong walang pinsalang chatbot.

Ngunit dahil sa proseso ng RLHF ay malakas na nakasandal sa paggawa ng tao, may malaking tanda ng tanong kung gaano ito kakayang ipagpatuloy. Mahal ito. Nasasaklawan ito ng mga bias o pagkakamali ng indibidwal na tagataya. Mas madaling magkamali habang mas kumplikado ang listahan ng mga alituntunin. At hindi mukhang makakatulong para sa mga sistema ng AI na sobrang malakas na magsisimula ng mga bagay na hindi maintindihan ng mga tao.

Ang Constitutional AI—unang inilarawan ng mga mananaliksik sa pinakatanyag na AI lab na Anthropic sa isang papel noong Disyembre 2022 —ay sinusubukang tugunan ang mga problema na ito, paggamit ng katotohanan na ang mga sistema ng AI ay ngayon ay kaya nang maintindihan ang wika. Ang ideya ay napakasimple. Una, isulat ang isang “konstitusyon” na naglalahad ng mga halaga na gusto mong sundin ng iyong AI. Pagkatapos ay itraining ang AI upang mag-score ng mga tugon batay sa gaano ito naa-align sa konstitusyon, at pagkatapos ay i-insentibayz ang modelo upang lumabas ng mga tugon na may mas mataas na score. Sa halip na reinforcement learning mula sa feedback ng tao, ito ay reinforcement learning mula sa AI feedback. “Ginagawa ng mga paraan na ito na mas mahigpit na kontrolin ang ugali ng AI na may mas kaunting label ng tao,” ayon sa mga mananaliksik sa Anthropic. Ginamit ang Constitutional AI upang i-align ang Claude, ang sagot ng Anthropic para 2023 sa ChatGPT. (Kabilang sa mga investor sa Anthropic sina Salesforce, kung saan si TIME co-chair at may-ari na si Marc Benioff ang CEO.)

“Sa constitutional AI, eksplisitong sinusulat mo ang mga pangunahing paniniwala kung saan dapat gumalaw ang iyong modelo sa mundo,” ayon kay Jack Clark, head ng pulisya sa Anthropic noong Agosto sa TIME. “Pagkatapos ay itinuturo ng modelo iyon.” May mga problema pa rin, tulad ng kahirapan na tiyakin na lubos na nauunawaan ng AI ang letras at diwa ng mga alituntunin, (“nakasalalay ka sa malaking, hindi malinaw na modelo ng AI,” ayon kay Clark,) ngunit ang paraan ay isang naglalabasang dagdag sa isang larangan kung saan bihira at limitado ang mga bagong estratehiya sa pag-a-align.

Siyempre, hindi sinasagot ng Constitutional AI ang tanong kung sa alinsunod sa mga halaga dapat i-align ang AI. Ngunit nag-e-eksperimento ang Anthropic sa pagpapademokratisa ng tanong na iyon. Noong Oktubre, pinatakbo ng lab ang isang eksperimento na humiling ng tulong mula sa representatibong grupo ng 1,000 Amerikano upang tulungan pumili ng mga alituntunin para sa isang chatbot, at natagpuan na bagamat may ilang polarisasyon, posible pa ring buuin ang isang magagamit na konstitusyon batay sa mga pahayag na nagkasundo ang grupo. Mga eksperimento tulad nito ang maaaring buksan ang pinto patungo sa isang hinaharap kung saan mas maraming boses ang mga karaniwang tao sa pagpapatakbo ng AI kumpara ngayon, kung saan maliit na bilang ng mga ehekutibo sa Silicon Valley ang sumusulat ng mga alituntunin.

Text-to-video

Isa sa napapansin na resulta ng bilyun-bilyong dolyar na pumapasok sa AI sa taong ito ang mabilis na pagtaas ng mga tool para sa text-to-video. Noong nakaraang taon, ang mga tool para sa text-to-image ay ; ngayon, may ilang kompanya na nag-aalok ng kakayahan na baguhin ang mga pangungusap sa gumagalaw na larawan sa mas malalim na antas ng tumpak.

Isa sa mga kompanyang iyon ang , isang startup para sa AI video sa Brooklyn na gustong gawin ang paggawa ng pelikula ay madaling ma-access ng sinumang tao. Ang pinakabagong modelo nito, ang Gen-2, nagpapahintulot sa mga gumagamit na hindi lamang lumikha ng isang video mula sa teksto, kundi pati na rin baguhin ang estilo ng isang umiiral na video batay sa tekstong utos (halimbawa, pagbabago ng isang shot ng mga sereal sa lamesa sa gabi sa lungsod), sa isang proseso na tinatawag nitong video-to-video.

“Ang aming misyon ay bumuo ng mga tool para sa kreatibidad ng tao,” ayon kay sa isang panayam sa TIME noong Mayo. Kinikilala niya na ito ay magkakaroon ng epekto sa mga trabaho sa mga industriya ng kreatibidad, kung saan mabilis nang nagiging napapamahayan ang ilang anyo ng teknikal na kakayahan ng AI, ngunit naniniwala siya na ang mundo sa kabilang dako ay naglalayong pag-unlad. “Ang aming bisyon ay isang mundo kung saan napapalakas at napapalawak ang kreatibidad ng tao, at hindi na tungkol sa kasanayan, badyet, at mga espesipikasyong teknikal at kaalaman na mayroon ka, at mas tungkol sa iyong mga ideya.” (Kabilang sa mga investor sa Runway sina Salesforce, kung saan si TIME co-chair at may-ari na si Marc Benioff ang CEO.)

Ang artikulo ay ibinigay ng third-party content provider. Walang garantiya o representasyon na ibinigay ng SeaPRwire (https://www.seaprwire.com/) kaugnay nito.

Mga Sektor: Pangunahing Isturya, Balita Araw-araw

Nagde-deliver ang SeaPRwire ng sirkulasyon ng pahayag sa presyo sa real-time para sa mga korporasyon at institusyon, na umabot sa higit sa 6,500 media stores, 86,000 editors at mamamahayag, at 3.5 milyong propesyunal na desktop sa 90 bansa. Sinusuportahan ng SeaPRwire ang pagpapamahagi ng pahayag sa presyo sa Ingles, Korean, Hapon, Arabic, Pinasimpleng Intsik, Tradisyunal na Intsik, Vietnamese, Thai, Indones, Malay, Aleman, Ruso, Pranses, Kastila, Portuges at iba pang mga wika. 

Isa pang startup sa larangan ng text-to-video ay ang Pika AI, na iniulat na ginagamit upang lumikha ng milyun-milyong bagong video bawat linggo. Pinamumunuan ito ng dalawang nag-drop out sa Stanford, at nagsimula ang kompanya noong Abril ngunit na may na na pondo na naglalagay ng halaga nito sa pagitan ng $200 at $300 milyon, ayon sa . Ipinanukala hindi sa propesyonal na manlilikha kundi sa karaniwang gumagamit, ang libreng mga tool