Tech

Egyre fejlettebb a Chat GPT

A mobilalkalmazást mostantól hanggal is irányíthatjuk, illetve az képes nekünk öt szintetikus hang egyikén válaszolni

Új képességekkel ruházták fel a világ legismertebb generatív mesterséges intelligenciáját, a ChatGPT-t. A szoftvert mostantól képek és élőbeszéd segítségével is vezérelhetjük – írta meg a raketa.hu.

Egyre fejlettebb a Chat GPT
Képünk illusztráció
Fotó: Jonathan Raa / NurPhoto / NurPhoto via AFP

Az Ars Technicán olvasható hír szerint az ingyenesen elérhető GPT-3.5-öt és a fizetős GPT-4-et is érinti a fejlesztés, ám azzal egyelőre csak a Plus és az Enterprise, azaz a fizetős és a vállalati felhasználók találkozhatnak majd.

A két újdonság közül egyértelműen a képalapú interakció az érdekesebb, és talán a hasznosabb is. A vállalat által közölt példában valaki egy hétköznapi kérdéssel fordul a chatbothoz: nem tudja, hogy hogyan emelje meg a biciklije ülését. Ezt két ember pillanatok alatt megbeszélné, ám egy számítógép milliónyi módon tudna lyukra futni a tanácsaival. A videóban azt látjuk, ahogy a felhasználó azzal kezdi a beszélgetést, hogy megoszt egy fényképet a biciklijéről, majd leírja a problémáját. A rendszer először elmondja az általános megoldást gyorszáras és anélküli nyergeknél.

Innen lesz igazán érdekes a történet: a chatelő bizonytalan, hogy az övén melyik fajta zár van, ezért egy újabb, közeli fotót posztol arról. Amikor kiderül, hogy a feladathoz szerszám fog kelleni, a használati utasítást és a szerszámosládája fényképét is megosztja a chatbottal, ami alapján a ChatGPT pontosan megmondja, hogy melyik kulcsra lesz szüksége. Ez egy képernyővideó, aminek a felvételekor a cég számtalanszor végigpróbálhatta a konkrét folyamatot, így nem biztos, hogy a valóságban is minden ilyen simán fog menni, de az egyértelműen látszik, hogy a multimodális, azaz például képet és szöveget is használó interakciók új fejezetet nyithatnak a ChatGPT-nél.

A háttérben a rendszer valószínűleg közös nyelvre fordítja a kapott információkat, majd az eddig ismert módon dolgozik azokkal. A ChatGPT másik új képessége ennél kevésbé forradalmi, de lehet, hogy többeknek jelent majd praktikus segítséget: a mobilalkalmazást mostantól hanggal is irányíthatjuk, illetve az képes nekünk öt szintetikus hang egyikén válaszolni.

Mindezek után érthető, hogy az OpenAI úgy állítja be, mintha a szoftverük látni, hallani vagy beszélni tanulna, de az Ars Technica aláhúzza: akad szakértő, aki szerint veszélyes így beszélni egy számítógépes programról. „Az örökké hangoztatott szolgálati közlemény: ne kezeld az MI-modelleket emberekként. Nem, a ChatGPT nem lát, hall és beszél. Integrálható olyan szenzorokkal, amelyek különböző módokon juttatják adatokhoz" – fogalmazott a Hugging Face nevű MI-cég kutatója, Sasha Luccioni.

Kapcsolódó írásaink