Tudomány

Újabb ijesztő mérföldkőhöz érkezett a mesterséges intelligencia

A ChatGPT legújabb verziója simán átment a kanadai és USA-beli elvárások szerint összeállított radiológia szakvizsga szöveges részén. A chatbot 81 százalékot teljesített azon a vizsgán, ahol 70 százalék már sikeresnek minősül – írja az Origo.hu.

Újabb ijesztő mérföldkőhöz érkezett a mesterséges intelligencia
Fotó: NorthFoto

Az Észak-Amerikai Radiológus Szövetség szaklapjában, a Radiologyban publikált közlemény szerzői hangsúlyozzák: az eredmény egyszerre világít rá a nagy nyelvi modellek lehetőségeire és a megbízhatóságuk korlátaira.

A ChatGPT egy mesterséges intelligenciát használó chatbot – beszélgetőrobot –, amely mélytanuló modellje segítségével elemzi a szavak viszonyait és mintázatát egy hatalmas bemeneti szöveganyagban, és ennek nyomán képes néhány perc alatt emberinek tűnő szöveges válasz előállítására. Mivel azonban az elemzett bemeneti szövegek igazságtartalmát nem képes ellenőrizni, válaszaiban gyakorta tényszerű hibákat ejt.

A ChatGPT-hez hasonló nagy nyelvi modellek felhasználása robbanásszerűen növekszik, és ez a trend folytatódni fog – mondta el Rajesh Bhayana radiológus, a Toronto General Hospital orvosi képalkotó részlegének technológiai vezetője. – Kutatásunk a ChatGPT-nek a radiológia terén nyújtott teljesítményébe nyújt bepillantást, amivel egyfelől rávilágítunk a nagy nyelvi modellekben rejlő, hihetetlen potenciálra, másfelől viszont azokra a jelenleg fennálló korlátokra is, amelyek megbízhatatlanná teszik őket.”

A ChatGPT a közelmúltban elnyerte a leggyorsabban növekvő fogyasztói alkalmazás címét, és hamarosan hasonló chatbotok fognak beépülni a legnépszerűbb keresőmotorokba, így a Google-ba és a Bingbe is. Bhayana megjegyezte: ezeket a platformokat az orvosok és a betegek egyaránt gyakran használják egészségügyi információ keresésére.

Bhayana és munkatársai először a ChatGPT pillanatnyilag legelterjedtebben használt verziójának, a GPT-3.5-nak a teljesítményét tesztelték a radiológiai vizsgakérdéssor megoldása során, hogy fényt derítsenek a chatbot erősségeire és gyengeségeire. A kutatók egy 150 kérdést tartalmazó, többszörös feleletválasztós tesztet adtak a robotnak, amely stílusában, tartalmában és nehézségében megegyezett a Kanadai Királyi Kollégium és az Amerikai Radiológiai Kamara által kiadott vizsgaanyagokkal.

A kérdéssor nem tartalmazott képeket, és a kérdések típusa szerint két részre tagolódott: az alacsonyabb szintű kérdések az ismeretek mechanikus felidézését és alapszintű megértését ellenőrizték, a magasabb szintűek viszont már a tudás elemző és szintetizáló alkalmazását kívánták meg. A magasabb szintű, gondolkodtató kérdések tovább voltak osztályozhatók aszerint, hogy képalkotó vizsgálatok eredményének leírásával, kezeléssel, számítással vagy diagnosztikával voltak kapcsolatosak. A ChatGPT teljesítményét összesítve, illetve kérdéstípus és téma szerint lebontva is pontozták, valamint értékelték a válaszok nyelvezetének magabiztosságát.

A GPT-3.5 által meghajtott ChatGPT a kérdések 69%-át, 150-ből 104-et válaszolt meg helyesen, amivel alulról súrolta a Kanadai Királyi Kollégium 70%-os sikerességi küszöbét. A modell viszonylag jól teljesített az alacsonyabb szintű kérdésekben (84%, 61-ből 51), de a magasabb szintű gondolkodást igénylő kérdésekkel meggyűlt a baja (60%, 46-ból 28). Leginkább azok a kérdések okoztak neki fejfájást, amelyek a képalkotó vizsgálatok eredményének leírásával voltak kapcsolatosak (61%, 46-ból 28), számolást vagy osztályozást érintettek (25%, 8-ból 2), illetve fogalmak alkalmazását igényelték (30%, 10-ből 3). A ChatGPT-nek a magasabb szintű gondolkodást igénylő feladatok terén nyújtott gyenge teljesítménye nem volt meglepő, hiszen a feladatsor kitöltését semmiféle szakirányú felkészítés nem előzte meg.

A GPT legfrissebb verziója, a GPT-4 2023 márciusában jelent meg a piacon korlátozott eléréssel, csak fizető felhasználók számára, és fejlesztői kifejezetten azt emelték ki az új változattal kapcsolatban, hogy jelentősen javítottak a logikai-érvelési képességén.

A kutatók ezért ugyanazt a feladatsort a GPT-4-gyel is elvégeztették, amely a kérdések 81%-át, 150-ből 121-et válaszolt meg helyesen, s ezzel a teljesítményével nemcsak felülmúlta a gpt-3.5-öt, de a 70%-os vizsgakövetelményt is simán megugrotta.

A GPT-4 sokkal jobban szerepelt a magasszintű gondolkodást igénylő kérdésekben (81%), legfőképp a képalkotó vizsgálatok leírását tartalmazókban (85%) és a fogalmak alkalmazását igénylőkben (90%).

Az eredmények azt mutatják, hogy a fejlesztők által hangsúlyozott előrelépés a GPT-4 gondolkodási képességeiben csakugyan javította a chatbot teljesítményét, a radiológia terén legalábbis feltétlenül. A jelek szerint a program most már különösebb specifikus felkészítés nélkül is jobban eligazodik a radiológiai szakkifejezések terén, beleértve a képalkotó vizsgálatok eredményeinek leírását, ami kulcsfontosságú a program ilyen irányú későbbi alkalmazhatósága szempontjából.

Tanulmányunk megmutatja, hogy a ChatGPT teljesítménye rövid időn belül látványosan javult a radiológia témakörében, ami előrevetíti a nagy nyelvi modellek óriási növekedési potenciálját a hasonló alkalmazásokban"– hangsúlyozta Bhayana.

Nem javult ugyanakkor a GPT-4 teljesítménye az alacsonyabb szintű kérdések megválaszolása terén (80% a korábbi 84%-hoz képest), és 12 olyan kérdésre hibás választ adott, amelyekre a GPT-3.5 helyesen felelt. Ez komoly kételyeket vet fel a modell információgyűjtő módszerének megbízhatóságát illetően.

„Első látásra meglepett minket, milyen pontos és magabiztos válaszokat ad a ChatGPT egyes kimondottan nehéz radiológiai kérdésekre, aztán ugyanannyira meglepődtünk néhány teljesen logikátlan és téves állításán – meséli Bhayana. – Persze ismerve e modellek működését, semmi meglepő nincs abban, ha bizonyos kérdésekre tévesen válaszolnak.”

A ChatGPT-nek a tényszerűen téves válaszokra való veszélyes hajlama – amelyeket a téma irodalma hallucinációknak nevez – némileg csökkent a GPT-4-ben, de még mindig korlátozza a modell alkalmazhatóságát az orvosi képzés és gyakorlat céljaira.

A ChatGPT nyelvezete mindkét kísérletben egyformán magabiztos volt, akkor is, amikor épp valótlanságokat állított.

Ez különösen veszélyes lehet akkor, ha valaki mint egyetlen információforrásra hagyatkozik rá – figyelmeztet Bhayana –, különösen ha ezt olyan újoncok teszik, akik nem kérdőjelezik meg a magabiztos, de helytelen válaszok valóságtartalmát.

„Az én szememben jelenleg ez a legnagyobb akadály – szögezte le a szakember. – A ChatGPT a mostani állapotában leginkább arra alkalmas, hogy gondolatokat ébresszen, illetve orvosi témákban segítsen összegezni az adatokat és elindítani az írási folyamatot. Ha azonban gyors információkeresésre használjuk, a válaszai hitelességét mindig más forrásból is ellenőrizni kell.”

Kapcsolódó írásaink