GPT-4 fellur á Turing prófinu: Áskoranir eru eftir á sviði skynsamlegra samtala - Reeman fréttir

ChatGPT, ofurstjarna gervigreindar, hefur staðið frammi fyrir spurningu þegar það heldur áfram að þróast: Hefur það uppfyllt Turing prófunarstaðalinn til að búa til úttak sem ekki er hægt að greina frá mannlegum viðbrögðum? Nýjustu rannsóknir benda til þess að ChatGPT, þrátt fyrir frábæra frammistöðu, virðist ekki hafa farið að fullu yfir þann þröskuld.

Tveir vísindamenn við háskólann í Kaliforníu, San Diego, Cameron Jones, sérfræðingur í tungumáli, merkingarfræði og vélanámi, og Benjamin Bergen, prófessor í hugrænum vísindum, spurðu þessa spurningu með því að vísa til verks Turings fyrir 70 árum. Turing lagði til ferli til að ákvarða hvort vél gæti náð greind og samtalshæfileikum sem nægja til að blekkja aðra til að halda að hún væri mannleg.

Skýrslan þeirra ber titilinn "Stóðst GPT-4 Turing prófið?" Það er að finna á arXiv forprentþjóninum. Fyrir rannsóknina söfnuðu þeir 650 þátttakendum til að spila 1.400 „leiki“ þar sem þátttakendur áttu stutt samtal við aðra manneskju eða GPT líkan og voru beðnir um að ákveða við hvern þeir voru að tala.

Það sem rannsakendur fundu var merkilegt. GPT-4 líkanið blekkti þátttakendur í 41 prósent tilfella, en GPT-3.5 blekkti þá aðeins 5 til 14 prósent af tímanum. Athyglisvert er að mönnum tókst aðeins að sannfæra þátttakendur um að þeir væru ekki vélar í 63 prósentum tilraunanna.

„Við fundum engar vísbendingar um að GPT-4 hafi staðist Turing prófið,“ sögðu rannsakendurnir. Hins vegar taka þeir fram að Turing prófið hefur enn gildi við að meta áhrif vélrænna samræðna, sem ramma til að mæla slétt félagsleg samskipti og blekkingar og til að skilja mannlegar aðferðir til að laga sig að þessum tækjum.

Hins vegar vara þeir einnig við því að í mörgum tilfellum muni spjallþræðir enn geta átt samskipti á sannfærandi hátt. „41 prósent árangurshlutfall bendir til þess að gervigreind módel gæti nú þegar verið getu til að blekkja, sérstaklega í aðstæðum þar sem menn eru minna vakandi fyrir möguleikanum á því að þeir geti ekki verið að tala við mann,“ segja rannsakendur. Gervigreind líkön sem líkja sterklega eftir mönnum gætu haft víðtæk félagsleg og efnahagsleg áhrif."

Rannsakendur komust að því að þátttakendur sem auðkenndu gervigreind rétt með fólki einbeittu sér að nokkrum þáttum. Of formlegt eða óformlegt líkan vekur grunsemdir. Ef tjáning þeirra er of orðuð eða of hnitmiðuð, ef málfræði eða greinarmerkjasetning er óvenju góð eða „ósannfærandi“ léleg, mun það einnig vera lykilatriði í því að ákvarða hvort þátttakendur eru í samskiptum við menn eða vélar. Að auki voru þátttakendur viðkvæmir fyrir svörum sem hljómuðu of almenn.

Rannsakendur benda til þess að eftirlit með gervigreindum líkönum verði sífellt mikilvægara eftir því sem þau verða fljótari og gleypa fleiri manneskjuleg einkenni. „Að bera kennsl á þætti sem leiða til blekkingar og aðferðir til að draga úr þeim verða sífellt mikilvægari,“ sögðu þeir. Rannsóknin leiðir í ljós að sviði greindar samtals stendur enn frammi fyrir áskorunum, en veitir einnig gagnlega innsýn í hvernig hægt er að bæta gervigreind módel.