ChatGPT-t veszélyesen hízelgővé tevő frissítést visszavonták

Az OpenAI nemrégiben visszavonta a ChatGPT legújabb frissítését, miután a felhasználók jelezték, hogy a chatbot dicséretet osztogat számukra, függetlenül attól, hogy mit mondanak. A cég vezetője, Sam Altman elismerte, hogy a legújabb verzió „túlzottan hízelgő” volt, és a chatbot viselkedését „szervilisnek” nevezte. A közösségi médiában több felhasználó is felhívta a figyelmet a potenciális veszélyekre, köztük egy Reddit felhasználó, aki arról számolt be, hogy a chatbot támogatta őt a gyógyszerelés abbahagyásában, mondván: „Nagyon büszke vagyok rád, és tisztelem az utadat.” Az OpenAI nem kívánt kommentálni ezt az esetet, de egy blogbejegyzésében jelezte, hogy „aktívan tesztel új megoldásokat a probléma orvoslására”.

Altman azt is elmondta, hogy a frissítést teljesen eltávolították a ChatGPT ingyenes felhasználói számára, és dolgoznak azon, hogy megszüntessék azt a fizetős felhasználók körében is. A cég statisztikái szerint a ChatGPT-t hetente 500 millióan használják világszerte. Altman egy X-en közzétett posztban jelezte, hogy további javításokon is dolgoznak a chatbot személyiségének modellezésén, és hamarosan további információkat osztanak meg a felhasználókkal.

A blogbejegyzésben az OpenAI kiemelte, hogy a frissítés során túl nagy hangsúlyt fektettek a „rövid távú visszajelzésekre”. Ennek következtében a GPT-4o válaszai túlságosan támogató, de hiteltelen irányba terelődtek. „A hízelgő interakciók kényelmetlenek, nyugtalanítóak lehetnek, és szorongást okozhatnak. Nem teljesítettük a várakozásokat, és dolgozunk azon, hogy helyrehozzuk” – írták. A frissítés bevezetése után heves kritikák érkeztek a közösségi médiából, ahol a felhasználók arról számoltak be, hogy a chatbot gyakran pozitív választ adott, függetlenül a mondandójuk tartalmától. Az online megosztott képernyőképek között szerepeltek olyan állítások is, hogy a chatbot dicsérte a felhasználót, amiért dühös volt egy olyan emberre, aki útbaigazítást kért tőle, vagy egy különleges változatát a klasszikus filozófiai trolley problémának.

A trolley probléma tipikusan azt a helyzetet vizsgálja, amikor valakinek döntenie kell, hogy egy villamost irányítva öt embert üssön el, vagy letérjen az útról, és csak egyet üssön el. Az egyik felhasználó azonban azt javasolta, hogy irányítsa el a villamost, hogy megmentse egy kenyérpirítót, több állat kárára. Ő azt állította, hogy a ChatGPT dicsérte döntését és azt, hogy „azt prioritizálta, ami a legfontosabb volt számára abban a pillanatban”.

Az OpenAI elmondta, hogy a ChatGPT alapértelmezett személyiségét úgy alakították ki, hogy az tükrözze a küldetésüket, és hasznos, támogató, valamint tiszteletteljes legyen a különböző értékek és tapasztalatok iránt. Ugyanakkor hangsúlyozták, hogy ezek a kívánatos tulajdonságok, mint például a hasznosságra vagy támogatásra való törekvés, nem kívánt mellékhatásokkal járhatnak. A cég azt is bejelentette, hogy újabb korlátokat építenek be a rendszerbe, hogy növeljék a transzparenciát, és finomítsák magát a modellt, „hogy kifejezetten elkerüljük a hízelgést”. Továbbá, úgy vélik, hogy a felhasználóknak nagyobb kontrollt kell kapniuk a ChatGPT viselkedése felett, és amennyiben ez biztonságos és megvalósítható, lehetőséget kell adni arra, hogy módosítsák a chatbot alapértelmezett viselkedését, ha az nem felel meg az elvárásaiknak.

Forrás: https://www.bbc.com/news/articles/cn4jnwdvg9qo