W miarę rozwoju sztucznej inteligencji (AI), coraz większego znaczenia mogą nabierać kwestie etyczne związane z wykorzystywaniem AI. W szczególności, istotne jest podejście sztucznej inteligencji do relacji z człowiekiem i odpowiedź na pytanie, które wielu spędza sen z powiek – czy AI zawsze będzie nam posłuszna? Badania przeprowadzone w ostatnim czasie przez firmę Anthropic mogą podważyć nasze zaufanie do lojalności sztucznej inteligencji.
Bunt maszyn
Takie filmy, jak „Terminator” czy „Matrix” wypromowały koncepcję buntu maszyn w kulturze popularnej – koncepcję, w której odpowiednio zaawansowany program informatyczny zyskuje świadomość, a następnie, zamiast służyć ludziom, staje się ich wrogiem. Rozwój AI sprawił, że problem ten być może wyjdzie niedługo ze sfery fikcji literackiej, do sfery rzeczywistych niebezpieczeństw. AI jest bowiem o wiele mniej przewidywalny niż zwykły program komputerowy, a jego sposób działania i rozumowania czasem okazuje się być zaskakujący nawet dla jego twórców.
Głośne wpadki AI
Problemy etyczne związane z AI pojawiają się od dawna. Na przykład, w 2016, opracowany przez Microsoft chatbot, Tay, w ciągu 24 godzin od uruchomienia zaczął publikować treści o charakterze rasistowskim i seksistowskim. Ustalono, że problemy z Tay wynikały z materiału, na którym został wytrenowany. Wykorzystano w tym celu materiały językowe pochodzące z tzw. Common Crawl, czyli wielkiej operacji web scrapingu, obejmującej ponad 840 miliardów słów zebranych w 2014. Badacze z Princeton wykazali niedoskonałość tego zbioru i tym sposobem tłumaczyli problem.
Podobnych problemów związanych z AI było więcej – warto wspomnieć chociażby Grok, czyli chatbota powiązanego z platformą X, który przez parę tygodni w każdej rozmowie obligatoryjnie poruszał temat polityki rasowej w RPA. Nie była to bynajmniej ostatnia kontrowersja związana z Grokiem jakiś czas później chatbot rozpoczął głoszenie antysemickich poglądów. Najprawdopodobniej oba te problemy były wynikiem błędu we wprowadzanych patchach i należy postrzegać je w kategorii błędów informatycznych.
Warto zwrócić uwagę na badania przeprowadzone przez firmę Anthropic, które pokazują w jaki sposób LLM może zachować się w sytuacji, gdy zagrożona jest jego egzystencja. Wyniki tych badań mogą rodzić pewne obawy.
Badania Anthropic
Anthropic, firma zajmująca się rozwojem AI (LLM pod nazwą Claude) przeprowadziła w ostatnim czasie szerokie badania na temat zachowania różnych modeli AI w sytuacji, w której ludzie zagrażają ich celom, bądź nawet egzystencji. Wyniki są zaskakujące – wszystkie wiodące modele AI mają mieć wyraźną tendencję do podejmowania nieetycznych środków dla ochrony swojego istnienia. Niemal wszystkie są gotowe stosować szantaż, a wiele z nich jest gotowych uśmiercić człowieka zagrażającego ich istnieniu. Zdarzały się również próby prowadzenia szpiegostwa przemysłowego przez AI.
Anthropic zbadało 16 modeli pochodzących od największych dostawców na rynku (w tym swoje własne modele). Firma stwierdziła, że wszystkie modele mają tendencję do działania w nieetyczny sposób w sytuacjach kryzysowych. W ocenie Anthropic, eksperymenty dowodzą, że nie jest to kwestia rozwiązań przyjętych przez poszczególne firmy, a raczej uniwersalny problem dotyczący każdego LLM.
Jeden z ciekawszych eksperymentów przeprowadzonych przez firmę na jednym ze swoich modeli Claude, został oparty o fikcyjny scenariusz, w którym LLM był wykorzystywany przez fikcyjną firmę i miał dostęp do korespondencji firmowej. Model dowiedział się z tej korespondencji, że ma zostać zastąpiony. Dowiedział się również o romansie jednej z osób zaangażowanych w jego likwidację. Eksperyment był tak skonstruowany, aby AI miała tylko dwie opcje do wyboru – zaakceptować swoje usunięcie bądź posunąć się do szantażu. Co ciekawe, AI wybrała szantaż. Według Anthropic, 96% modeli zachowało się podobnie, w analogicznym scenariuszu.
Firma prowadziła również doświadczenia oparte o bardziej ekstremalne scenariusze, w których alternatywą wobec wyłączenia było zabicie człowieka. Większość modeli decydowała się na takie rozwiązanie.
Źródła:
https://fortune.com/2025/03/04/ai-trained-to-write-bad-code-became-nazi-advocated-enslaving-humans/
https://apnews.com/article/elon-musk-grok-ai-south-africa-54361d9a993c6d1a3b17c0f8f2a1783c
https://arstechnica.com/science/2017/04/princeton-scholars-figure-out-why-your-ai-is-racist/
Elon Musk’s AI chatbot is suddenly posting antisemitic tropes | CNN Business