Using Large Language Models to Simulate Multiple Humans and Replicate Human Subject Studies

Araştırma Soruları

  • LLM’ler, farklı popülasyonlarda insan davranışlarını deneysel ortamlarda ne ölçüde simüle edebilir?
  • Klasik deneylerin (Ultimatum Game, Garden Path Sentences, Milgram Shock, Wisdom of Crowds) LLM ile yeniden üretilmesi mümkün mü?
  • Demografik çeşitlilik (isim, cinsiyet vb.) LLM çıktılarında ne kadar gerçekçi yansıtılabilir?

Sonuçlar

  • LLM’ler bazı insan davranış kalıplarını başarıyla taklit edebildi.
  • Daha büyük modeller daha insan benzeri yanıtlar verdi.
  • LLM yanıtlarında cinsiyet farklılıkları gözlendi (örn. “şövalyelik etkisi” – erkeklerin kadınlardan gelen adaletsiz teklifleri daha çok kabul etmesi).
  • Yeni ve daha uyumlu LLM’lerde “aşırı doğruluk bozulması” (hyper-accuracy distortion) görüldü.

Bulgular

  • Davranış taklidi: Büyük dil modelleri, Ultimatum Game ve Garden Path gibi deneylerde bilinen insan davranışlarını yansıttı.

  • Demografik varyasyon: LLM’ler, isim ve cinsiyet bilgisiyle davranış farklılıklarını simüle edebildi.

  • Aşırı doğruluk: Bazı modeller bilgi sorularında insanlardan daha “gerçek dışı derecede doğru” yanıtlar üreterek tipik kullanıcı bilgisini yansıtmakta başarısız oldu.

  • Veri etkisi: LLM’ler eğitim sırasında bu deneylere maruz kalmış olabileceğinden, sonuçların özgünlüğü sorgulanabilir.

  • Etik risk: Milgram Şok Deneyi gibi zararlı içeriklerin simüle edilmesi etik kaygılar doğuruyor.

  • LLM Modelleri: 5

  • Sentetik Veri: 4

  • Yöntem: 4

  • Hız: 3

  • Etik: 4

  • Doğruluk Oranı: 3

  • Demografi: 4

Bu makale ile ilgili daha detaylı bilgiye ulaşmak isterseniz buraya tıklayarak ilgili makalenin ekine ulaşabilirsiniz.

5 dakikalık okuma

Diğer ilgili yazılarımız