Pazarlama Araştırmaları

Can LLMs Capture Human Preferences?

Araştırma Soruları

  1. LLM’ler insan tercihlerini ve karar düzeylerini “doğrudan” taklit edebilir mi?
  2. Mutlak taklit mümkün değilse, müşteri segmentleri (özellikle dil farklılıkları) arasındaki çeşitliliği yansıtabilir mi?
  3. “Chain-of-thought conjoint” yaklaşımı LLM kararlarını insanlara daha çok yaklaştırır mı ve tercih farklılıklarını açıklamaya yardımcı olur mu?

Sonuçlar

  • LLM’ler (GPT-3.5 ve GPT-4) insanlara kıyasla daha sabırsız çıktı; GPT-4’ün indirim oranları insan seviyesinin çok üzerindeydi.
  • GPT-3.5 lexicographic tercih yapısı sergileyerek insan davranışlarıyla uyumsuz sonuçlar verdi.
  • Chain-of-thought yöntemi GPT-4’ün sabırsızlığını azalttı, fakat yine de insanlardan daha sabırsız kaldı.
  • LLM’ler dil farklılıklarını yansıtabildi; zayıf gelecek zaman referanslı (FTR) dillerde daha sabırlı çıktılar.
  • LLM’ler doğrudan tercih ölçümünde güvenilir değil, fakat hipotez üretimi ve heterojenlik analizi için değerli araçlar olabilir.

Bulgular

  • Sabırsızlık: GPT-4’ün indirim oranı (δ) insanlardan çok yüksekti; GPT-3.5 ve GPT-4 büyük ödülü ertelemeye nadiren yöneldi (sırasıyla %22 ve %16).

  • Lexicographic davranış (GPT-3.5): Kararlar faiz oranına duyarsızdı; hiçbir geçerli fayda fonksiyonu ile açıklanamıyordu.

  • Chain-of-thought etkisi: GPT-4’ün büyük ödülü seçme oranını %16’dan %34,5’e çıkardı; ayrıca kararların ardındaki temaları (risk, belirsizlik, fırsat maliyeti) ortaya koydu.

  • Dil farklılıkları: Zayıf FTR dillerinde (Almanca, Mandarin) GPT’ler daha sabırlı çıktı; bu sonuç literatürle örtüşüyor.

  • Tematik analiz: Gecikme süresi arttıkça “risk ve belirsizlik” konusuna atıf yapma ihtimali sistematik olarak yükseldi.

  • LLM Modelleri: 5

  • Sentetik Veri: 2

  • Yöntem: 5

  • Hız: 1

  • Etik: 1

  • Doğruluk Oranı: 4

  • Demografi: 3

Bu makale ile ilgili daha detaylı bilgiye ulaşmak isterseniz buraya tıklayarak ilgili makalenin ekine ulaşabilirsiniz.

2 dakikalık okuma

Diğer ilgili yazılarımız