YAPAY ZEKÂ PROGRAMLARI TARAFINDAN AĞRI İÇİN AKUPUNKTUR HAKKINDA ÜRETİLEN YANITLARIN OKUNABİLİRLİĞİ, KALİTESİ VE GÜVENİLİRLİĞİNİN DEĞERLENDİRİLMESİ

Alper MENGİ, Erkan ÖZDURAN

Fiziksel Tıp ve Rehabilitasyon Bilimleri Dergisi - 2026;29(2):245-253

Edirne Sultan 1. Murat State Hospital, Clinic of Pain Medicine, Edirne, Türkiye

 

Amaç: Amerika Birleşik Devletleri'nde her yıl yaklaşık 3 milyon erişkin akupunktur tedavisi almakta olup, bu yaklaşımın en yaygın kullanım alanı kronik kas-iskelet sistemi ağrılarının yönetimi olarak bildirilmektedir. Bu araştırmanın amacı, ChatGPT, Perplexity ve Gemini gibi yapay zekâ (YZ) tabanlı sohbet robotlarının, ağrı için akupunktur ile ilgili sorulara verdikleri yanıtları okunabilirlik, güvenilirlik ve kalite yönünden karşılaştırmaktır. Gereç ve Yöntemler: Ağrı için akupunktur ile ilişkili en sık aranan 25 anahtar kelime, 3 farklı YZ tabanlı sohbet robotuna yöneltilmiştir. Elde edilen yanıtların okunabilirliği, Flesch-Kincaid Grade Level ve Coleman-Liau Index gibi okunabilirlik indeksleriyle analiz edilmiştir. Kalite, Küresel Kalite Skoru [Global Quality Score (GQS)] ile güvenilirlik ise modifiye DISCERN Ölçeği ve Amerikan Tabipler Birliği Dergisi [Journal of the American Medical Association (JAMA)] kriterleri kullanılarak değerlendirilmiştir. Bulgular: En sık aranan anahtar kelimeler "sırt ağrısı için akupunktur", "boyun ağrısı için akupunktur" ve "sinir ağrısı için akupunktur" olarak belirlenmiştir. Okunabilirlik düzeylerinin istatistiksel olarak anlamlı şekilde 6. sınıf seviyesinin üzerinde olduğu gösterilmiştir (p<0,001). Kalite analizinde, ChatGPT'nin daha düşük GQS skorlarına; güvenilirlik incelemesinde ise Perplexity'nin daha yüksek JAMA skorlarına sahip olduğu saptanmıştır (p<0,001). Sonuç: YZ tabanlı sohbet botlarının, ağrı için akupunktura ilişkin kullanıcılara sunduğu yanıtların önerilen okunabilirlik seviyesinin üzerinde olduğu belirlenmiştir. Bulgular, ChatGPT'nin içerik kalitesi açısından görece daha düşük, Perplexity'nin ise güvenilirlik bakımından daha yüksek performans sergilediğini göstermektedir. Ancak kalite ve güvenilirlik değerlendirmelerinde elde edilen bazı düşük skorlar, bu sistemlerin mevcut kullanımında sınırlılıklar olabileceğini düşündürmektedir.