Raşit Eren BÜYÜKTOKA, Ali SALBAS
İzmir Eğitim ve Araştırma Hastanesi Tıp Dergisi - 2025;29(4):416-422
Giriş: Bu çalışma bir büyük dil modeli (LLM) olan ChatGPT-5'in radyolojik kontrast madde uygulamasına ilişkin klinik soruları yanıtlanma performansını değerlendirmeyi amaçlamaktadır. Gereç ve Yöntem: Avrupa Ürogenital Radyoloji Derneği (ESUR) kılavuzlarından türetilen 24 adet klinik senaryo tabanlı soru ChatGPT-5'e sunulmuştur. Modelin yanıtları, 10 deneyimli radyolog tarafından dört kategoride değerlendirilmiştir: Uygunluk, Doğruluk, Açıklık ve Kapsamlılık. Değerlendirme 5 puanlık bir Likert ölçeği kullanılarak yapılmıştır. Değerlendiriciler arası güvenilirlik, sınıf içi korelasyon katsayısı ile ölçülmüştür ve dört kategori arasındaki performans farkları analiz edilmiştir. Bulgular: ChatGPT-5, en yüksek ortalama puanı Uygunluk (4.64 +/- 0.63) kategorisinde elde etmiştir; bu puan, Doğruluk (4.13 +/- 1.04) ve Kapsamlılık (4.23 +/- 1.06) puanlarından istatistiksel olarak anlamlı derecede yüksektir (p < 0.05). Önemli bir diğer bulgu ise, tüm değerlendirme kriterlerinde radyologlar arasında gözlemlenen zayıf değerlendiriciler arası güvenilirlik olmuştur (0.12-0.32), bu da değerlendirmelerde belirgin bir fikir birliği olmadığını işaret etmektedir. Sonuç: ChatGPT-5, karmaşık tıbbi sorguları etkili bir şekilde anlayıp ilgili yanıtlar üretebilse de doğruluk ve kapsamlılıktaki sınırlılıkları, otonom bir klinik karar verme aracı olarak kullanılmasını engellemektedir. Model, mevcut haliyle, klinisyen tarafından zorunlu doğrulama gerektiren, ancak denetimli bir yardımcı araç olarak kullanılabilir.