Türk Medline
ADR Yönetimi
ADR Yönetimi

AMERİKAN FİZİKSEL TIP VE REHABİLİTASYON KURULU SINAVI DENEME SORULARINDA GEMINI, DEEPSEEK VE CHATGPT-4O'NUN PERFORMANS KARŞILAŞTIRMASI

Gonca Sağlam Akkaya, Hanife Baykal Şahin

Türk Osteoporoz Dergisi - 2025;31(3):189-194

Karadeniz Technical University Faculty of Medicine, Department of Physical Medicine and Rehabilitation, Trabzon, Türkiye

 

Amaç: Büyük dil modellerinin (BDM) hızlı gelişimi, tıp eğitimi ve değerlendirmesinde önemli bir potansiyel göstermiştir. Bu çalışmanın amacı, önde gelen üç BDM olan Gemini, DeepSeek ve ChatGPT-4o'nun, Amerikan Fiziksel Tıp ve Rehabilitasyon Kurulu (ABPMR) sertifika sınavını temsil eden deneme sorularını yanıtlama performansını değerlendirmekti. Gereç ve Yöntem: 2015 yılında erişime sunulmuş olan 100 adet ABPMR deneme sorusundan oluşan kapsamlı bir set kullandıldı. Bulgular: DeepSeek, %88 ile en yüksek genel doğruluğa ulaştı. Gemini'den (%81, p=0,022) önemli ölçüde daha iyi performans göstermiş, ancak ChatGPT-4o'dan (%86, p=0,238) istatistiksel olarak anlamlı bir farkla ayrılmamıştı. Sonuç: Bulgularımız, DeepSeek'in genel performansta üstünlük gösterse de, her üç BDM'nin de fiziksel tıp ve rehabilitasyonun farklı alanlarında benzersiz ve tamamlayıcı güçlü yönlere sahip olduğunu düşündürmektedir.