Arif Keskin, Tayfun Aygün
Tıp Eğitimi Dünyası - 2025;24(74):127-134
Amaç: Yapay zeka tabanlı uygulamaların anatomi ve tıp uzmanlık sınavlarına hazırlık sürecinde kullanımının bilimsel geçerliliği tartışılmaya başlanmıştır. Bu çalışmanın amacı, Türkiye'de uygulanan ulusal tıp uzmanlık sınavındaki anatomi sorularını yanıtlamada ChatGPT 4.0 ve Google Gemini'nin performansını değerlendirmektir. Gereç ve Yöntem: Çalışma için 2006-2021 yılları arasında yılda iki kez düzenlenen sınavlardan anatomi dersi sorularını çıkararak kurumsal web sitesinde açık erişim olarak sunulmuş sorular kullanıldı. Toplam 400 sorudan 384 uygun soru seçildi ve her iki chatbot'a aynı anda açık uçlu olarak sorularak yanıtları alındı. Sorular konularına, türlerine ve içeriklerine göre sınıflandırıldı. Klinik bilgi içeren sorular kaydedildi. 40 kelimeden fazla olan sorular uzun sorular olarak kabul edildi. Sorular konularına göre sistematik anatomi başlıkları altında (nöroanatomi, lokomotor, sindirim, solunum, ürogenital, dolaşım ve endokrin) ayrıldı. ChatGPT 4.0 ve Google Gemini 1.5 Pro modelleri kullanılmıştır. Sorular her iki platforma aynı anda, tek bir oturumda ve açık uçlu formatta yönlendirilmiştir. İstatistiksel analizde IBM SPSS 23 programı kullanılarak, bağımsız iki grup oranlarının karşılaştırılmasında ki-kare ve Fisher kesin testleri uygulanmıştır. İstatistiksel anlamlılık düzeyi p<0.05 olarak kabul edilmiştir. Bulgular: Çalışmaya 384 anatomi dersi sorusu dahil edildi. Bu soruların 56'sı (%14,6) klinik çıkarım gerektiren sorulardı. Soruların 69'u (%18) uzun sorulardı. Genel başarı oranı ChatGPT 4.0'da %80,7, Gemini'de %69,3 olarak bulundu (p<0,001). ChatGPT 4.0'ın klinik bilgi ve çıkarım gerektiren sorulara Gemini'den daha fazla doğru yanıt verdiği görüldü (ChatGPT 4.0: %91,1, Gemini: %71,4) (p=0,007). ChatGPT 4.0, klinik temelli sorulara istatistiksel olarak anlamlı oranda doğru yanıt verdi (p=0,021). Gemini ise klinik sorulara verilen yanıtların doğruluğunda istatistiksel anlamlılık göstermedi. Sistematik ve topografik olarak incelendiğinde, verilen doğru ve yanlış yanıtlar istatistiksel olarak anlamlı değildi. ChatGPT 310 soruyu doğru (%80,7) ve 74'ünü yanlış (%19,3) yanıtlarken, Gemini 266'sını doğru (%69,3) ve 118'ini yanlış (%30,7) yanıtlamıştır. Effect size ölçümleri (Cramér's V) genel performans farkı için 0.127, klinik sorulardaki fark için 0.253 olarak hesaplanmıştır. Sonuç: Anatomi eğitimi ve uzmanlık hazırlık süreçlerinde ChatGPT 4.0 kullanımı Gemini'ye göre daha güvenilir olarak değerlendirilebilir. Özellikle klinik anatomi temelli sorularda ChatGPT 4.0'ın üstünlüğü belirgindir. Ancak her zaman güvenilir literatür kaynakları ile koordineli olarak farklı kaynaklardan yararlanılması önerilmelidir. Son yıllarda anatomi eğitiminde klinik anatomiye dayalı değişim ve soru stillerindeki değişim göz önüne alındığında, klinik çıkarım ve çözüm gerektiren daha uzun anatomi sorularıyla karşılaşmak mümkündür. Bu bulgular, ChatGPT 4.0 gibi yapay zeka araçlarının yüksek riskli sınavlara hazırlıkta klinik anatomi müfredatına dahil edilebileceğini göstermektedir. Ancak karmaşık tıbbi senaryolar için insan uzmanlığı gereklidir. Gelecekteki anatomi eğitimi stratejileri için bu veriler önemlidir.