Ezgi Yüceer Çetiner
EurAsian Journal of Oral and Maxillofacial Surgery - 2025;4(3):59-65
Amaç: Yapay zeka tabanlı büyük dil modelleri, özellikle ChatGPT-5 (OpenAI) ve Gemini 2.5 Pro (Google DeepMind), tıp ve diş hekimliğinde giderek daha fazla kullanılmaktadır. Ancak kritik öneme sahip uzmanlık sınavlarındaki güvenilirlikleri belirsizdir. Bu çalışmada, her iki modelin Türkiye'de uygulanan Diş Hekimliğinde Uzmanlık Sınavı'nda (DUS) yer alan ağız, diş ve çene cerrahisi sorularındaki performansı karşılaştırılmıştır. Yöntem: 2012-2021 yılları arasında yapılmış 13 sınavdan elde edilen toplam 128 ağız, diş ve çene cerrahisi sorusu, modellerin her birine orijinal Türkçe haliyle aynı koşullarda yöneltilmiştir. Yanıtlar resmi cevap anahtarları ile karşılaştırılmış, doğru ve yanlış yanıtlar kaydedilmiştir. İstatistiksel analizlerde Fisher's Exact Test kullanılmış ve anlamlılık düzeyi p<0,05 olarak belirlenmiştir. Bulgular: ChatGPT-5 toplamda 119 (%93,0) doğru, 9 (%7,0) yanlış; Gemini 2.5 Pro ise 124 (%96,9) doğru, 4 (%3,1) yanlış yanıt vermiştir. Gemini 2.5 Pro'nun doğruluk oranı daha yüksek olmasına rağmen istatistiksel olarak anlamlı farklılık bulunmamıştır (p>0,05). Her iki model bazı yıllarda %100 doğruluk göstermiş, ancak 2018 ve 2019 yıllarında performans düşüklüğü gözlenmiştir. Dört soru her iki model tarafından yanlış yanıtlanmış, Gemini 2.5 Pro ChatGPT-5'in yanlış cevap verdiği beş soruyu doğru cevaplamıştır. Sonuç: ChatGPT-5 ve Gemini 2.5 Pro, DUS çene cerrahisi sorularında yüksek doğruluk oranına ulaşmış ve önceki nesil modellere göre önemli bir gelişme göstermiştir. Bulgular bu modellerin diş hekimliği uzmanlık sınav hazırlığında tamamlayıcı araç olarak kullanılabileceğini, ancak klinik muhakeme ve sınava özgü mantıksal ayrıntılarda sınırlılıklarının devam ettiğini göstermektedir.