PEDİATRİK ÇÖLYAK HASTALIĞI HAKKINDA BİLGİ SAĞLAMADA ÜÇ YAPAY ZEKÂ CHATBOTUNUN KARŞILAŞTIRMALI DEĞERLENDİRİLMESİ

Ecem İpek ALTINOK, Özlem SÜMER COŞAR, Volkan ALTINOK

Fırat Üniversitesi Sağlık Bilimleri Dergisi - 2026;40(1):98-104

Ordu University, Ordu

 

Amaç: Bu çalışmanın amacı, çocukluk çağı çölyak hastalığı (ÇH) ile ilgili sık sorulan sorulara (SSS) doğru ve güvenilir yanıt verme açısından yaygın olarak kullanılan üç sohbet motorunun -ChatGPT, Gemini ve Copilot -performanslarını değerlendirmek ve karşılaştırmaktır. Gereç ve Yöntem: Uluslararası kılavuzlar ve güncel derleme makaleler temel alınarak; tanım, tanı, klinik bulgular, laboratuvar testleri, komplikasyonlar, tedavi ve izlem başlıklarını kapsayan 40 maddelik bir SSS seti oluşturuldu. Her soru, bağlamsal yanlılığı en aza indirmek amacıyla Ağustos 2025'te yeni oturumlar kullanılarak Türkçe olarak ChatGPT, Gemini ve Copilot'a ayrı ayrı yöneltildi. Elde edilen yanıtlar, bir çocuk gastroenteroloğu, bir pediatrist ve çölyak hastalığı bulunan bir çocuk cerrahı tarafından körleme olarak değerlendirildi. Yanıtlar; (1) kapsamlı/doğru, (2) eksik/kısmen doğru, (3) karma/yanıltıcı ve (4) yanlış/ilgisiz olmak üzere dört kategoride sınıflandırıldı. Modeller arası uyum Cohen's kappa katsayısı ile değerlendirildi ve yanıt doğruluğundaki farklar karşılaştırmalı istatistiksel analizlerle incelendi. Bulgular: ChatGPT, kapsamlı/doğru yanıt oranı en yüksek olan sohbet motoru idi (35/40; %87,5); bunu Gemini ve Copilot izledi (her biri 28/40; %70). ChatGPT'nin doğruluk oranı diğer sohbet motorlarına kıyasla istatistiksel olarak anlamlı derecede yüksekti (chi² testi, p<0,05). Yanıltıcı yanıt oranı en yüksek olan model Copilot'tu (6/40; %15). Alt grup analizlerinde ChatGPT, tedavi ve izlem sorularında en iyi performansı gösterirken (16/17; %94,1), Gemini temel bilgi ve klinik bulgular alanında görece daha iyi performans sergiledi ve yanıltıcı yanıt üretmedi. Modeller arası uyum düşüktü (ChatGPT -Copilot kappa=0,32; Gemini -Copilot kappa=0,35; ChatGPT -Gemini kappa=0,11). Sonuç: ChatGPT, kılavuzlarla en uyumlu performansı sergilerken, Copilot daha yüksek yanıltıcı yanıt riski taşımaktadır. Bulgular, yapay zekâ tabanlı sohbet motorlarının hasta ve aile eğitimi için ilk temas aracı olarak potansiyelini ortaya koymakla birlikte, uzman denetimi, olası halüsinasyonların farkında olunması ve kılavuz temelli çerçevelerin gerekliliğini vurgulamaktadır.