Türk Medline
ADR Yönetimi
ADR Yönetimi

BÜYÜK DİL MODELLERİNİN RADYOLOJİ RAPORLARI İÇİN SONUÇ BÖLÜMÜ OLUŞTURMADAKİ PERFORMANSLARININ DEĞERLENDİRİLMESİ

HASAN EMİN KAYA, DİLEK SAĞLAM, ZEYNEP YAZICI, GÖKHAN GÖKALP

Uludağ Üniversitesi Tıp Fakültesi Dergisi - 2025;51(2):305-309

 

Çalışmamızın amacı popüler üç büyük dil modelinin (BDM) Türkçe radyoloji raporları için sonuç bölümü oluşturma konusundaki performansını değerlendirip mukayese etmekti. Anonimize edilmiş 50 radyoloji raporu için, “few-shot” bir komut ile, ChatGPT, Gemini ve Copilot dil modellerine sonuç bölümü oluşturuldu. Sonuçlar; rapordaki tüm bilgileri içerme, raporu uygun bir şekilde özetleme, yanıltıcı bilgi içermeme ve değiştirilmeden rapora eklenebilme açısından üç radyolog tarafından bir Likert skalası kullanılarak skorlandı. Friedman testi ile BDM’lerin skorları arasında fark olup olmadığı değerlendirildi. Çalışmaya dahil edilen 50 raporun 32’si manyetik rezonans, 11’i bilgisayarlı tomografi, 5’i ultrason ve 2’si floroskopi tetkikleriydi. Bu tetkiklerden 15’i nöroradyoloji, 14’ü kas-iskelet, 13’ü abdomen ve 8’i toraks radyolojisi çalışmalarıydı. Üç radyoloğun yaptığı skorlamalarda modellerin aldığı skorların medyan değerleri 4 ve 5 idi. Bu bulgu modellerin sonuç oluşturmada radyologlar tarafından genel olarak başarılı bulunduğunu göstermekteydi. Ayrıca modeller arasında bütün bilgileri içerme, raporu uygun bir şekilde özetleme, yanıltıcı bilgi içermeme ve değiştirilmeden rapora eklenebilme performansı açısından istatistiksel bir farklılık saptanmadı (p değerleri sırasıyla 0,607; 0,327; 0,629; 0,089). Sonuç olarak ChatGPT, Gemini ve Copilot Türkçe radyoloji raporları için sonuç bölümü oluşturmada başarılı bulunmuş ve modellerin performansı arasında anlamlı bir farklılık saptanmamıştır.