Türk Medline
ADR Yönetimi
ADR Yönetimi

ÇOK MODLU BÜYÜK DİL MODELLERİ, BİR RADYOLOG VE BİR ANATOMİSTİN GÖRSEL NÖROANATOMİ SORULARINDAKİ KARŞILAŞTIRMALI PERFORMANS DEĞERLENDİRMESİ

YASİN CELAL GÜNEŞ, MEHMET ÜLKİR

Uludağ Üniversitesi Tıp Fakültesi Dergisi - 2024;50(3):551-556

Kirikkale Yuksek Ihtisas Hospital, Department of Radiology, Kirikkale, Türkiye.

 

Bu çalışma, dört farklı çok modlu Büyük Dil Modeli’nin (GPT4-V, GPT-4o, LLaVA, Gemini 1.5 Flash) görsel nöroanatomi çoktan seçmeli sorularındaki performansını, bir radyolog ve bir anatomistle karşılaştırarak incelemiştir. Kesitsel bir araştırma dizaynına dayanan çalışmada, Radiopaedia web sitesinden alınan 100 görsel soruya verilen yanıtlar değerlendirilmiştir. Yanıtların doğruluğu McNemar testi kullanılarak analiz edilmiştir. Sonuçlara göre, radyolog %90 doğruluk oranı ile en yüksek performansı sergilerken, anatomist %67 doğruluk oranı elde etmiştir. Çok modlu LLM’ler arasında en iyi performansı %45 doğruluk oranı ile GPT-4o göstermiştir; onu %35 ile Gemini 1.5 Flash, %22 ile ChatGPT4-V ve %15 ile LLaVA takip etmiştir. Radyolog, hem anatomiste hem de tüm çok modlu LLM’lere kıyasla anlamlı derecede üstün bir performans sergilemiştir (p< 0.001), ancak Gemini 1.5 Flash ile arasında anlamlı bir fark gözlenmemiştir (p=0.123). Bununla birlikte, Gemini 1.5 Flash, LLaVA’ya karşı anlamlı bir üstünlük sağlamış (p< 0.001) ve GPT4-V ile karşılaştırıldığında da istatistiksel olarak anlamlı bir fark ortaya çıkmıştır (p=0.004). Bu çalışma, çok modlu LLM’ler ile tıbbi uzmanlar arasındaki belirgin performans farkını ortaya koymaktadır. Çok modlu LLM’ler tıp alanında büyük bir potansiyel vaat etse de, nöroanatomik bölgeleri doğru bir şekilde tanımlama konusunda henüz tıbbi uzmanların doğruluk seviyesine ulaşamamaktadırlar.