YASİN CELAL GÜNEŞ, MEHMET ÜLKİR
Uludağ Üniversitesi Tıp Fakültesi Dergisi - 2024;50(3):551-556
Bu çalışma, dört farklı çok modlu Büyük Dil Modelinin (GPT4-V, GPT-4o, LLaVA, Gemini 1.5 Flash) görsel nöroanatomi çoktan seçmeli sorularındaki performansını, bir radyolog ve bir anatomistle karşılaştırarak incelemiştir. Kesitsel bir araştırma dizaynına dayanan çalışmada, Radiopaedia web sitesinden alınan 100 görsel soruya verilen yanıtlar değerlendirilmiştir. Yanıtların doğruluğu McNemar testi kullanılarak analiz edilmiştir. Sonuçlara göre, radyolog %90 doğruluk oranı ile en yüksek performansı sergilerken, anatomist %67 doğruluk oranı elde etmiştir. Çok modlu LLMler arasında en iyi performansı %45 doğruluk oranı ile GPT-4o göstermiştir; onu %35 ile Gemini 1.5 Flash, %22 ile ChatGPT4-V ve %15 ile LLaVA takip etmiştir. Radyolog, hem anatomiste hem de tüm çok modlu LLMlere kıyasla anlamlı derecede üstün bir performans sergilemiştir (p< 0.001), ancak Gemini 1.5 Flash ile arasında anlamlı bir fark gözlenmemiştir (p=0.123). Bununla birlikte, Gemini 1.5 Flash, LLaVAya karşı anlamlı bir üstünlük sağlamış (p< 0.001) ve GPT4-V ile karşılaştırıldığında da istatistiksel olarak anlamlı bir fark ortaya çıkmıştır (p=0.004). Bu çalışma, çok modlu LLMler ile tıbbi uzmanlar arasındaki belirgin performans farkını ortaya koymaktadır. Çok modlu LLMler tıp alanında büyük bir potansiyel vaat etse de, nöroanatomik bölgeleri doğru bir şekilde tanımlama konusunda henüz tıbbi uzmanların doğruluk seviyesine ulaşamamaktadırlar.