Emine Dilara Çolpak, Deniz Yılmaz
ADO Klinik Bilimler Dergisi - 2025;14(3):215-223
Amaç: Bu çalışmanın amacı, dört farklı doğal dil işleme (NLP) modeli tarafından oluşturulan diş destekli sabit diş protezlerine ilişkin yanıtların doğruluğunu ve tutarlılığını değerlendirmektir. Gereç ve Yöntemler: 12 adet açık uçlu olarak Türkçe dilinde hazırlanan sorular oluşturuldu ve modellere göre 4 farklı NLP'ye yöneltilmiştir: OpenAI o3 (LRM-O), OpenAI GPT 4.5 (LLM-G), DeepSeek R1 (LRM-R) ve DeepSeek V3 (LLM-V). Yanıtlar holistic rubric kullanılarak değerlendirilmiştir. Doğruluk değerlendirmeleri için Kruskal-Wallis H testi kullanılmıştır. Puanlayıcıların yanıtları arasındaki tutarlılık Brennan ve Prediger katsayısı ve Cohen kappa katsayısı kullanılarak değerlendirilmiştir. Tutarlılık ise Fleiss kappa ve Krippendorff alfa katsayıları kullanılarak değerlendirilmiştir (p < 0.05). Bulgular: LRM-O, LLM-G, LRM-R ve LLM-V grupları arasında doğruluk açısından istatistiksel olarak anlamlı bir fark bulunamamıştır (p = 0.30). LRM-O, LLM-G, LRM-R ve LLM-V'nin doğruluğu sırasıyla %77.7, %50, %66.6 ve %77.7'dir. Ayrıca, LLM'lerin tutarlılığı neredeyse mükemmel bulunurken, LRM'ler önemli düzeydeydi. Sonuç: Çalışmanın sınırları dahilinde LRM'ler ve LLM'ler benzer doğruluk sergilemiştir. Ancak, LLM'lerin tutarlılığı LRM'lerden daha yüksek bulunmuştur.