Türk Medline
ADR Yönetimi
ADR Yönetimi

RİNOPLASTİ SIK SORULAN SORULARINA YAPAY ZEKÂ YANITLARININ UZMAN ONAYLI KARŞILAŞTIRMASI

Serkan ŞERİFLER, Burak ÇELİK, Kadir Şinasi BULUT, Fatih GÜL, Kazım BOZDEMİR, Mehmet Ali BABADEMEZ

Genel Tıp Dergisi - 2026;36(1):1-5

Department of Otorhinolaryngology, Faculty of Medicine, Ankara Yıldırım Beyazıt University, Ankara, Türkiye

 

Amaç: ChatGPT-4, DeepSeek ve Gemini gibi yapay zeka modelleri, hasta eğitimi ve klinik karar desteği için giderek daha fazla araştırılmaktadır. Ancak, özellikle postoperatif bakımda sıkça sorulan hasta sorularına yanıt verirken, bu modellerin doğruluk, bütünlük ve okunabilirlik açısından yeterliliği hâlâ sorgulanmaktadır. Bu çalışmanın birincil amacı, üç önde gelen yapay zekâ modelini-ChatGPT-4, DeepSeek ve Gemini-postoperatif rinoplastiyle ilgili sık sorulan sorulara verdikleri yanıtların doğruluk, anlaşılırlık, ilgili olma durumu ve tamlık açısından karşılaştırmaktır. Ikincil amaç ise, bu modellerin verdiği yanıtların genel hasta kitlesi için okunabilirliğini değerlendirmektir. Gereç ve Yöntemler: Amerikan Kulak Burun Boğaz ve Baş Boyun Cerrahisi Akademisi'nin rehberlerine dayalı olarak 14 sık sorulan soru seçilmiştir. Her bir yapay zekâ modelinin verdiği yanıtlar, 15 uzman kulak burun boğaz hekimi tarafından, 5 dereceli Likert ölçeği kullanılarak dört temel alanda değerlendirilmiştir: doğruluk, anlaşılırlık, ilgili olma ve tamlık. Okunabilirlik değerlendirmesi için Flesch Okunabilirlik Puanı (FRES) ve Flesch-Kincaid Sınıf Düzeyi (FKGL) kullanılmıştır. Modeller arasındaki farkları belirlemek amacıyla uygun istatistiksel testler uygulanmıştır. Bulgular: Amerikan Kulak Burun Boğaz ve Baş Boyun Cerrahisi Akademisi'nin rehberlerine dayalı olarak 14 sık sorulan soru seçilmiştir. Her bir yapay zekâ modelinin verdiği yanıtlar, 15 uzman kulak burun boğaz hekimi tarafından, 5 dereceli Likert ölçeği kullanılarak dört temel alanda değerlendirilmiştir: doğruluk, anlaşılırlık, ilgili olma ve tamlık. Okunabilirlik değerlendirmesi için Flesch Okunabilirlik Puanı (FRES) ve Flesch-Kincaid Sınıf Düzeyi (FKGL) kullanılmıştır. Modeller arasındaki farkları belirlemek amacıyla uygun istatistiksel testler uygulanmıştır. Sonuçlar: ChatGPT-4 ve Gemini, doğruluk ve tamlık açısından DeepSeek'e kıyasla daha iyi performans göstermiştir. Ancak, değerlendirilen hiçbir yapay zekâ modeli, hasta eğitimi için gerekli olan temel okunabilirlik kriterlerini karşılayamamıştır. Bu bulgular, yapay zekâ içeriklerinin daha erişilebilir hale getirilmesi ve insan denetiminin devam etmesi gerekliliğini vurgulamaktadır. Çalışmamız, bu alanda önemli bir kıyaslama sunmakta ve gelecekteki yapay zekâ geliştirmelerinde bilgisel doğruluk kadar hasta anlayışının da önceliklendirilmesi gerektiğini ortaya koymaktadır.