Yeni yapay zeka teknolojilerinin sağlık alanına etkileri ne olacak?
Eleştirmenlerin yapay zeka modellerinin daha kötü sağlık sonuçlarına katkıda bulunabilecek kusurları ve önyargıları olduğuna dikkat çekmesine rağmen yapay zeka teknolojilerinin sağlık sektöründeki kullanımı gün geçtikçe artıyor ve bu artış yapay zeka sektöründe yeni gelişmelere kapı açıyor. Bu gelişmeler ışığında, yapay zeka araştırmaları ve uygulamaları üzerine çalışmalar yürüten Hugging Face şirketi, sağlık hizmetlerinde kullanılan yapay zeka sistemlerinin performansını ölçmek için yeni bir değerlendirme aracı olan Open Medical-LLM modelini geliştirdiğini duyurdu. Bu model, yapay zekanın sağlık alanında karşılaştığı çeşitli zorlukları ne derece başarıyla aştığını görmeyi ve değerlendirme aşamasını standartlaştırmayı amaçlıyor.
Open Medical-LLM, özellikle üretken yapay zeka modellerinin, tıp alanında üstlendikleri görevlerde nasıl bir performans sergilediklerini analiz ediyor. Bu görevler, hasta kayıtlarını işleme, tıbbi tanı koyma ve sağlıkla ilgili soruları cevaplandırma gibi çeşitlilik gösteriyor. Geliştirilen bu yeni ölçüt, sağlık sektöründe kullanılan yapay zeka çözümlerinin doğruluğunu ve güvenilirliğini değerlendirmeyi amaçlıyor. Bu ölçüt sayesinde, modelin performansını, doğruluğunu ve güvenilirliğini kapsamlı bir şekilde anlayarak sağlık sektöründe bu modellerin daha bilinçli bir şekilde kullanılması hedefleniyor.
Open Medical-LLM, tamamen yeni bir ölçüt oluşturmak yerine, genel tıbbi bilgi, anatomi, farmakoloji, genetik ve klinik uygulama gibi alanlarda yapay zeka modellerinin performansını değerlendirmek için tasarlanmış mevcut test setlerini birleştiriyor. Bu ölçütün özellikle MedQA, PubMedQA, MedMCQA gibi çeşitli tanınmış test setlerinden faydalandığı bilinmektedir.
MedQA, genel tıp bilgisini sorgulayan tıbbi bilgi tabanlı soru-cevap sistemleri için geliştirilen bir test seti olarak biliniyor. PubMedQA ise özellikle PubMed veri tabanından elde edilen bilgilere dayanarak, tıbbi makalelerdeki bilgileri sorgulayan bir test seti olarak ön plana çıkıyor. Son olarak MedMCQA, klinik uygulamalar ve medikal muhakemeye yönelik sorular içeren bir test seti olarak kullanılıyor. Bu testler, yapay zeka modellerinin klinik senaryolarda nasıl performans gösterdiğini ölçmek amacıyla kullanılıyor.
Hugging Face bir blog yazısında, “Open Medical-LLM araştırmacıların ve uygulayıcıların farklı yaklaşımların güçlü ve zayıf yönlerini belirlerken bu alanda daha fazla ilerleme kaydetmelerine ve nihayetinde daha iyi hasta bakımı ve sonuçlarına katkıda bulunmalarına olanak tanıyor” dedi.
New: Open Medical LLM Leaderboard! 🩺
In basic chatbots, errors are annoyances.
In medical LLMs, errors can have life-threatening consequences 🩸It's therefore vital to benchmark/follow advances in medical LLMs before thinking about deployment.
Blog: https://t.co/pddLtkmhsz
— Clémentine Fourrier 🍊 (is off atm!) (@clefourrier) April 18, 2024
Open Medical-LLM, Hugging Face’in liderliğinde, Open Life Science AI ve Edinburgh Üniversitesi Doğal Dil İşleme Grubu’nun işbirliğiyle geliştirilen bir model olduğu biliniyor. Bu işbirliği, farklı disiplinlerden gelen bilgi ve deneyimlerin bir araya gelmesiyle, yapay zekanın sağlık hizmetlerine entegrasyonunda önemli bir adım olarak değerlendiriliyor. Bu değerlendirme aracının, yapay zeka sistemlerinin tıbbi bilgileri ne kadar iyi işleyebildiğini, farmakoloji, genetik ve anatomi gibi çeşitli tıp alanlarında nasıl bir performans sergilediğini detaylı bir şekilde incelemek için kullanılması hedefleniyor. Bu ölçüt, sağlık sektöründe yapay zekanın sunduğu çözümlerin doğruluğunu ve etkinliğini geniş bir perspektiften değerlendirmeye olanak tanıyan bir gelişme olarak görülüyor.
Bu yeni ölçütün geliştirilmesinin, sağlık sektöründe yapay zekanın kullanımının genişlemesine olanak sağlaması bekleniyor. Bu ölçüt aracılığıyla sağlık profesyonelleri, kullanmayı düşündükleri yapay zeka araçlarının güvenilirliğini ve etkinliğini önceden test ederek sağlık çalışanlarının hastalıklarla ilgili karşılaştıkları sorunları daha güvenilir ve etkili bir şekilde çözmelerine yardımcı olacak modelleri seçmelerine olanak sağlanması amaçlanıyor.
Open Medical-LLM, yapay zeka uygulamalarının sağlık sektöründeki olası risklerini ve faydalarını daha net bir şekilde ortaya koymayı hedefleyerek teknolojinin etkileri konusunda daha bilinçli kararlar alınmasına olanak sağlıyor.
Hugging Face, bahsedilen nedenlerden dolayı bir ölçüt belirlemenin sağlık hizmetlerine yönelik üretken yapay zeka modellerinin “profesyonel ve standartlaştırılabilecek bir değerlendirme” olarak görüyor. Bununla birlikte, sosyal medyada yer alan bazı tıp uzmanları, yanlış bilgilere dayalı uygulamaların önlenmesi amacıyla Open Medical-LLM’nin fazla önemsenmemesi gerektiği konusunda uyarılarda bulundu.
Alberta Üniversitesi’nde nöroloji asistanı olan Dr. Liam McCoy, sosyal medya platformu X’te (eski adıyla Twitter) tıbbi soruların cevaplandığı yapay bir ortam ile gerçek klinik pratikler arasında büyük farklar olabileceğini vurguladı. Hugging Face araştırma bilimcisi Clémentine Fourrier’in de bu konu hakkındaki fikrinin benzer olduğu biliniyor.
Fourrier, X’te yazdığı yazıda, “Bu liderlik tabloları yalnızca belirli bir kullanım durumu için hangi üretici yapay zeka modelinin keşfedileceğine dair ilk yaklaşım olarak kullanılmalıdır. Ancak daha sonra modelin sınırlarını ve gerçek koşullardaki uygunluğunu incelemek için her zaman daha derin bir test aşamasına ihtiyaç vardır” dedi. “Tıbbi modeller kesinlikle hastalar tarafından kendi başlarına kullanılmamalı, bunun yerine tıp doktorları için destek araçları haline gelmek üzere eğitilmelidir” diyerek sözlerini tamamladı.
It is great progress to see these comparisons head-to-head, but important for us to also remember how big the gap is between the contrived environment of medical question answering and actual clinical practice! Not to mention the idiosyncratic risks these metrics can't capture.
— Liam McCoy, MD MSc (@LiamGMcCoy) April 18, 2024
ABD Gıda ve İlaç İdaresi (FDA) tarafından bugüne kadar onaylanan 139 yapay zeka destekli tıbbi cihazdan hiçbirinin üretken yapay zeka kullanmıyor olması, üretken bir yapay zeka aracının laboratuvar ortamındaki performansının hastaneler ve polikliniklerde nasıl yansıyacağını ve zamanla sonuçların nasıl bir eğilim göstereceğini test etmek açısından da işleri zorlaştırıyor.
Bu durum, Open Medical-LLM’nin yararsız veya bilgi sağlamayan bir araç olduğu anlamına gelmese de sonuç tablosu, temel sağlık sorularına üretken yapay zeka dil modellerin ne kadar yetersiz yanıt verdiğini gösteriyor. Bu nedenlerden dolayı Open Medical-LLM ya da bu alandaki başka bir değerlendirme aracının, gerçek dünya koşullarında titiz bir şekilde yapılan testlerin yerini alamayacağı kanaati yaygınlaşıyor.
Open Medical-LLM, genel tıbbi bilgi, anatomi, farmakoloji, genetik ve klinik uygulama gibi çeşitli alanlarda yapay zeka modellerini değerlendirmek için mevcut test setlerini bir araya getirmeyi planlıyor. Bu değerlendirme sürecinin, ABD ve Hindistan’daki tıbbi lisanslama sınavları ile üniversite biyoloji testi soru bankaları gibi kaynaklardan yararlanarak, tıbbi muhakeme ve anlama becerilerini ölçen çoktan seçmeli ve açık uçlu sorular içereceği söyleniyor. Bu soruların oluşturulmasının sebebinin, yapay zeka modellerinin sağlık sektöründeki pratik uygulamalarda nasıl performans gösterdiğini test etmek olduğu belirtiliyor.
Ölçütlendirmenin amacı, araştırmacıların ve uygulayıcıların farklı yapay zeka yaklaşımlarının güçlü ve zayıf yönlerini belirleyebilmelerini, bu alanda ilerleme kaydedebilmelerini ve nihayetinde daha iyi hasta bakımı ve sonuçlarına katkıda bulunabilmelerini sağlamak olsa da bazı tıp uzmanları sosyal medyada, bu tür ölçümlerin gerçek dünya koşullarında yanıltıcı olabileceği konusunda uyarılarda bulunmaya devam ediyor.
Hugging Face’in bu girişimi, yapay zekanın sağlık sektöründeki potansiyelini keşfetmek ve mevcut teknolojilerin sınırlarını daha iyi anlamak adına önemli bir adım olarak değerlendiriliyor. Teknolojinin gerçek hastane ve klinik ortamlarında nasıl bir performans göstereceği ve sağlık sonuçları üzerindeki etkisi zamanla daha net bir şekilde ortaya çıkacağına inanılıyor.