Cited 0 times in 
Cited 0 times in 
Performance evaluation of text- and image-based questions by large language model and large multimodal model chatbots in oral and maxillofacial radiology
| DC Field | Value | Language |
|---|---|---|
| dc.contributor.author | 정휘 | - |
| dc.date.accessioned | 2026-02-05T06:09:22Z | - |
| dc.date.available | 2026-02-05T06:09:22Z | - |
| dc.date.issued | 2025-08 | - |
| dc.identifier.uri | https://ir.ymlib.yonsei.ac.kr/handle/22282913/210868 | - |
| dc.description.abstract | Purpose: This study aimed to conduct a comprehensive evaluation of general-purpose large language model (LLM) and large multimodal model (LMM) chatbots in oral and maxillofacial radiology (OMFR) by comparing their performance with dental students, and assessing performance changes from LLM to LMM chatbots. Materials and Methods: A total of 90 text- and image-based examination questions were extracted from OMFR curriculum in a Korean dental school and categorized into six educational content categories and two question types. Four LLM chatbots (ChatGPT, ChatGPT Plus, Bard, Bing Chat) generated a single response per question, while two LMM chatbots (ChatGPT-4o, Gemini 2.0 Flash) produced ten responses per item. Accuracy was assessed using the first response from each chatbot and compared to student scores. For LMM chatbots, response consistency across repeated outputs was analyzed using Fleiss’ kappa coefficient. Hallucination was evaluated by two oral and maxillofacial radiologists using a five-point Global Quality Scales, with mean and standard deviation, and the effect of zero-shot chain-of-thought (ZS-CoT) prompting was examined. Results: LMM chatbots demonstrated higher accuracy than LLM chatbots on text-based items and outperformed dental students in certain domains. However, their performance remained limited in image-based diagnostic tasks, with frequent variability and hallucinations observed in complex image interpretation and short-answer formats. ZS-CoT prompting did not produce meaningful improvement in accuracy. Conclusions: This is the first study to compare chatbot performance with student scores using an OMFR questions that includes both textual and image components, while also examining longitudinal performance changes from LLM to LMM chatbots. These findings offer timely insight into the current strengths and limitations of general-purpose AI chatbots. Future work incorporating more diverse clinical images and case scenarios, combined with model customization and advanced prompting strategies, may help enable safer and more effective application of AI chatbots in dental education, patient communication, and clinical practice. 목적: 본 연구는 영상치의학에서 범용 거대 언어 모델 및 거대 다중모달 모델 기반 인공지능 챗봇의 성능을 평가하여 실제 치과대학생의 성적과 비교하고, 거대 언어 모델에서 거대 다중모달 모델 챗봇으로의 종단적 성능 변화를 분석함으로써 다차원 평가를 수행하는 것을 목표로 한다. 재료 및 방법: 국내 치과대학의 영상치의학 교육과정에서 추출한 90개의 텍스트 및 영상 기반 시험 문항을 6개의 교육 내용과 2개의 문제 유형으로 분류하였다. 4개의 거대 언어 모델 챗봇(ChatGPT, ChatGPT Plus, Bard, Bing Chat)은 각 문항에 대해 1회, 2개의 거대 다중모달 모델 챗봇(ChatGPT-4o, Gemini 2.0 Flash)은 10회씩 응답을 수집하였다. 모든 챗봇의 첫 회차 응답을 기준으로 정확도를 산출하여 실제 치과대학생 성적과 비교하였다. 거대 다중모달 모델 챗봇에 한하여 10회 반복 응답의 일관성을 Fleiss’ kappa 계수로 평가하였고, 2명의 영상치의학 전문의가 Global Quality Scales 지표의 5점 척도에 따라 환각 정도를 평가하여 평균 및 표준편차를 계산하였다. 마지막으로는 단계별 추론을 유도하는 제로샷 생각의 사슬 프롬프트의 적용 효과를 확인하였다. 결과: 거대 다중모달 모델 챗봇은 텍스트 기반의 문항에서 거대 언어 모델 챗봇보다 높은 정확도를 보였고, 일부 영역에서는 치과대학생의 성적을 상회하는 성과를 나타냈다. 그러나 영상 기반 문제에서는 매우 제한적인 성능을 보였으며, 복잡한 영상 해석 및 단답형 문항에서 높은 수준의 변동성과 환각이 관찰되었다. 제로샷 생각의 사슬 프롬프트 적용은 챗봇의 정확도 향상에 유의미한 효과를 보이지 않았다. 결론: 본 연구는 텍스트와 이미지를 모두 포함하는 영상치의학 관련 시험 문항을 활용하여 챗봇의 성능을 학생 성적과 비교하는 동시에 거대 언어 모델 챗봇에서 거대 다중모달 모델 챗봇으로의 종단적 성능 변화를 조사한 최초의 연구로서, 현시점에서 범용성 인공지능 챗봇의 역량과 한계를 규명하는 데에 시의적절한 통찰을 제공한다. 향후 연구에서 다양한 임상 영상과 사례를 포함한 특화된 데이터셋을 활용하고, 환각 감소를 위해 모델 맞춤화와 고급 프롬프트 전략을 적용한다면 학생 및 환자 교육과 임상 실무에서 인공지능 챗봇을 보다 안전하고 효과적으로 활용할 수 있을 것이다. | - |
| dc.description.statementOfResponsibility | open | - |
| dc.publisher | 연세대학교 대학원 | - |
| dc.rights | CC BY-NC-ND 2.0 KR | - |
| dc.title | Performance evaluation of text- and image-based questions by large language model and large multimodal model chatbots in oral and maxillofacial radiology | - |
| dc.title.alternative | 텍스트 및 이미지 기반 문제를 활용한 거대 언어 모델 및 거대 다중모달 모델 인공지능 챗봇의 성능 평가 | - |
| dc.type | Thesis | - |
| dc.contributor.college | College of Dentistry (치과대학) | - |
| dc.contributor.department | Others | - |
| dc.description.degree | 박사 | - |
| dc.contributor.alternativeName | Jeong, Hui | - |
| dc.type.local | Dissertation | - |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.