
Небезпечне упередження: як ШІ ігнорує заперечення в медичних текстах
Сучасні ШІ-моделі, які комбінують аналіз візуального та текстового контенту, продемонстрували серйозну неспроможність коректно трактувати заперечення — зокрема такі слова, як «ні». Цей недолік особливо небезпечний у сфері медичної діагностики, де навіть найменша похибка у тлумаченні може мати критичні наслідки.
Висновки дослідження оприлюднені на платформі arXiv.
У рамках експерименту науковці протестували десять варіацій моделі CLIP AI та нову систему AIMV2, включно з двома версіями, спеціально навчальними на медичних зображеннях. Тестування передбачало два типи завдань: у першому необхідно було знайти зображення, на якому присутній об’єкт А, але відсутній об’єкт Б; у другому — вибрати правильне текстове пояснення з-поміж твердження із запереченням і без нього.
Моделі доволі впевнено виявляли наявність об’єкта А, демонструючи до 80% точності. Проте, як тільки додавалися елементи заперечення, ефективність суттєво падала — до 65%. Найбільші труднощі виникали у ситуаціях, де слід було відрізнити твердження на кшталт «виявлено ознаки захворювання» від «ознаки відсутні» — у таких випадках рівень правильних відповідей падав нижче 40%.
Ці результати вказують на наявність позитивного зміщення — тенденції до автоматичного сприйняття висловлювань як утверджувальних. Навіть після донавчання на прикладах із запереченнями системи залишаються недостатньо надійними для точного аналізу в умовах, де важлива абсолютна точність — зокрема в медицині.