03 июля 2025
Москва разработала новый метод тестирования ИИ-систем в здравоохранении, который позволит быстрее и точнее оценивать их надежность. Ученые Центра диагностики и телемедицины определили количество исследований для объективной проверки точности нейросетей, что поможет ускорить процесс внедрения таких технологий в клиническую практику. Новый подход уже подтвердил свою эффективность в лучевой диагностике и может быть применен в других областях медицины. Об этом сообщил главный рентгенолог Москвы Юрий Васильев.
«Москва уже много лет является лидером в применении искусственного интеллекта в медицине, и теперь мы сделали еще один важный шаг вперед. Ученые Центра диагностики и телемедицины провели масштабное исследование и нашли новый и надежный способ тестирования медицинских ИИ-систем. До сих пор не было четкого ответа на вопрос, сколько исследований необходимо для объективной проверки нейросети — приходилось тестировать на огромных выборках, что требовало много времени и ресурсов. Теперь мы точно знаем, какое количество исследований необходимо, чтобы оценить точность ИИ и когда дальнейшее увеличение выборки не меняет результат. Это открытие позволит разработчикам быстрее адаптировать свои технологии, а врачам — эффективнее использовать их в работе. Кроме того, теперь мы сможем ещё быстрее внедрять ИИ-сервисы в медицину, будучи уверенными в их надежности. Методика уже доказала свою эффективность в лучевой диагностике, но ее можно применять и в других областях медицины. Мы уверены, что такой подход поможет сделать искусственный интеллект еще более точным и безопасным инструментом для врачей и пациентов, а значит, повысит качество диагностики и ускорит выявление заболеваний на ранних стадиях», — рассказал Юрий Васильев.
Учёные Центра диагностики и телемедицины разработали новый метод определения необходимого количества исследований для надёжного тестирования медицинских ИИ-систем. Они проанализировали более 2 миллионов вариантов тестов и доказали, что для объективной оценки точности алгоритмов с бинарной классификацией (например, выявления патологий на снимках) необходимо не менее 400 исследований, из которых хотя бы 10% должны относиться к каждому из классов, то есть иметь отмеченные признаки патологий. Дальнейшее увеличение выборки не меняет результат, что делает подобную методику наиболее эффективной. Исследование проводилось на примере лучевой диагностики, но этот подход можно применять и в других областях, где ИИ работает по принципу «да/нет». Это открытие позволит быстрее тестировать и внедрять искусственный интеллект в медицину, повышая его точность и надёжность.
«Классические методы тестирования искусственного интеллекта не давали точного ответа на вопрос, сколько исследований необходимо для объективной проверки его точности. Сложность задач, которые решает ИИ в медицине, постоянно растет, поэтому ученые Центра диагностики и телемедицины предложили альтернативный подход. Они проанализировали более 2 миллионов комбинаций параметров тестовых выборок и 25 тысяч изображений, изучили поведение диагностических метрик и доказали, что необходимо не менее 400 исследований для получения стабильного результата. Минимальная доля каждого класса должна составлять не менее 10%, то есть 40 исследований, а дальнейшее увеличение выборки не влияет на итоговую точность. Полученные данные не зависят от типа медицинских изображений или конкретной нейросети, что делает методику универсальной. Исследование проводилось на примере лучевой диагностики, но этот подход можно масштабировать и на другие медицинские системы ИИ с бинарной классификацией, что станет следующим этапом научной работы», — добавил Юрий Васильев.
Статья «Эмпирический метод расчета размера выборки для тестирования алгоритмов искусственного интеллекта» уже получила положительную рецензию академиков РАН и других привлеченных лиц и стала победителем конкурса AI Journey. В работе рассказывается о новом методе оценки размера выборки для тестирования алгоритмов искусственного интеллекта, основанном на результатах анализа большого объема накопленных эмпирических данных.
Речь идет о сервисах искусственного интеллекта с бинарной классификацией результата, например, для выявления наличия патологии на лучевом исследовании. Общая оценка качества классификации таких сервисов проводится по значению ROC AUC — это метрика, позволяющая оценить качество ИИ-модели бинарной классификации. Традиционные методы расчета не подходят для таких решений, поэтому ученые предложили альтернативный подход.
Издательский отдел: +7 (495) 608-85-44 Реклама: +7 (495) 608-85-44,
E-mail: mg-podpiska@mail.ru Е-mail rekmedic@mgzt.ru
Отдел информации Справки: 8 (495) 608-86-95
E-mail: inform@mgzt.ru E-mail: mggazeta@mgzt.ru