Top.Mail.Ru
\

Израильские ученые нашли способ выявлять ложь нейросетей

Международная группа исследователей под руководством Хайфского Техниона разработала метод, позволяющий отслеживать «галлюцинации» больших языковых моделей. Об этом сообщается в материалах коллектива, работающего совместно с компанией NVIDIA. Об этом пишет издание TechInsider.

Проблема заключается в том, что нейросети из миллиардов параметров работают по принципу «черного ящика»: их внутренняя логика остается непрозрачной. Из-за этого модели могут уверенно выдавать ложные факты, что долгое время было непредсказуемым.

Ученые предложили создавать внешнего «инспектора» — легкую и дешевую нейросеть, которая обучается на внутренних сигналах большой модели. Когда основная модель галлюцинирует, геометрия ее активаций отличается от той, что при генерации правдивых ответов.

По словам доктора Хаггая Марона, возглавляющего исследовательскую группу, новый подход позволяет вовремя замечать, когда нейросеть начинает выдумывать факты или отклоняться от заданной программы. Результаты работы будут представлены на конференции AAAI-2026 в Сингапуре.

Разработанные алгоритмы диагностики могут применяться в медицине, образовании, науке и государственном регулировании. Как отметил доктор Марон, этот опыт открывает возможности для интеграции ИИ в ответственные структуры.

\n\n\n\n\n\n
\n\n