Top.Mail.Ru
\

Визуальное знание в ИИ: как прототипы связаны с «галлюцинациями» больших моделей

В исследованиях искусственного интеллекта разви...

https://unsplash.com/

В исследованиях искусственного интеллекта развивается направление, связанное с так называемым «визуальным знанием» — формализованным способом представления информации о внешнем виде объектов и их взаимосвязях. Концепция опирается на подходы когнитивной психологии и рассматривается как попытка приблизить работу моделей к человеческому восприятию. Работа специалистов Чжэцзянского университета посвящена анализу этой идеи и ее применению в ИИ-системах.

Авторы отмечают, что зрительное восприятие занимает значительную часть ресурсов человеческого мозга, а визуальные образы играют ключевую роль в формировании памяти и понимания объектов. На этом фоне в области искусственного интеллекта возникла идея переноса принципов человеческого восприятия в алгоритмические модели.

В рамках концепции визуального знания выделяются четыре основных элемента. Первый — зрительные понятия, включающие прототипы объектов и допустимые вариации. В качестве примера приводится понятие «стул», которое охватывает различные формы предметов мебели при наличии общих признаков. Второй элемент — зрительные отношения, описывающие пространственные, временные, причинные и функциональные связи между объектами. Третий — зрительные операции, связанные с мысленным преобразованием и прогнозированием изменений объектов. Четвертый — зрительные рассуждения, объединяющие предыдущие компоненты для решения задач.

До появления крупных моделей предпринимались попытки формализовать отдельные аспекты визуального знания. Использовались прототипные сети, генеративные модели распределений, капсульные архитектуры и графовые представления сцен. Однако, как отмечают исследователи, такие подходы ограниченно описывали вариативность объектов и сложные типы связей. Развитие методов генерации изображений и видео позволило продвинуться в задачах предсказания и синтеза, но вопросы интерпретации и причинно-следственных связей оставались нерешенными.

Отдельно рассматривается проблема так называемых «галлюцинаций» больших моделей, когда система выдает правдоподобные, но фактически ошибочные ответы. Авторы связывают это с отсутствием устойчивой структуры понятий и отношений, которую, по их мнению, может обеспечить визуальное знание.

В работе также отмечается, что подход с использованием прототипов потенциально может снизить вычислительную нагрузку, поскольку часть структуры знаний задается заранее. Однако практическая реализация таких систем пока не представлена в виде общедоступных инструментов.

Среди ограничений концепции указывается сложность формализации «границ понятий» и зависимость от исходных данных. Вопрос о том, каким образом извлекать такие структуры без масштабной ручной разметки, остается открытым. В противном случае существует риск возврата к тем же проблемам, которые наблюдаются в современных крупных моделях.

Исследование носит теоретический характер и рассматривается как одно из направлений поиска более интерпретируемых архитектур искусственного интеллекта.

\n\n\n\n\n\n
\n\n