Модель, которая генерирует сложные рецепты на основе изображений доступных ингредиентов

Модели искусственного интеллекта (ИИ) уже нашли свое применение в самых разных областях реального мира, помогая людям быстрее и эффективнее решать повседневные проблемы. В последнее время ученые-компьютерщики также изучают их потенциал для помощи людям в решении творческих задач, таких как придумывание интересных дизайнов, стихов и даже рецептов.

Два исследователя из PeopleTec, технологической компании, расположенной в Алабаме, разработали вычислительную модель, которая может создавать сложные рецепты, содержащие ингредиенты, имеющиеся у пользователя, после анализа изображений того, что находится в его холодильнике. Их подход, представленный в статье, предварительно опубликованной на сайте arXiv, основан на моделях, которые могут идентифицировать объекты на изображениях, и GPT-4, известной большой языковой модели (LLM), разработанной OpenAI.

«В 2020 году группа наших исследователей ИИ устроила вечеринку, где одна команда предлагала список ингредиентов, а другая использовала языковую модель, чтобы придумать оригинальный рецепт», — рассказал Tech Xplore Дэвид Новер, один из исследователей, проводивших исследование.

По мере того, как ингредиенты становились все интереснее, рецепты становились все хуже и хуже, в конце концов превратившись в бессмыслицу вроде «Рецепт венгерской кожи для обуви, подавать на завтрак на 2 порции» — в общем, полная тарабарщина». Но с 2020 года модели изображений и языка стали настолько хороши, что теперь мы действительно можем создать приложение, которое решит проблему практического повара — просто загляните в свой холодильник прямо сейчас, возьмите несколько основных предвзятых идей о том, что можно приготовить сегодня, и создайте отличный новый рецепт».

Ключевой целью недавней работы Ноэвера и его коллеги Саманты Элизабет Миллер Ноэвер было осветить последние достижения в области ИИ в практической и полезной форме. Чтобы добиться генерации рецептов на основе изображений, они специально использовали интерфейсы прикладного программирования (API) моделей для анализа изображений, а также генератор текста, лежащий в основе ChatGPT.

«Основная идея нашей работы заключалась в том, чтобы объединить сырые продукты и ингредиенты рецепта с помощью анализа изображений, а затем попросить мощную языковую модель построить правдоподобный кулинарный рецепт, включая предполагаемое название, пропорции и шаги», — пояснил Ноэвер.

«Один из интересных поворотов этого языково-образного подхода заключается в том, чтобы ограничить генератор стилей рецептов различными и часто сложными способами, например, минимизируя стоимость блюда, изменяя размеры порций или учитывая диетические ограничения. Сложность этой задачи зависит от того, насколько хороша языковая модель, которая, конечно, совершила огромный прорыв только за последние несколько месяцев».

Исследователи оценили свой вычислительный подход в серии тестов, скормив ему более 2 000 изображений открытых холодильников с различными ингредиентами внутри. Используя эти изображения, их модель создала 100-страничный сборник рецептов, содержащий интересные и уникальные рецепты с использованием 30 лучших ингредиентов, изображенных на входных изображениях.