Теперь нейросеть генерирует блюда по рецепту
Исследователи из Тель-Авива создали нейросеть, создающую изображение блюда по тексту рецепта. Картинка еды выглядит реалистично, но пока системе требуются улучшения, сообщает TheNextWeb. Над проектом работали исследователи из Тель-Авивского университета.
Нейронная сеть может взять практически любой список ингредиентов или инструкций и сгенерировать по нему изображение готового продукта. Это, например, позволяет посмотреть, как изменится блюдо при добавлении или удалении того или иного пункта в рецепте.
Как появилась идея?
«Всё началось с того, что я попросил у бабушки рецепт её легендарных рыбных котлет с томатным соусом, – рассказывает один из авторов проекта Ори Бар Эль (Ori Bar El). Из-за своего преклонного возраста она не помнила точный рецепт. Но мне было интересно, можно ли построить систему, которая по изображению пищи выведет рецепт. Поразмыслив над этой задачей, я пришёл к выводу, что системе слишком сложно получить точный рецепт с реальными и «скрытыми» ингредиентами, такими как соль, перец, масло, мука и т. д.
Затем я подумал, можно ли сделать наоборот? А именно: сгенерировать изображения продуктов на основе рецептов. Мы считаем, что эта задача очень сложна для людей — что уж говорить о компьютерах. Но поскольку большинство современных систем искусственного интеллекта пытаются заменить экспертов в простых для человека задачах, мы подумали, что было бы интересно решить задачу, которая даже выходит за рамки человеческих возможностей. Как видите, это можно сделать с определённым успехом».
Как это работает?
Создание изображение из текста – сложный процесс, который требует не только знания программ, но и творческого подхода. Нейросеть представляет собой модифицированную версию генеративной состязательной сети (GAN) под названием StackGAN V2.
Обучение системы проходило на большой базе из 52 тыс. пар изображений/рецептов, включенных в набор данных recipe1M. При тестировании хорошо получились «кашеобразные» продукты питания (например, макароны, рис, супы, салаты), но системе трудно было сгенерировать по рецепту изображения продуктов характерной чёткой формы (например, гамбургер или курица).
Были и другие трудности. Исходный набор данных представлен изображениями небольшого разрешения – 256×256 пикселей, а зачастую еще более низкого качества. Среди них много «кашеобразных» изображений и картинок с плохими условиями освещения. Есть фото неквадратной формы. Все это затрудняет обучение системы.
В будущем авторы проекта намерены продолжить работу, загрузив в нейросеть еще более 350 тыс. рецептов.