Нейросеть научилась создавать сложные сцены по текстовому описанию

Инженеры из Microsoft представили нейросеть, способную создавать сложные изображения по текстовому описанию. Описание разработки опубликовано на arxiv.com.

Примеры работы нового алгоритма (последняя колонка) и представленных ранее

Исследователи разработали генеративно-состязательную нейросеть ObjGAN, которая очень похожа на представленный ранее Microsoft алгоритм AttGAN. Отличие заключается в том, что новая нейросеть при создании изображений на основе текста ориентируется на объекты — другими словами, она анализирует нужный текст и раскладывает объекты из библиотеки на готовом изображении.

Для обучения алгоритма разработчики использовали классический датасет COCO, состоящий из 328 тысяч изображений с текстовыми описаниями. В исследовании говорится, что представленная нейросеть лучше других алгоритмов справляется с созданием по текстовому описанию сложных объектов, в которых содержится множество мелких деталей.

В будущем нейросеть будет дорабатываться, чтобы получаемые с ее помощью изображения были еще более реалистичными.

 

Рекомендуемые статьи

Добавить комментарий

Ваш адрес email не будет опубликован.

Close