Инженеры из Microsoft представили нейросеть, способную создавать сложные изображения по текстовому описанию. Описание разработки опубликовано на arxiv.com.

Примеры работы нового алгоритма (последняя колонка) и представленных ранее

Исследователи разработали генеративно-состязательную нейросеть ObjGAN, которая очень похожа на представленный ранее Microsoft алгоритм AttGAN. Отличие заключается в том, что новая нейросеть при создании изображений на основе текста ориентируется на объекты — другими словами, она анализирует нужный текст и раскладывает объекты из библиотеки на готовом изображении.

Для обучения алгоритма разработчики использовали классический датасет COCO, состоящий из 328 тысяч изображений с текстовыми описаниями. В исследовании говорится, что представленная нейросеть лучше других алгоритмов справляется с созданием по текстовому описанию сложных объектов, в которых содержится множество мелких деталей.

В будущем нейросеть будет дорабатываться, чтобы получаемые с ее помощью изображения были еще более реалистичными.

 

Рекомендуемые статьи

Добавить комментарий

Ваш адрес email не будет опубликован.

Close