Ученый, стартапер, революционер
Midjourney — разработанная одноименной американской компанией нейросеть, которая поразила пользователей по всему миру картинами, созданными на основе текстовых запросов.
Команда Midjourney позиционирует себя как независимую исследовательскую лабораторию, занимающуюся расширением творческих способностей человечества.
В феврале 2022 года проект основал Дэвид Хольц — ученый и предприниматель, 33-летний выпускник факультета прикладной математики Университета Северной Каролины в Чапел-Хилл. Хольц успел поработать в Институте Макса Планка, где изучал алгоритмы нейровизуализации и разрабатывал карту мозга крысы на клеточном уровне, в исследовательском центре NASA, где занимался технологией LiDAR (обнаружение и определение дальности с помощью света, используется, в том числе, в камерах iPhone для лучшей фокусировки на объекте).
В 2011 году Хольц ушел из аспирантуры и переехал в Сан-Франциско, где основал первую собственную компанию — Leap Motion (сейчас Ultraleap), которая разрабатывает датчики движения и другие системы распознавания человеческих жестов. Хольц руководил фирмой до 2021 года, но решил выйти из бизнеса: ему, по собственным словам, не хотелось управлять крупной компанией, сам он не раз признавался, что ему интересна другая, молодая и быстроразвивающаяся среда.
В начале 2022 года Хольц вышел из состава учредителей Ultraleap и основал Midjourney. По словам предпринимателя, штат компании даже сейчас, когда ее настигла мировая слава, не превышает 10 человек, у проекта нет инвесторов, а деньги не являются главной мотивацией основателя. «Главное, чего я хочу, — чтобы на ближайшие 10 лет у нас был дом, в котором мы могли бы экспериментировать с технологиями и создавать продукты, которые будут иметь значение не только для меня, но и для всего мира. Ну и получать удовольствие в процессе», — говорит он.
Как это работает?
Работу Midjourney обеспечивают два технологических прорыва в области искусственного интеллекта, произошедших относительно недавно:
1) умение нейросетей понимать человеческую речь;
2) создавать образы.
Чтобы преобразовать эти навыки в целостную систему, которая по запросу выдает произведения искусства, нейронную сеть обучают выстраивать соответствие между текстовыми описаниями и визуальными образами на миллиардах примеров. Результаты такого обучения позволяют генерировать картинки по текстовому описанию, генерировать текстовые описания по картинкам, дорисовывать части изображений, и многое иное, подобное.
В середине июля 2022 Midjourney вышла в фазу бета-тестирования и стала доступна пользователям по всему миру, чтобы ей пользоваться, нужно быть зарегистрированным в Discord — кросс-платформенном мессенджере, популярном у геймеров, разработчиков игр и дизайнеров.
Сначала нужно зайти на официальный сайт Midjourney и авторизоваться через Discord, затем оплатить подписку или воспользоваться бесплатной версией. Бесплатная версия позволяет сгенерировать и скачать 25 изображений, но не дает доступ к личному кабинету, за $10 можно создавать до 200 изображений в месяц, за $30 — генерировать бесконечное количество картинок. Доступна также корпоративная подписка стоимостью $600, которая дает сотрудникам компании возможность создавать картинки в команде и просматривать индивидуальные работы друг друга.
По словам Хольца, способ доступа к системе через Discord он выбрал из-за группового принципа работы платформы: люди охотнее фантазируют, когда собираются в группы.
Присоединившись к сервису, можно отправлять текстовые команды для создания изображений вместе с другими пользователями или поодиночке на любом из множества каналов Discord.
Чтобы создать изображение, достаточно в чате с ботом Midjourney написать запрос, описывающий картину, которую в итоге хочется получить. Система сгенерирует четыре изображения на выбор, а дальше наиболее подходящую картинку можно масштабировать, изменять и дорабатывать до идеала.
Полученные изображения появляются примерно через минуту после отправки запроса, в течение этой минуты вы можете наблюдать увлекательный процесс генерации.
Ничего нового
Midjourney не первая и не единственная нейросеть, способная генерировать изображения на основе текстовых запросов, — до этого в продакшн выпускали DALL-E от OpenAI и Imagen от Google.
Разработку DALL-E профинансировал Microsoft, стоимость составила $1 млрд. На эти средства OpenAI разработал нейросеть на базе алгоритма обработки естественного языка GPT-3, о котором мы писали в предыдущей статье. Для широкой аудитории нейросеть стала доступна в январе 2021-го. А в апреле 2022 года вышла ее улучшенная версия — DALL-E 2.
В ноябре 2021 года команда разработчиков Sber AI создала аналогичную нейросеть, которая обрабатывает запросы на русском языке. Проект получил название ruDALL-E, но отношения к оригинальному DALL-E не имеет: разработки засекречены, а российские специалисты самостоятельно обучали нейросеть с нуля. Кстати, разработчики из Sber AI заявляют, что процесс обучения ruDALL-E стал самой большой вычислительной задачей в России.
В мае 2022 года нейросеть Imagen, генерирующую изображения, выпустил Google. На официальном сайте продукта разработчик утверждает, что Imagen превосходит DALL-E по точности изображений и соответствию картинки техническому заданию.
Принцип генерации картинок нейросетями
Каждая нейронная сеть обучается с помощью тренировочных данных: если ChatGPT обучали в большинстве на текстовых данных и оценке человека, то Midjourney учится на графических изображениях, начиная от мировых шедевров великих художников, заканчивая мемами.
Как нейросеть генерирует изображения?
Сеть Midjourney имеет до 30 вложенных слоев с различными уровнями абстракции. После того, как мы написали запрос для нейросети, она прогоняет через алгоритм все возможные варианты аналогичных изображений и ищет в них самые подходящие под наш запрос части. После того, как нейросеть поняла, что мы от нее хотим, она уже внутри себя создала картину в виде числовых значений, теперь же ей нужно вывести это на экран в виде графики.
Если совсем упростить этот процесс, то его можно описать так: изображение поступает на входной слой, очень грубо обрабатывается, и передает информацию в следующий более детальный слой, и так до 30 раз, пока на выходе не получится ожидаемый результат. Каждый последующий слой извлекает новые черты изображения. Допустим первый уровень определяет углы и ребра на картинке, второй — формы, несколько следующих слоев принимают решение о том, что изображено на картинке, и только на верхних слоях изображение приобретает детали и становится похожа на картину. Если вы художник, то уже поняли, что нейросеть просто использует технику рисования «от пятна».
Никаких технологических «киллер-фичей» у Midjourney нет, все перечисленные нейросети работают примерно по одному и тому же принципу: человек дает как можно более конкретное текстовое описание той картинки, которую он хочет получить, а нейросеть послойно генерирует изображения.
Разница и конкурентное преимущество — в индивидуальных технологических особенностях, которые влияют на пользовательский опыт и которые разработчики не раскрывают. Например, Midjourney обеспечивает более высокое разрешение итоговых картинок и большую детализацию в соответствии с текстовым запросом.
Но все же роскошь Midjourney в том, что ею может воспользоваться любой желающий, в отличие от других подобных нейросетей, доступ к которым возможен только по приглашениям или платно.
Зачем нам нужна Midjourney и ее аналоги?
По мнению Романа Душкина из «Агентства Искусственного Интеллекта», у функции визуализации нейросетей большой спектр практического применения, начиная от маркетплейсов, где нужно генерировать множество однотипных картинок для представления товаров на сайте, до создания художественных произведений и генерации NFT. Руководитель группы исследований компании по разработке технологий искусственного интеллекта Just AI Мурат Апишев к этому списку добавляет генерацию маркетингового и внутриигрового контента, дизайна, анимации и даже кино. Сергей Марков, руководитель управления экспериментальных систем машинного обучения SberDevices, убежден, что подобные нейросети применимы в интерьерном дизайне, дизайне упаковок, прототипировании веб-страниц, элементов интерфейсов, эмодзи и стикеров, в геймдеве для создания персонажей и локаций, в архитектуре, разработке логотипов и фирменного стиля, дизайне одежды, боди-арте, ивент-индустрии, иммерсивных театрах.
Инструмент или конкурент?
В июне 2021 года журнал Cosmopolitan вышел с первой в мире обложкой, созданной нейросетью. На картинке была изображена женщина-космонавт, будто бы снятая на широкоугольный объектив и надписью «это заняло всего 20 секунд». Автором обложки была нейросеть DALL-E.
Эта история подняла волну обсуждений в Twitter: часть пользователей восхищались работой нейросети, часть — хейтили ее, а кто-то всерьез обеспокоился тем, что машины в ближайшем будущем отберут работу у живых художников и дизайнеров.
Беспокоиться рано, по крайней мере, сейчас: нейросети были и остаются только инструментом для визуализации, но не полноценным творцом.
Только человек на сегодняшний день может выдавать идеи, он ставит задачу, настраивает параметры нейросети, фильтрует результаты и дорабатывает по своему вкусу и картине мира. Только у человека, в конце концов, может появиться желание создать, а нейросети генерируют лишь бездумную красоту по не принадлежащим им словам, поэтому и без человека они не создадут ничего, действительно стоящего внимания. При этом искусственный интеллект, вроде ChatGPT и Midjourney показывает себя потрясающим подспорьем в решении многих задач.
Отбор результатов, разделение вариантов на более или менее удачные — действительно важная задача, которая пока не под силу искусственному интеллекту. Эмоциональный отклик — это то, ради чего мы воспринимаем искусство. А оценить будущий эмоциональный отклик, который вызовет произведение у человека, может только человек, ведь у нейросетей эмоций нет. Поэтому созданные искусственным интеллеектом шедевры — это всегда человекомашинное творчество и не стоит бояться использовать этот мощный инструмент для создания шедевров.
Сам основатель Midjourney Дэвид Хольц не планирует отбирать работу у живых художников и дизайнеров и призывает отложить паранойю по этому поводу. «Да, компьютеры лучше справляются с визуальным изображением, чем 99% людей на планете. Но это не значит, что мы перестанем воображать. Машины передвигаются быстрее людей, но ведь мы из-за этого не перестали ходить. Мы перемещаем огромное количество вещей на огромные расстояния, нам для этого нужны самолеты, лодки или автомобили с более приспособленными для таких задач двигателями, — констатирует Хольц. — Так что мы рассматриваем Midjourney исключительно как двигатель воображения. И лично я считаю нашу нейросеть очень гуманистическим изобретением».