Что нейросети знают о татарах? Тестируем три популярных проекта
Еще в 2016-м крупные корпорации всерьез взялись за нейросети: в Google много говорили об AlphaGo, а в Microsoft — про сервисы для идентификации изображений. «Инде» решил узнать, что о Татарстане и татарской культуре узнали за это время несколько популярных нейронок. Журналистка Алсу Гусманова задала им четыре запроса на русском и английском языках и сравнила результаты. Вот что получилось.
Нейросеть от группы Stability.Ai появилась в этом году. Ею можно пользоваться бесплатно и генерировать сколько угодно картинок. Первым делом я скормила программе словосочетание «типичные татары» — и получила очень разные изображения, мало связанные по смыслу. Нейронка отправила картинку скворечника, машины, географической карты и абстрактных узоров, возможно, с «восточными» мотивами. Остальные изображения можно описать словами «скажите, что вы видите, и я скажу, в каком психическом состоянии вы находитесь». С фразой на английском все пошло куда лучше: появились мужчины в длинных одеяниях с бородками и лицами, выражающими многодневный запой.
О концертах татарской эстрады Stable Diffusion, кажется, знает примерно ничего. В ответ на запрос она прислала рисунки с куполами церквей, а еще немного подумав — картинки с людьми в праздничных одеяниях. Английский программа поняла лучше, правда, на первом изображении оказался парень на сцене с внешностью четкого пацана. Может, это Нурминский?
Просьба сгенерировать что-то по теме «татарские мифологические герои» поставила нейронку в тупик. Она поместила на изображения какие-то города, снова абстракцию и почему-то пару то ли с очень длинноухой собакой, то ли с олененком. А из рисунков, полученных в ответ на английскую фразу, можно составить отдельную колоду Таро.
С представлениями о татарской еде у Stable Diffusion тоже возникли сложности. Только на одной картинке почудилась шулпа, но, возможно, мне просто не хотелось верить в скудные знания программы по теме. Я рискнула испытать нейросеть еще раз и попросила сгенерировать «эчпочмак». Программа решила, что это младенец, собака, фуры на обочине дороги возле гор и хохочущие лица — в общем, ничего похожего на горячий треугольник из теста, мяса и картошки. Английский запрос дался нейронной сети проще — в ответ на фразу пришли изображения еды. Жаль, не татарской.
Самая большая нейросеть в России разработана «Сбером» в прошлом году. На нее мы возлагали надежды — уж местная нейронка должна знать о культуре российских народов. Портреты типичных татар она увидела так: женщины в длинных одеждах, на головах — что-то похожее на калфак. Английская версия прислала три рисунка: надменные женщины, черно-белые женщины и усатый мужчина.
Концерты татарской эстрады действительно похожи на концерты. На последнем изображении женщина в ярко-розовом пиджаке — вполне подходящий наряд для Гузель Уразовой. Мое воображение интерпретировало двух мужчин рядом как Энрике Иглесиаса (если бы у него были кавказские корни) и Эйбела Тесфайе, известного как The Weeknd, — но вряд ли нейронка имела в виду именно их. Английский запрос обсуждать сложно: кажется, на одной картинке пародия на заставку с татарского музыкального телеканала «Майдан».
Мифологические герои оказались не по зубам и русскоязычной нейросети. Опасное предположение: на одном из рисунков нам почудился апостол, а на другом — домовой. Интересно, что в ответ на английские слова нейросеть прислала изображение Сююмбике — но, может, это просто игра воображения.
А вот с татарской едой дела обстоят лучше. Я разглядела что-то мясное и баурсак. Перевод с русского на английский ruDALL-E Malevich не оценила и просто накидала картинки случайных блюд.
Нейросеть с выраженным чувством прекрасного, но ограниченными знаниями о татарской культуре. Ею не так просто воспользоваться — я прочла несколько статей, прежде чем разобраться в принципе работы, и советую вот эту инструкцию.
О типичных татарах Midjourney имеет плохое представление либо не имеет его вовсе. Нейронка выдала очень красивые изображения с закатом, но без намека на татар. Изменение языка немного помогло: получились осмысленные картинки с мечетями (наверное) и людьми в пестрых одеждах.
Про концерты татарской эстрады Midjourney не известно ничего, в ответ на запрос пришли рисунки с эстетичными башнями со шпилями в облаках. По английским словам нейросеть все-таки сообразила, что речь о концертах, и сгенерировала толпу, смотрящую на сцену. Судя по количеству людей, выступает Салават.
Когда нейросеть не понимает, что от нее нужно, она присылает фото башен. Выглядит, конечно, красиво, но далеко от идеи — примерно так получилось с татарскими мифологическими героями. Зато английская версия вышла очень красивой: таких персонажей в татарской мифологии нет, но картинки похожи на готовые иллюстрации к сказкам.
Татарскую еду Midjourney представляет как (вы удивитесь) башню и природу на закате. А вот tatar food напомнила фрикадельки из ИКЕА.
Вывод неутешительный: с татарской культурой нейросети знакомы на двоечку. В основном она ассоциируется с чем-то восточным и пестрым. Надеемся, что в будущем нейронные сети подтянут свои знания в этой области и не будут путать эчпочмаки с младенцами.
Обложка: Софья Гражевич*; фото: 1–27 — Stable Diffusion; 27–49 — ruDALL-E Malevich; 49–58 — Midjourney
*Instagram — деятельность на территории РФ запрещена