Умение понимать зверей, птиц, разных букашек, морских гадов — часто встречающийся мотив в мировой культуре. Есть множество разнообразных персонажей, разговаривающих с животными, — от библейского царя Соломона до Гарри Поттера. Для сказочных охотников, шаманов, колдунов беседы со зверями и птицами — обычное дело. Но мы-то не в сказке. Хотя отчасти животных всё-таки понимаем. Если собака рычит, оскалив зубы и прижав уши, то очевидно, что она нам угрожает. Если кошка мяукает перед пустой кормушкой, мы вряд ли ошибёмся, предположив, что она просит есть. Однако это достаточно простые ситуации. Нередко бывает, что наши питомцы своими «монологами» вводят нас в полное замешательство, и тогда волей-неволей начинаешь думать, что тебе сообщают что-то сложное, только язык этот как-то непонятен.
Изучая какой-нибудь человеческий язык, мы начинаем с алфавита, звуков и отдельных слов. Из слов мы учимся составлять предложения, а в устной речи — соблюдать произношение и интонацию, ведь смысл может ощутимо меняться в зависимости от порядка слов и от того, как они звучат. Но у животных нет ни зафиксированных алфавитов, ни словарей. Остаётся только сопоставлять звуки, которые они издают в разных ситуациях, и искать в этих звуках то, что делало бы их похожими на слова и предложения.
Язык китов, каракатиц и котов
Пожалуй, наиболее серьёзные усилия по распознаванию «речи» животных с применением искусственного интеллекта были предприняты в отношении кашалотов.
Голос кашалотов — сухие щелчки разных частот и ритма. Высокочастотные (15 кГц) щелчки киты издают во время эхолокации, прощупывая звуками окружающее пространство в поисках добычи. Щелчками относительно низкой частоты (5 кГц) кашалоты общаются друг с другом. Такие щелчки группируются в короткие ритмические «фразы», называемые кодами. Много лет записывая голоса кашалотов по всему миру, исследователи насчитали около 150 код. Это не значит, что каждый кит использует все полторы сотни последовательностей щелчков; у группы кашалотов в повседневном общении может быть всего лишь пара десятков код. При этом у разных групп есть собственные звуковые подписи. Каждая реплика кашалота завершается серией щелчков определённого ритма и темпа, уникальных для его группы. Например, у одних кашалотов финальные щелчки идут через равные промежутки времени, другие же делают паузу перед последним звуком. Предполагается, что коды указывают направление движения, помогают искать еду и в целом работают на укрепление социальных связей. В поисках добычи кашалоты разбредаются друг от друга довольно далеко, и позывные позволяют им потом снова собраться вместе.
Но полторы сотни «фраз» для полноценного языка как-то маловато, особенно если учесть, что у каждого отдельного кита лексикон намного меньше. На самом деле, 150 код — это результат относительно простого анализа, не улавливающего многих звуковых вариантов и оттенков. Уловить их помог искусственный интеллект. Методы машинного обучения позволяют выявить в большом массиве данных характерные комбинации элементов, их взаимосвязи, узоры или, как часто говорят, паттерны. Ища и находя эти комбинации, ИИ одновременно отмечает, насколько они друг от друга отличаются. И если данных действительно много, алгоритм в конце концов сможет воспроизвести эти паттерны.
В прошлом году в Nature Communications была опубликована статья, авторы которой отдали ИИ более 8700 звуковых фрагментов, записанных при исследовании нескольких десятков китов, принадлежавших к крупной, в четыре сотни особей, восточно-карибской группе кашалотов. Обычно коды кашалотов классифицируются по продолжительности и ритму: одни фразы получаются длинными, другие короткими, в некоторых паузы между щелчками относительно большие, а где-то щелчки идут друг за другом вплотную. ИИ обучился достаточно хорошо, чтобы правильно договаривать неполные коды, которые ему отдавали сверх учебного материала.
С помощью ИИ удалось выяснить, что кашалоты иногда навешивают на коды несколько финальных добавочных звуков, и чаще это бывает с короткими кодами. Они всё равно остаются короткими, то есть довесок не делает фразу значительно длиннее. Звуковые виньетки имеют место в определённых ситуациях: например, когда кит, плывущий сзади, присоединяется к щёлканью лидера группы или же берёт паузу в общении, или когда он замолкает. Другая модификация — изменение темпа код. Решив замедлить или ускорить свою «речь», кашалот ускоряет или замедляет несколько идущих друг за другом код. Слушая друг друга, киты подстраивают темп своих «фраз» под товарища, то есть если один кашалот ускорился в разговоре, то и другой, вступающий следом за ним, тоже ускорится, даже если оба они произносят разные «фразы».
За кашалотами этого клана наблюдают давно, и считалось, что они используют всего двадцать одну коду из известных ста пятидесяти. Но с учётом новых результатов получается, что в их распоряжении около трёх сотен код. Есть искушение уподобить добавочные концевые звуки суффиксам и окончаниям либо предлогам; правда, для изменений темпа такой очевидной аналогии уже не подобрать. С языковыми аналогиями лучше вообще быть поосторожнее, потому что неизвестно, несут ли они какую-то добавочную информацию модификации «фраз», как соотносятся с исходными «фразами», насколько меняют их смысл. Скажем, можно предположить, что если кит меняет темп код в ответ на чужое замедление или навешивает на них добавочные звуки, то он таким способом просто подтверждает социальную связь. Тогда это похоже на дружеское похлопывание по спине: приятели могут хлопать друг друга слева или справа, один раз или несколько, но смысл в любом случае остаётся тот же — они рады встрече.
Так или иначе, благодаря ИИ удалось узнать, что элементы «языка» кашалотов пластичны и меняются в зависимости от социального контекста. У кашалотов из разных групп отличаются не только звуковые сигналы, но и поведение в целом: они по-разному ведут себя с детёнышами, плавают другими маршрутами. Семьи одного клана могут объединяться друг с другом, а семьи из разных кланов — нет (по крайней мере, специалистам подобные случаи неизвестны). И специфическая манера щёлкать у кашалотов не врождённая, они обучаются клановым сигналам у старших китов. В таком контексте варианты код выглядят как часть большой картины поведенческих различий, индивидуальных и групповых. Соответственно, изучая разговоры кашалотов, можно узнать что-то новое об «общекультурной», социально-поведенческой динамике в их популяциях.
Перещёлкиваются между собой не только кашалоты, но и косатки, и дельфины, и другие зубатые киты. Усатые киты звучат иначе: они известны долгими протяжными песнями с очень сложным звуковым спектром, не чета щелчкам и посвистам кашалотов и дельфинов. Считается, что песни усатых китов несут сугубо социальные функции, но изучены они пока что слабо. Водных животных изучать вообще трудно, одних только звукозаписей тут недостаточно: чтобы узнать, что означает та или иная китовая песня, звуковая модификация, нужно регистрировать поведение китов, записывать их на видео, и чем больше таких записей, тем лучше.
Впрочем, некоторых водных обитателей можно изучать в аквариуме. Недавно был запущен масштабный исследовательский проект с каракатицами: предполагается собрать большую базу данных их движений и отдать её на анализ ИИ. Каракатицы — известные мастера менять расцветку, они способны изобразить на себе самые разные узоры, и далеко не всегда эти узоры нужны для маскировки: перемена окраски у каракатиц порой происходит по каким-то внутренним причинам, и есть все основания полагать, что так они общаются друг с другом.
Другой их инструмент общения — десять щупалец. Сотрудники парижской Высшей нормальной (педагогической) школы в лабораторных экспериментах с каракатицами обнаружили, что у них есть четыре щупальцевых жеста, которые обращены к другой каракатице, и что другая каракатица отвечает такими же жестами. Причём каракатицам важно не только видеть жесты, но и чувствовать волны, которые возникают в результате жестикуляции. Волны получаются непростые: исследователи записывали колебания воды от жестов и посылали их каракатицам, и те реагировали только тогда, когда колебания до них доходили в правильном порядке. Возможно, жестикуляционные волны помогают каракатицам общаться, когда им плохо видно друг друга. Получив эти результаты, исследователи задумались о том, чтобы показать каракатиц ИИ — мало ли какие ещё жесты они используют...
Но что же с домашними животными, теми же котиками? В 2019 году в журнале Animals была опубликована статья о том, что в мяуканье кошек можно найти характерные акустические свойства, связанные с той или иной ситуацией, например, когда они просят есть или оказываются в незнакомом помещении. Исследователей интересовали не столько конкретные ситуации, сколько то, можно ли как-то классифицировать кошачье мяуканье, и оказалось, что у котов действительно есть «устойчивые выражения». Эти результаты взяли на вооружение сотрудники компании по разработке программного обеспечения Akvelon. Их цель была ни много ни мало создать переводчик с кошачьего на человеческий. Они отдали на ИИ-анализ тысячи записей кошачьего мяуканья, которые алгоритм распределил по нескольким группам. Этот алгоритм продолжает учиться по сей день: специальное приложение, установленное на смартфон или какой-то другой гаджет, передаёт в облачный сервис аудиозапись мяуканья, а человеку отправляет перевод того, что сказал питомец. Перевод выглядит как одна-две короткие фразы вроде «хочу есть», «я раздражён» и прочее.
Переводчик ежедневно анализирует миллиарды «мяу». Тем не менее он продолжает допускать грубые ошибки: например, мяуканье кошки, сидящей перед пустой миской, он может перевести как «я тебя люблю». То есть человеку всё равно нужно смотреть на ситуацию здесь и сейчас: сидит ли его кошка спокойно или нетерпеливо ходит туда-сюда, бежит к хозяину или уклоняется от контакта, отвлекается ли на что-то и так далее.
ФУНДАМЕНТАЛЬНОЕ НЕПЕПОНИМАНИЕ
На фоне прогресса ИИ легко представить себе суперприложение, которое переводит на наш язык звуки не только кошек, но и белок, и синиц, и других животных, а наши слова превращает в мяуканье и чириканье. Почему же мы ещё не стали с технологической помощью сказочными «звероустами»? Дело в том, что есть несколько «но», которые заставляют усомниться, что взаимный перевод между человеческим языком и животным в принципе возможен.
По отношению к животным вообще правильнее говорить о коммуникации, коммуникативных сигналах, а если хочется непременно использовать слово «язык», то стоит взять его в кавычки. В человеческом языке смысл рождается из соединения более простых элементов в более сложные: частей слов в целые слова, слов — в предложения. Причём смысл слова и предложения зависит и от того, какие элементы в них использованы, и от того, в каком порядке они идут. Например, прилагательное «чёрный» может относиться к очень-очень многим вещам, а в слове «кошка» скрываются все коты мира. Но когда мы говорим о чёрной кошке, то имеем в виду более или менее конкретного зверя — во всяком случае, более конкретного, чем кошки вообще. Есть примеры посложнее: если про кого-то говорят, что он плохой певец, то обычно подразумевают, что человек плохо поёт, а не что он вообще плохой. Слова повлияли друг на друга, и про их сочетание уже нельзя сказать, что это просто объединение двух смыслов.
Животные тоже складывают элементарные звуковые сигналы в сложные последовательности. Но обычно сложность эта чисто внешняя, звуки сочетаются случайно. Хотя есть примечательные исключения. У восточных синиц и обыкновенных шимпанзе в звуковых сочетаниях может возникать новый смысл по типу «чёрной кошки»: значение двух сигналов складывается, и животное ведёт себя иначе, чем когда слышит их по отдельности. Более того, весной этого года в журналах Science и Science Advances вышли две статьи о том, что обыкновенные шимпанзе и карликовые шимпанзе (бонобо) умеют соединять звуки по типу «плохого певца», то есть значение сложного сигнала не равняется простой сумме значений элементарных сигналов, которые его образовали; причём в целом «язык» обыкновенных шимпанзе оказался более изощрённым, чем «язык» бонобо. Эти исследования проводили в естественной среде обитания животных, то есть новые значения у них рождались не от взаимодействия с людьми.
Ещё один вопрос — способны ли животные, подобно людям, обсуждать прошлое и будущее, то, что находится далеко во времени? В этом есть большие сомнения, хотя могут быть исключения. Например, у дельфинов имеются индивидуальные звуковые подписи, что-то вроде имён, и есть отдельные свидетельства, что дельфины повторяют звуковые подписи особей, которые давно исчезли из их группы. Ещё один пример — орангутаны, у которых есть специальный сигнал тревоги: заметив тигра или ещё какую-нибудь опасность, они издают особый чмокающий звук. В 2018 году в журнале Science Advances была опубликована статья, в которой говорилось, что орангутаны, заметив угрозу, не сразу начинают тревожно чмокать, а сначала стараются бесшумно где-нибудь укрыться, а потом уже подают сигнал тревоги. Задержка составляла в среднем семь минут, но тем не менее всё выглядело так, как будто орангутаны (точнее, орангутанихи — исследователи наблюдали за самками) говорили о прошлом, пусть и очень недалёком.
Что у животных не наблюдается, так это способность обсуждать нечто, никогда не виденное и не слышанное, или формировать осмысленные сообщения из бессмысленных элементов, подобно образованию слов из слогов. Речь не о том, что животные, все или по отдельности, в принципе не могут что-то осмыслить или чему-то научиться. Известный пример — самец бонобо Канзи, который выучил более двух сотен слов. С людьми он общался, указывая на условные символы под названием лексиграммы*, соответствующие тем или иным словам. Есть пример африканского серого попугая Алекса, словарный запас которого составлял около 150 слов, причём он использовал их осмысленно. Когда Алексу демонстрировали объект и задавали вопрос о его форме, цвете или материале, он давал верные ответы. Если попугая спрашивали о разнице между двумя предметами, он отвечал, одинаковые они или разные («да/нет») и в чём разница**. Некоторые собаки способны запоминать сотни слов, которые, впрочем, большей частью являются названиями игрушек. Но это всё результат общения с людьми, и дело не только в человеческих словах. Те же коты редко мяукают в общении друг с другом. Свирепое мяуканье звучит, когда они дерутся; ещё коты мяукают в поисках кошки. Однако в целом разнообразные «мяу» у них зарезервированы для людей. Долгая жизнь бок о бок с человеком привела к тому, что у домашних котиков образовался вот такой канал связи с представителями другого вида. Но общение кошек, шимпанзе, попугаев, китов и других животных между собой мы вряд ли сможем до конца понять. Коммуникативные системы животных слишком отличаются от нашего языка, чтобы допускать здесь сколько-нибудь полный перевод.
Все человеческие языки, при всём их разнообразии, принадлежат одному биологическому виду Homo sapiens. Да, есть масса примеров, когда для каких-то слов нет точного перевода с одного языка на другой, когда какие-то понятия оказываются непереводимы из-за разницы культур. Однако общность мировосприятия делает возможным какое-никакое понимание. А насколько мы способны понять мировосприятие пусть не кита и не кота, но хотя бы шимпанзе? Обезьяна чувствует голод, ей бывает холодно или жарко, но она живёт с этими ощущениями в другом мире, нежели человек***. Поэтому исследователи в связи с проблемой межвидового общения вспоминают фразу философа Людвига Витгенштейна, который однажды сказал, что даже если бы лев мог говорить, мы бы его не поняли. Если и допустить, что у львов есть свои философы, что они способны между собой обсуждать метафизические проблемы, мы с ними их обсудить не сможем — их речь была бы обусловлена жизненными контекстами, нам абсолютно чуждыми.
ПОНИМАНИЕ БЕЗ ЯЗЫКА
Значит ли это, что проблема понимания животных не стоит усилий? Понимание не обязательно подразумевает обсуждение абстрактных категорий бытия. Возьмём певчих птиц: мы слышим песню самца, предназначенную слуху самки, и не улавливаем всю полноту сообщения, но более или менее точно представляем ситуацию, в которой птица использует конкретную песню. Здесь пригодится ИИ, который сумеет найти корреляции в огромном объёме данных (пение изучают давно, и у орнитологов накопилась масса самых разных аудиозаписей) и поможет понять, как оттенки коммуникативных сигналов связаны с тем или иным поведением. Более того, ИИ ведь способен не только анализировать, но и генерировать новые варианты сообщений. Давая животным послушать синтетические ИИ-сигналы, можно уточнить правила, соотносящие поведение с тем или иным «высказыванием». Генеративные алгоритмы ИИ могут помочь полнее описать коммуникативные контексты (брачные, игровые, контексты поиска пищи) и одновременно чётче определить границу, за которой начинается то самое фундаментальное непонимание, связанное с разными способами существования. Скажем, сообщив кашалотам некий сигнал, который ИИ составит по мотивам их код, исследователи рассчитывают увидеть реакцию, проясняющую какие-то вещи в их поведении и вообще в биологии. Но это не значит, что таким образом удастся установить точный перевод кашалотовых код на наш язык.
Хотя люди и животные по-разному проживают свои жизни, сходства между ними тоже немало. В частности, при всех отличиях мозг человека и мозг шимпанзе имеют много общего. Хорошо известно, какие зоны нашего мозга занимаются языковой и речевой деятельностью, но эти зоны ведь благодаря чему-то развились. Изучая общение тех же шимпанзе, сопоставляя их коммуникативные сигналы с поведением и нейробиологическими данными, можно понять, как шло развитие языковых способностей в человеческой эволюции.
Кроме того, у животных, как и у нас, есть эмоции, они испытывают стресс, злятся, радуются. В целом мы способны довольно точно понять, хорошо животному или плохо. Помимо поведенческих, внешних признаков есть признаки физиологические: при стрессе, например, повышается уровень определённых гормонов, меняется дыхание и сердцебиение, продолжительный стресс сказывается на пищеварении и состоянии шерсти или перьев. Но брать кровь на анализ гормонов хлопотно, и проще было бы по поведению, а ещё лучше по голосу понять, как животное себя чувствует.
Такие исследования есть, и проводят их как раз с помощью ИИ. В 2022 году в Scientific Reports была опубликована статья, авторы которой сделали почти семь с половиной тысяч аудиозаписей с хрюкающими и взвизгивающими свиньями разного возраста и в разных ситуациях. ИИ должен был научиться отличать положительные свиные эмоции от отрицательных, и он научился: когда алгоритм потом проверяли уже на других свиньях, он угадывал их эмоции с более чем девяностопроцентной точностью. Одними свиньями дело не ограничивается: в том же Scientific Reports в минувшем августе вышла статья с описанием алгоритма, анализирующего голоса коров, лошадей, овец и другого домашнего скота на предмет хорошего или плохого настроения. У подобных исследований может быть очевидное практическое приложение, ведь продуктивность сельскохозяйственных животных зависит от того, в каком состоянии они находятся. Отрицательные эмоции у коровы, козы, курицы (эмоции кур тоже пробуют анализировать с помощью ИИ) могут быть связаны с хроническим недомоганием или плохими условиями содержания. Искусственный интеллект по внешнему виду и голосу сможет быстро определить, с каким животным творится неладное и не пора ли задуматься о реконструкции фермы в целом. Впрочем, подобные исследования проводят не только с сельскохозяйственными животными: в прошлом году в журнале Neural Computing and Applications вышла статья, в которой методами глубокого машинного обучения пробовали разобраться с поведением собак: их эмоции считывали по голосу, по движениям хвоста и по выражению морды.
Ещё одна область, в которой животных изучают с помощью ИИ, — экология. Правда, экологам важно не столько понимать животных, сколько просто отмечать их присутствие. Допустим, надо узнать, сколько в лесу живёт птиц вообще или есть ли там какой-то конкретный вид. Можно отправиться бродить по лесу с биноклем либо запустить дрон, который будет считать птиц сверху, а можно записать лесные звуки и по звукам определить, кто и в каких местах леса обитает. Определять будет ИИ: обученный на большом массиве аудиозаписей, он способен верно распознать птичьи песни, даже если они имеют отклонения и вариации. Если алгоритм сумеет по общим звуковым параметрам высчитывать количество лесных певцов, то это даст примерную оценку количества птиц того или иного вида. И, разумеется, аудио-ИИ можно обучать на звуках, издаваемых не только птицами, но и насекомыми, зверями, амфибиями.
Со звуками амфибий, к примеру, работают сотрудники Музея естественной истории Сан-Диего (США). В водоёмах Южной Калифорнии когда-то в изобилии водилась калифорнийская красноногая лягушка, но со временем её становилось всё меньше и меньше, во многом из-за инвазивной лягушки-быка. В XXI веке численность калифорнийской красноногой лягушки попытались восстановить, расселяя по прудам лягушек из других популяций и одновременно изгоняя оттуда лягушку-быка. Но если бы лягушка-бык по-прежнему там осталась, природоохранные усилия пошли бы прахом. Экологи решили проверять водоёмы на предмет чужеродной лягушки с помощью ИИ. Пока что результаты обнадёживающие: проанализировав тысячи аудиозаписей, ИИ голоса лягушки-быка не нашёл.
В проектах, связанных с экологическим аудио-ИИ, нередко предполагается, что соответствующее приложение устанавливается на смартфон, и тогда динамику некоторых видов в экосистеме можно будет наблюдать благодаря туристам и отдыхающим.
На самом деле понимание, пусть и приблизительное, звуковых сигналов животных в экологии тоже полезно. Например, если требуется увести группу кашалотов оттуда, где им угрожает какая-нибудь опасность, то наиболее понятным предостережением для них будет последовательность звуков на их «языке», и эту последовательность лучше всего составит тренированный ИИ. Или можно представить успокоительное ИИ-мычание для стада коров, которые вдруг разволновались. В общем, даже если мы (вряд ли) будем обсуждать с котами и китами вопросы бытия (хотя кто знает, как оно повернётся в будущем), машинные алгоритмы в коммуникации с животными могут оказаться полезными.