:format(webp)/YXJ0aWNsZXMvaW1hZ2UvMjAyNi81L21vc2hlbm5pay1zaXRlLXdpZGUtMS5qcGc.webp)
Мама звонит и просит денег? Как распознать дипфейк — пошаговая инструкция
Эксперт Рыбников: неестественные паузы в аудиосообщении указывают на дипфейкЗлоумышленники активно применяют технологии искусственного интеллекта для создания фальшивых голосовых сообщений. С помощью нейросетей они имитируют речь знакомого человека, что вводит жертву в заблуждение и снижает бдительность. Об этом рассказал в беседе с RT старший преподаватель кафедры инструментального и прикладного программного обеспечения РТУ МИРЭА Андрей Рыбников.
По его объяснению, алгоритм машинного обучения предварительно анализирует реальные записи голоса потенциальной жертвы или ее окружения. Нейросеть выделяет устойчивые акустические признаки — индивидуальный тембр, характерные интонации, речевые обороты. Затем на основе собранных данных программа синтезирует новое сообщение, заново выстраивая звуковой ряд по статистическим закономерностям. Как подчеркнул специалист, модель не копирует исходную запись дословно, а воссоздает ее с нуля. В результате формируется сигнал, вызывающий у человека эффект узнавания. Мозг опознает знакомый голос, и критическое восприятие информации притупляется.
Однако, по словам Рыбникова, идеальной имитации живой речи нейросети пока не достигают. Технология достаточно точно передает общий тембр и интонационный рисунок, но не воспроизводит все нюансы естественного звучания. Из-за этого в синтезированной записи появляются небольшие сбои: неестественно расставленные паузы, смещенные ударения в словах, колебания интонации там, где их быть не должно. Эксперт обратил внимание: эти отклонения становятся заметны при внимательном прослушивании, особенно в голосовых сообщениях без видеоряда, когда внимание концентрируется исключительно на акустике.
Чтобы распознать подделку, необходимо обращать внимание на несколько деталей, советует Рыбников. Во-первых, в искусственно сгенерированной речи тембр на отдельных словах может вести себя нестабильно — это особенно заметно на длинных или редко используемых словах. Во-вторых, дыхание в фальшивой записи звучит подозрительно ровно или почти полностью отсутствует, тогда как живой человек дышит неравномерно. В-третьих, паузы часто воспринимаются на слух как искусственно вставленные, а не естественно возникающие в процессе разговора. Кроме того, содержание сообщения может расходиться с привычной манерой общения знакомого человека: появляются нетипичные для него формулировки, избыточные пояснения или, наоборот, подозрительно упрощенная речь. Мошенники обычно вставляют срочную просьбу — перевести деньги, назвать код из СМС или выполнить другое действие немедленно. Текст, как пояснил эксперт, задается злоумышленниками извне, а синтезированный голос лишь озвучивает его, не внося индивидуальных речевых привычек.
Тем не менее, технологии генерации речи совершенствуются стремительными темпами, предупредил собеседник RT. Современные образцы фальшивых записей звучат весьма убедительно, особенно в ситуации, когда человек находится в состоянии спешки, стресса или подвергается эмоциональному давлению. В таких условиях люди просто не всматриваются в акустические нюансы, если сообщение приходит от знакомого контакта и содержит безотлагательную просьбу. Именно на этот эффект и рассчитывают злоумышленники.
Если возникло хотя бы малейшее сомнение в подлинности голосового сообщения, Рыбников рекомендовал действовать по четкому алгоритму. Необходимо получить подтверждение информации через другой канал связи, не полагаясь на одну лишь аудиозапись. Оптимальный вариант — самостоятельно позвонить человеку или написать ему в том мессенджере, где ранее уже велась переписка. В случае невозможности дозвониться следует связаться с общими знакомыми, чтобы перепроверить полученные данные. Только после этого можно принимать какое-либо решение, особенно если речь идет о деньгах, личной информации или срочных действиях.