/ miércoles 28 de septiembre de 2022

Deepfakes: Una amenaza que no está lejos

Las falsificaciones tanto de audio como de video ya son posibles con el desarrollo de tecnologías de aprendizaje automático y no está lejos el día en que las personas puedan ser víctimas de este tipo de ilícitos

Imagina el siguiente escenario. Suena un teléfono. Un oficinista responde y escucha a su jefe, quien le dice que olvidó transferir dinero a un cliente y que necesita que él lo haga. Así que le dan la información de la transferencia bancaria, la cual realiza inmediatamente.

Unos minutos después, el mismo empleado observa cómo su jefe entra por la puerta. Y resulta que la voz al otro lado de la llamada no era su jefe. De hecho, ni siquiera era un humano, sino una muestra de audio generada por una máquina diseñada para sonar exactamente como su jefe.

Puede interesarte: ¿Qué es la Valija del Tesoro, la nueva modalidad de ciberestafa?

Ya se han producido ataques como este que utilizan audio grabado, y es posible que las falsificaciones profundas de audio conversacional no estén muy lejos.

Los llamados Deepfakes, tanto de audio como de video, solo han sido posibles con el desarrollo de tecnologías sofisticadas de aprendizaje automático en los últimos años.

Esto ha traído consigo un nuevo nivel de incertidumbre en torno a los medios digitales. Para detectar falsificaciones profundas, muchos investigadores han recurrido al análisis de artefactos visuales (fallas mínimas e inconsistencias) que se encuentran en las falsificaciones profundas de video.

Sin embargo, los deepfakes de audio potencialmente representan una amenaza aún mayor, ya que las personas a menudo se comunican verbalmente sin video, por ejemplo, a través de llamadas telefónicas, radio y grabaciones de voz. Estas comunicaciones de solo voz amplían en gran medida las posibilidades de que los atacantes utilicen deepfakes.

Para detectar falsificaciones profundas de audio, nosotros y nuestros colegas investigadores de la Universidad de Florida hemos desarrollado una técnica que mide las diferencias acústicas y dinámicas de fluidos entre las muestras de voz creadas orgánicamente por hablantes humanos y las generadas sintéticamente por computadoras.

Voces orgánicas contra sintéticas

Los seres humanos vocalizan forzando el aire sobre las diversas estructuras del tracto vocal, incluidas las cuerdas vocales, la lengua y los labios. Al reorganizar estas estructuras, altera las propiedades acústicas de su tracto vocal, lo que le permite crear más de 200 sonidos o fonemas distintos.

Es posible que las "falsificaciones profundas" de audio conversacional no estén muy lejos de nosotros / Cortesía | PEXELS

Sin embargo, la anatomía humana limita fundamentalmente el comportamiento acústico de estos diferentes fonemas, lo que da como resultado una gama relativamente pequeña de sonidos correctos para cada uno.

Por el contrario, las falsificaciones profundas de audio se crean permitiendo primero que una computadora escuche las grabaciones de audio de un hablante de la víctima objetivo.

Dependiendo de las técnicas exactas que se utilicen, es posible que la computadora necesite escuchar tan solo de 10 a 20 segundos de audio. Este audio se utiliza para extraer información clave sobre los aspectos únicos de la voz de la víctima.

El atacante selecciona una frase para que hable el deepfake y luego, utilizando un algoritmo modificado de texto a voz, genera una muestra de audio que suena como si la víctima dijera la frase seleccionada. Este proceso de creación de una sola muestra de audio falsificada se puede lograr en cuestión de segundos, lo que potencialmente permite a los atacantes suficiente flexibilidad para usar la voz falsa en una conversación.

Detección de deepfakes de audio

El primer paso para diferenciar el habla producida por humanos del habla generada por deepfakes es comprender cómo modelar acústicamente el tracto vocal. Afortunadamente, los científicos tienen técnicas para estimar cómo sonaría alguien, o algún ser como un dinosaurio, en función de las mediciones anatómicas de su tracto vocal.

Hicimos al revés. Al invertir muchas de estas mismas técnicas, pudimos extraer una aproximación del tracto vocal de un hablante durante un segmento del habla. Esto nos permitió observar de manera efectiva la anatomía del hablante que creó la muestra de audio.

➡️ Suscríbete a nuestro Newsletter y recibe las notas más relevantes en tu correo

A partir de aquí planteamos la hipótesis de que las muestras de audio deepfake no estarían limitadas por las mismas limitaciones anatómicas que tienen los humanos. En otras palabras, el análisis de muestras de audio falsificadas simulaba formas del tracto vocal que no existen en las personas.

Por qué importa todo esto

El mundo de hoy está definido por el intercambio digital de medios e información. Todo, desde noticias hasta entretenimiento y conversaciones con seres queridos, generalmente ocurre a través de intercambios digitales. Incluso en su infancia, los videos y audios falsos socavan la confianza que las personas tienen en estos intercambios, limitando efectivamente su utilidad.

Si el mundo digital va a seguir siendo un recurso crítico para la información en la vida de las personas, las técnicas efectivas y seguras para determinar la fuente de una muestra de audio son cruciales.

* Informática y Ciencias de la Información e Ingeniería de la Universidad de Florida.

Lee también otros contenidos de Normal ⬇️

Imagina el siguiente escenario. Suena un teléfono. Un oficinista responde y escucha a su jefe, quien le dice que olvidó transferir dinero a un cliente y que necesita que él lo haga. Así que le dan la información de la transferencia bancaria, la cual realiza inmediatamente.

Unos minutos después, el mismo empleado observa cómo su jefe entra por la puerta. Y resulta que la voz al otro lado de la llamada no era su jefe. De hecho, ni siquiera era un humano, sino una muestra de audio generada por una máquina diseñada para sonar exactamente como su jefe.

Puede interesarte: ¿Qué es la Valija del Tesoro, la nueva modalidad de ciberestafa?

Ya se han producido ataques como este que utilizan audio grabado, y es posible que las falsificaciones profundas de audio conversacional no estén muy lejos.

Los llamados Deepfakes, tanto de audio como de video, solo han sido posibles con el desarrollo de tecnologías sofisticadas de aprendizaje automático en los últimos años.

Esto ha traído consigo un nuevo nivel de incertidumbre en torno a los medios digitales. Para detectar falsificaciones profundas, muchos investigadores han recurrido al análisis de artefactos visuales (fallas mínimas e inconsistencias) que se encuentran en las falsificaciones profundas de video.

Sin embargo, los deepfakes de audio potencialmente representan una amenaza aún mayor, ya que las personas a menudo se comunican verbalmente sin video, por ejemplo, a través de llamadas telefónicas, radio y grabaciones de voz. Estas comunicaciones de solo voz amplían en gran medida las posibilidades de que los atacantes utilicen deepfakes.

Para detectar falsificaciones profundas de audio, nosotros y nuestros colegas investigadores de la Universidad de Florida hemos desarrollado una técnica que mide las diferencias acústicas y dinámicas de fluidos entre las muestras de voz creadas orgánicamente por hablantes humanos y las generadas sintéticamente por computadoras.

Voces orgánicas contra sintéticas

Los seres humanos vocalizan forzando el aire sobre las diversas estructuras del tracto vocal, incluidas las cuerdas vocales, la lengua y los labios. Al reorganizar estas estructuras, altera las propiedades acústicas de su tracto vocal, lo que le permite crear más de 200 sonidos o fonemas distintos.

Es posible que las "falsificaciones profundas" de audio conversacional no estén muy lejos de nosotros / Cortesía | PEXELS

Sin embargo, la anatomía humana limita fundamentalmente el comportamiento acústico de estos diferentes fonemas, lo que da como resultado una gama relativamente pequeña de sonidos correctos para cada uno.

Por el contrario, las falsificaciones profundas de audio se crean permitiendo primero que una computadora escuche las grabaciones de audio de un hablante de la víctima objetivo.

Dependiendo de las técnicas exactas que se utilicen, es posible que la computadora necesite escuchar tan solo de 10 a 20 segundos de audio. Este audio se utiliza para extraer información clave sobre los aspectos únicos de la voz de la víctima.

El atacante selecciona una frase para que hable el deepfake y luego, utilizando un algoritmo modificado de texto a voz, genera una muestra de audio que suena como si la víctima dijera la frase seleccionada. Este proceso de creación de una sola muestra de audio falsificada se puede lograr en cuestión de segundos, lo que potencialmente permite a los atacantes suficiente flexibilidad para usar la voz falsa en una conversación.

Detección de deepfakes de audio

El primer paso para diferenciar el habla producida por humanos del habla generada por deepfakes es comprender cómo modelar acústicamente el tracto vocal. Afortunadamente, los científicos tienen técnicas para estimar cómo sonaría alguien, o algún ser como un dinosaurio, en función de las mediciones anatómicas de su tracto vocal.

Hicimos al revés. Al invertir muchas de estas mismas técnicas, pudimos extraer una aproximación del tracto vocal de un hablante durante un segmento del habla. Esto nos permitió observar de manera efectiva la anatomía del hablante que creó la muestra de audio.

➡️ Suscríbete a nuestro Newsletter y recibe las notas más relevantes en tu correo

A partir de aquí planteamos la hipótesis de que las muestras de audio deepfake no estarían limitadas por las mismas limitaciones anatómicas que tienen los humanos. En otras palabras, el análisis de muestras de audio falsificadas simulaba formas del tracto vocal que no existen en las personas.

Por qué importa todo esto

El mundo de hoy está definido por el intercambio digital de medios e información. Todo, desde noticias hasta entretenimiento y conversaciones con seres queridos, generalmente ocurre a través de intercambios digitales. Incluso en su infancia, los videos y audios falsos socavan la confianza que las personas tienen en estos intercambios, limitando efectivamente su utilidad.

Si el mundo digital va a seguir siendo un recurso crítico para la información en la vida de las personas, las técnicas efectivas y seguras para determinar la fuente de una muestra de audio son cruciales.

* Informática y Ciencias de la Información e Ingeniería de la Universidad de Florida.

Lee también otros contenidos de Normal ⬇️

Local

Con grandes obras Coahuila tiene rumbo: Manolo

En este 2024 se invierten mil 370 millones de pesos en grandes obras, además de las inversiones en obras sociales al interior de las colonias, barrios y ejidos en todas las regiones del estado

Torreón

Construcción del Giro Independencia, a punto de concluir

El avance de la obra es ya superior al 95 por ciento, por lo que terminará a tiempo

Torreón

Cerrará el SIMV el 2024 con metas superadas en bacheo y pavimentación

Van más 640 mil metros cuadrados de carpeta asfáltica rehabilitados

Torreón

La Laguna en los libros Guinness: moño rosa, sotol gigante y más

En Coahuila hay en total 8 récords en diferentes municipios.

Local

El peligro de los 'moyotes' en la Comarca Lagunera: enfermedades y cambio climático

Los mosquitos pueden ser los insectos más peligrosos y letales, acaban con millones de vidas en todo el mundo.

Policiaca

Por robo a menor se generó riña que terminó con disparos: hay lesionados de gravedad

Testigos indicaron que todos son familia y se trata de personas conflictivas