martes, 5 de septiembre de 2023

El Ruido, los Simpsons y buscando a Wally en un mar de doppelgangers

Hagamos un pequeño experimento.

Supongan que queremos ver todos los episodios de Los Simpsons, pero tenemos poco tiempo, así que vamos a verlos todos al unísono.

Una locura, ¿no?

Hay personas que lo han hecho. Por ejemplo, este video muestra un montón de episodios de la serie simultáneamente.

Más allá de cuestionar la sabiduría de una persona, o prescribir a qué debe dedicar su tiempo libre, lo cierto es que este ejercicio nos entrega lecciones interesantes sobre el tema de hoy: el ruido y la IA.

Enfoquémonos, por ahora, únicamente en el audio del video anterior.

Noten que los primeros minutos son razonablemente inteligibles. Se escucha a lo lejos la música del intro de la serie.

Las razones son evidentes. La mayoría de los capítulos empiezan más o menos igual.

Sin embargo, pongan atención a lo que sucede luego que el intro termina en la mayoría de los capítulos:

Ruido.


Definiremos Ruido, de manera simplista. 

Ruido, como una señal aleatoria e ininteligible. Es muy difícil encontrarle pies y cabeza al audio del video una vez el intro termina.

Ruido, como algo que se crea a partir del exceso de información. Mientras más capítulos combinamos en un solo audio, más "ruidoso" es. 

Ruido, como algo que, en grandes cantidades, nos limita el acceso a la información, al mensaje que otra persona quisiera que recibamos. A modo de prueba, traten de discernir el diálogo del capítulo que realmente quisieran ver... 

Buena suerte con ello. 

En la vida diaria encontramos ruido en todas partes: cuando estamos conversando con otra persona en una calle muy transitada y nuestras voces se opacan con los sonidos de decenas de vehículos. Cuando intentamos entender lo que nos dice el mesero en un restaurante con muchas personas hablando al tiempo. Incluso, cuando estamos al pie de una cascada y lo único que se escucha es el sonido de millones de gotas golpeando las rocas al tiempo. 

Sin embargo, el ruido no se limita únicamente a sonidos. El concepto es bastante más amplio. Poremos generalizarlo, informalmente, como cualquier cosa que nos dificulte discernir información útil a partir de lo que percibimos.


Hablemos del ruido en Internet. 

No me refiero al ruido eléctrico en las redes que transmiten los datos de Internet, sino a una definición de ruido que, aunque informal, es más cercana al usuario final. 

Aquel que encontramos cuando buscamos activamente información en Internet. 

Para eso hay que recordar, como siempre, un poco de historia. 

Cuando Internet comenzó a popularizarse, a principios de la década de los 90, no habían mecanismos eficientes para buscar información. No existía Google ni nada similar. Era difícil discernir información útil de manera rápida. En otras palabras, había mucho "ruido". 

La única forma de buscar información era abrir, uno por uno, los sitios web que uno conociera, leer sus contenidos hasta encontrar lo que se necesitara. 

Recuerdo, en aquella época, la única ayuda que tenía a mi disposición, era un libro físico, un catálogo que referenciaba los principales sitios de Internet que uno podía visitar, junto con una descripción general de sus contenidos. 

Posteriormente, se hizo popular la primera versión de Yahoo, sitio web que, en sus comienzos, no era más que un directorio de sitios de Internet, categorizados en una estructura jerárquica, pero sin capacidades de búsqueda por términos, como estamos acostumbrados en la actualidad. 

En esencia, la búsqueda en Internet no era muy diferente a jugar "buscando a Wally". Navegar en un mar de personas hasta encontrar al sujeto de rayas rojas.

Al poco tiempo, la funcionalidad de búsqueda por palabras empezó a tomar forma en Yahoo. Le siguieron otros sitios que le hicieron la competencia: Lycos y Altavista, entre otros. 

Finalmente, Google, en 1998, introdujo un algoritmo de búsqueda significativamente más efectivo que los existentes. Rápidamente se extendió su uso y consiguió el monopolio de las búsquedas por Internet. 

La principal característica de un buscador es que reduce el "ruido", haciendo más fácil discernir la información que necesitamos del resto de los contenidos en Internet. 

Más específicamente, a partir de los términos de búsqueda, un buscador ordena por relevancia todos los sitios que tiene indexados. 

Haciendo la analogía con Wally, sería como reducir la saturación de color a todos los personajes que no son Wally, para que sus rayas rojas resalten sobre la multitud.

Durante muchos años hemos tenido la fortuna de acceder fácilmente a información específica gracias a los buscadores que filtran solo los sitios relevantes y descartan el resto. 

Sin embargo, en los últimos años percibo que la calidad de las búsquedas se ha deteriorado. 

Antiguamente, la primera página de resultados de Google contenía los sitios más relevantes para resolver mis problemas. Hoy ese lugar lo ocupan sitios de dudosa reputación y que no siempre responden adecuadamente a lo que necesito. 

Una de las posibles causas es el uso intensivo de "Optimización de Motores de Búsqueda" (SEO). 

SEO es un conjunto de técnicas para hacerle creer a un buscador que un sitio tiene mayor relevancia que otros cuando se usan ciertos términos de búsqueda. 

Volviendo a Wally, el análogo sería agregar a la ilustración muchísimos personajes con diferente fisionomía que Wally, pero vestidos con ropa de rayas rojas más gruesas y saturadas. Aunque nos demore unas fracciones de segundo descartarlos, al ser tan numerosos, encontrar al verdadero nos tomaría más tiempo. 

En la práctica, el SEO disminuye la capacidad de un buscador de reducir el "ruido". Encontrar lo que buscamos se hace nuevamente más difícil, ya que debemos esforzarnos más en discernir la información relevante de la que no lo es.

¿Qué tiene esto que ver con Inteligencia Artificial? 

Recordemos nuevamente el tema de mis dos últimas publicaciones: Los LLM

Los LLM permiten a un computador sintetizar fácilmente textos sobre cualquier tema, con una redacción similar a cómo lo haría un ser humano. En mis publicaciones previas discutí algunas implicaciones de esto. 

La que nos concierne en este post es su potencial como fuente de ruido

Con los LLM corremos el riesgo que la búsqueda de información se torne aún mas difícil. 

Imaginen un usuario malicioso que quiera esparcir desinformación (Fake News) por Internet. Una forma sencilla de hacerlo sería crear múltiples sitios nuevos, o hacer muchas publicaciones en sitios existentes, que contengan texto generado por un LLM. 

Si para un humano normal es difícil detectar la autoría artificial de estos textos, para un computador también es complejo. Hasta la fecha no he encontrado evidencia de formas razonablemente efectivas de discriminar entre textos escritos por humanos y textos generados por un LLM. 

Un ejemplo real de este problema es la aparición de libros electrónicos escritos por LLM. En algunos casos la dificultad de distinguir un libro "real" de uno generado puede ser un peligro serio.

Si bien es posible que ese problema se resuelva en el futuro, lo cierto es que, en el intertanto, un LLM utilizado maliciosamente tiene el potencial de deteriorar las búsquedas de información en Internet. 

Colocando a Wally en una situación análoga, sería como agregar un sinnúmero de Doppelgangers, vestidos igual que nuestro personaje. 

En la superficie, estas imitaciones serían casi indistinguibles. Solo al acercarse a una de ellas se notarían las diferencias. Una oreja en una posición ligeramente incorrecta, un dedo de sobra en una de sus manos, un ojo de un color ligeramente incorrecto... 

Bajo esas condiciones, el tiempo perdido en la búsqueda pasa a ser excesivo. 

Pero eso no es lo peor. 

Si la capacidad de síntesis de los LLM sigue mejorando, la dificultad para discriminar textos humanos de textos sintéticos se haría cada vez más difícil. Podríamos llegar a un punto en que los doppelgangers sean tan similares a Wally que, en el momento que encontremos al auténtico, podríamos no tener la suficiente certeza de si es el real o una imitación. 

Tendríamos a Wally en frente de nosotros y lo pasaríamos por alto...

...y quedaría perdido en un mar de doppelgangers.

2 comentarios:

Anónimo dijo...

Muy interesante toda la reflexión y muy claros los ejemplos. Me permitió ver de un modo distinto el problema al que se enfrentan los científicos de datos. Me gustaría profundizar en el tema. ¡Gracias por escribir!

Anónimo dijo...

Un tema muy interesante, realmente no me había puesto a pensar en la capacidad de la IA en este aspecto, cada vez hay mas ruido en Internet, y no todas las personas cuentan con la educación o conocimiento para distinguir lo real de lo falso, gracias por compartir sus pensamientos, espero el próximo.

Pd: Hay un "Poremos" en vez de "Podemos" en el párrafo justo antes de "Hablemos del ruido en Internet"