TEMPORADA 1 | EP. 1

Disipando el humo: ¿Qué es en realidad la ciencia de datos?

¿Es cierto que los datos son el nuevo petróleo? La explotación de estos datos, a caballito de las nuevas tecnologías, trajo necesidades, problemas y hasta trabajos enteros que antes no existían.

En el capítulo de hoy, vamos a hablar de cuáles son las distintas partes de un proceso de datos y qué hacen los roles que se ocupan del análisis, ciencia, ingeniería y arquitectura de datos.

Para explicar qué es la Ciencia de Datos y qué son los algoritmos, hay que entender qué es la “realidad” y cómo se puede traducir en datos.

Este es un desafío que requiere considerar múltiples aristas a la vez, desde lo técnico hasta lo sociopolítico.

Además, cómo el uso de machine learning e inteligencia artificial se utiliza para combatir la pornografía infantil y, en el futuro, para la optimización de energías renovables.

COMPARTÍ ESTE EPISODIO

(Bloque 00 – Introducción)
[Hernán Escudero]
¿Te pasó alguna vez de sentir que el algoritmo te observa o te escucha?

Bueno, te tengo buenas y malas noticias.
La buena es que el algoritmo como tal no existe: no es una entidad que esté viva, así que por el momento falta para llegar a Skynet.

La mala es que el algoritmo es, en esencia, una serie de cuentas matemáticas que hace alguien (o alguienes) con un objetivo concreto, el cual muchas veces no es tan noble como pareciera en un principio.

Para hablar de lo que se conoce genéricamente con términos como “big data”, “ciencia de datos” o “algoritmos”, hay que arrancar por el principio: disipar el humo.

(Pieza Artística APERTURA – inicio)
[Hernán Escudero]
¡Hola! Soy Hernán Escudero, y estás escuchando Buena Data, un podcast para entender, desmitificar y cuestionar el mundo de los datos y el uso de algoritmos.

Aquí vamos a hablar de la ética en la inteligencia artificial, de los sesgos en la tecnología y cómo nos afectan como sociedad, discutiendo la realidad de una disciplina en constante evolución y cuyo crecimiento y omnipresencia nos afecta a niveles que aún no conocemos del todo.

En el capítulo de hoy, vamos a hablar de cuáles son las distintas partes de un proceso de datos y qué hacen los roles que se ocupan del análisis, ciencia, ingeniería y arquitectura de datos.

Así que sin más preámbulos, arranquemos con Buena Data.
(Pieza Artística APERTURA – fin)
(Bloque 01)
[Hernán Escudero]
Llegás a tu casa y te tirás en el sillón. Te sacás el calzado, te disponés a relajarte lo más bien prendiendo la tele y poniendo YouTube.

En ese preciso instante en que la pantalla carga y técnicamente, puede que incluso antes, en el fondo empieza a correr silenciosamente un sistema increíblemente complejo de procesos que se disparan de manera encadenada.

El click que te llevó al video que querés ver se almacena en bases de datos gigantes, junto con información sobre: cuál fue el dispositivo desde el cual lo viste, tu proveedor de internet y otros tantos aspectos más de tu interacción con el contenido. Todo, absolutamente todo, es un dato, un recorte de la realidad sobre un aspecto determinado: en este caso, sobre el tiempo y las maneras en las que una determinada plataforma, o sea Youtube, captó tu atención.

¿Y qué se hace con eso?

Acá es donde la cosa se pone un poco más interesante. En los últimos años se produjo un aumento exponencial en la cantidad de datos que producimos como sociedad.

Podríamos entrar en una discusión sobre si realmente hace falta almacenar todo y sobre si todo dato es útil… y lo vamos a hacer en próximos capítulos.

Para manejar todo eso surgieron roles especializados, cada uno de ellos especializado en una parte de todo el proceso, y como diría Liam Neeson, con un set particular de habilidades.

A muy grandes rasgos, podemos decir que lo que se conoce como ciencia de datos- y estoy haciendo comillas en el aire- en tanto área, tiene cuatro grandes subdominios: análisis, ciencia, ingeniería y arquitectura de datos.

Es importante tener presente que estos roles y profesiones modernas son, justamente, nuevas. Lo que quiere decir que las divisiones y fronteras entre cada ámbito muchas veces es un poco difusa.

Empecemos por las primeras dos: análisis y ciencia.
Como primera aproximación, es útil simplificarlo de esta manera: mientras que une analista se para en el presente y mira el pasado para extraer información, une científico se para en el presente y mira para adelante, proyectando el presente mediante modelos de aprendizaje automático, comúnmente llamado machine learning.

Y acá llegamos finalmente a… los algoritmos!

Los algoritmos son cuentitas matemáticas de mayor o menor complejidad. Pueden ir desde la más clásica regresión lineal que se ve en los secundarios hasta multiplicaciones de matrices en dimensiones y números que rozan lo inimaginable.

O directamente lo imposible de entender. En próximos capítulos vamos a hablar de la explicabilidad en los algoritmos, que es un tema más que picante para pensar los límites éticos en la ciencia de datos.

Estos algoritmos para funcionar usan grandes bases de datos, que contienen información de lo más variopinta, dependiendo de qué es lo que se esté recolectando en un caso específico. En este punto, cabe mencionar que los límites tanto tecnológicos como legales que marcan cuáles son los datos que se pueden almacenar, de qué manera y por cuánto tiempo se van modificando de manera constante.

Y por suerte o por desgracia, los algoritmos son por momentos bastante caprichosos y necesitan tener los datos estructurados y organizados de formas muy específicas para funcionar. Aquí es donde entra el rol de la ingeniería de datos, que es el tercer área. Esta parte se enfoca en el armado de estrategias de extracción, transformación y carga de datos -en la jerga se los llama ETLs, por las siglas en inglés de extraction, transform and load- que permitan que los algoritmos puedan acceder a los datos con la calidad, robustez y forma que estos requieren.

Estos sistemas tienen muchísimos componentes y estos están conectados de distintas maneras; cajitas de diversos tamaños con funciones, ensambladas en una telaraña de tecnologías, lenguajes de programación, servidores y computadoras físicas o virtuales que inclusive pueden estar o no en la nube. Aquí es donde la arquitectura de datos, que es la cuarta parte, hace lo suyo, organizando todas estas pequeñas partes y supervisando cómo funciona el sistema.

(TESTIMONIOS – inicio)
[Julieta Santarelli]
Hola, mi nombre es Julieta Santarelli y lidero el equipo de Business Intelligence (BI) y Data Science en “LIBRODEPASES”.
Mi objetivo desde el lado de BI es obtener a través de los datos el mejor reflejo posible de la realidad y que los equipos puedan basar sus decisiones en estos.
En lo cotidiano, en nuestro dia a dia, trabajo por un lado con el equipo de BI en todo lo que es la conexión de las fuentes, transformación de datos, armado de métricas y consolidación de todas estas fuentes de información en un datawarehouse. Y también en el armado de reportes para dejar la información a disposición de todos los equipos de la empresa.

[Miranda Chab]
Mi nombre es Miranda Chab y trabajo como Data Scientist Regional, para toda la región de Sudamérica en una compañía farmacéutica.
Mi trabajo es, desde lo cotidiano, es entender, modificar y escribir código dependiendo de si está hecho o no para hacer distintos procesos. A veces también actuó un poco a modo de productora en algunos proyectos globales, aparte de mi rol de Data Scientist, representando a la región y diciendo:
“esto lo podemos hacer”, “no lo podemos hacer”, “nos interesa para tal cosa”, “no nos sirve”, “sí nos sirve”, etc.

[Dario Abadie]
Hola a todos, mi nombre es Dario Abadie y trabajo como Data Engineer en “Deployr”.
Mi trabajo consiste básicamente en proveer de datos a los equipos de ciencia para que ellos puedan llevar adelante sus análisis, sus búsquedas de insights y el desarrollo de modelos predictivos.
También, mi trabajo consiste en construir los pipes de datos, que son los encargados de alimentar constantemente de datos a estos modelos predictivos para que constantemente puedan reentrenarase y también para la generación de las predicciones.
En el día a día, yo trabajo muy de cerca con los equipos de ciencia principalmente para entender sus necesidades y sus requerimientos de datos, y a partir de allí yo me encargo de desarrollar los procesos que van a satisfacer esas necesidades de datos que tienen los Data Scientist.

[Ramiro Savoie]
Hola, mi nombre es Ramiro Savoir y trabajo como Arquitecto de Datos. Generalmente mis clientes se acercan con una necesidad de organizar sus datos o sus pipelines de transformación de datos.
Estos datos pueden estar en base de datos locales y necesitan ser migrados a la nube o podrían ya estar en la misma y necesita optimizarse el proceso con los que se los transforma.
Mi proceso de trabajo consiste en escuchar y ordenar las necesidades de mis clientes mediante una serie de reuniones de relevamiento. A continuación les propongo un diseño de datawarehouse o de data lake, que se ajuste a esas necesidades y a su presupuesto, dando también un poco de espacio para crecimiento en el futuro.
(TESTIMONIOS – fin)
(Pieza Artística RRSS)
(Bloque 02)
[Hernán Escudero]
Se estima que para el año 2025, de manera colectiva, la humanidad va a generar 175 zettabytes de datos. Son 175 mil millones de teras. Si lo querés pensar en gigas, sería 175 seguido de 12 ceros.

Si bien todavía no llegamos a ese número, lo que se va a hacer con esa materia prima cuyo volumen no para de aumentar, es lo mismo que se hace hoy.

Por eso es que así como crecen los volúmenes de datos disponibles, también crecen las posibilidades de explotarlos y la necesidad de que haya cada vez más gente que domine las herramientas necesarias para hacerlo, tanto en la industria como en la academia.

El escritor Seth Stephens-Davidowitz, autor de Everybody Lies (Todo el Mundo Miente), un libro de divulgación científica sobre el uso de internet y el consumo digital, plantea:

“La abrumadora mayoría de les investigadores académicos han ignorado la explosión de datos causada por la era digital. Les lingüistas más famosos del mundo analizan textos individuales, e ignoran enormemente los patrones que revelan analizar billones de libros. Las metodologías que se les enseñan a estudiantes de ciencias sociales, en su mayoría, no se han visto modificadas por la revolución digital, dejando a sólo un puñado de investigadores, estudiantes de grado rebeldes o apasionades a cargo de un terreno ampliamente inexplorado. Y eso va a cambiar”.

La cuestión de las ciencias sociales merece -y va a tener- un capítulo aparte, pero lo importante es que es por esto que empezaron a aparecer roles cada vez más específicos y, de alguna manera, raros. A medida que pasaron los años lo lamento chiques, el 2000 fue hace 22 años.

El uso de estos datos a pequeña, mediana y gran escala, a caballito de las nuevas tecnologías, trajo necesidades y problemas nuevos que hasta ese entonces, no existían.
(Pieza Artística MOMENTO GENE RODDENBERRY – inicio)
[Hernán Escudero]
Las energías renovables son clave para pensar un futuro donde no estemos nadando en una nube de smog de forma permanente.
Si bien muchas barreras ya están siendo sorteadas, como por ejemplo los costos, la integración con la red tradicional y demás. Los modelos de machine learning están haciendo un aporte clave en la previsibilidad del rendimiento de las distintas plantas generadoras.

Dado que los molinos eólicos dependen, justamente del viento, a veces pueden ser un poco erráticos en su rendimiento. Y aquí es cuando hacen su entrada triunfal, los modelos de machine learning.
En Francia, la empresa Engie SA se asoció con DeepMind, que es una subsidiaria de Google dedicada a la inteligencia artificial, para poner en producción un sistema que predice cuál va a ser la generación de electricidad de molinos eléctricos en las próximas 36 horas.

Para adelantarse un día y medio a lo que va a ocurrir, se nutren de datos históricos meteorológicos, así como también de los datos que obtienen a partir de las turbinas eólicas que generan dicha electricidad.

En este caso, el modelo fue una red neuronal (con detalles no especificados), que fue entrenada usando todo el poder de los servidores de Don Google.

Este grado de previsión, de saber con un día y medio de anticipación de cómo va a ser el rendimiento, permite que la empresa sepa cuánta energía va a poder colocar en el mercado, y de esa forma, desplazar en parte el consumo de energías fósiles.

Por supuesto que hay mucha tela para cortar. Obviamente que las empresas como Google, Microsoft y Amazon se ven en algún punto forzadas a tomar esta clase de decisiones, y estos esfuerzos bien pueden caer en lo que se conoce en la jerga como greenwashing, que sería hacer campañas de marketing vendiendo una imagen ecológica que estas corporaciones muchas veces distan de tener.

Pero sí es cierto que es un muy buen paso para empezar a generar políticas sustentables (tanto en lo ecológico como en lo económico) y generar espacios de creación tecnológica donde, con el foco apropiado, podamos dejar querer dominar la naturaleza para convivir, reconociendo que en efecto, somos parte de ella.
(Pieza Artística MOMENTO GENE RODDENBERRY – fin)
(Pieza Artística SEPA BUENA DATA)
(Bloque 03)
[Hernán Escudero]
Ahora que tenemos una idea de la cantidad de datos que hay dando vuelta, de hasta qué punto nos rodean y de cuáles son los nuevos roles que nacen para poder aprovecharlos, nos falta una pregunta clave: ¿Qué son los datos?

Para entenderlo fácilmente, nada mejor que contarles un poco de dónde vivo. Hace ya más de ocho años estoy alquilando un departamento en un barrio de Buenos Aires que se llama Villa Crespo, tiene unos 40 metros cuadrados, está a dos cuadras del Parque Centenario y también a dos cuadras de una boca de la Línea B de subte.

A partir de esto, podemos pensar que para describir una vivienda, hay cuatro variables: es decir, cuatro dimensiones a partir de las cuales podemos definir cuáles son las características que tiene esa vivienda.

Tenemos:
El barrio en el que está el departamento: Villa Crespo.
El tamaño del departamento: 40 metros cuadrados.
La distancia a un espacio verde: dos cuadras.
Y la distancia a una boca del subte: también dos cuadras.

Estos cuatro datos seguramente ayuden mucho a entender cómo es el departamento en cuestión, pero… ¿cuánto dice sobre lo que en efecto es el departamento?
Yo no les dí información respecto a cuánta luminosidad tiene, cuántos ambientes tiene, de qué están hechas las paredes, cuántos departamentos son por piso, si tiene cocina a gas, etc, etc, etc.

Entonces aquí vamos llegando a lo que, a mi criterio, es una buena definición de qué es un dato: ni más ni menos que un recorte de la realidad, a partir de lo que alguien quiso observar y consideró que bastaba para expresar un atributo discernible de la realidad, de ese objeto de la realidad. Pero mi departamento no es sólo los cuatro datos que les dí, es muchísimo más que eso.

El filósofo alemán Immanol Kant planteaba la existencia del “noúmeno”, un objeto al que sólo podemos acceder mediante la razón, que representa “la cosa en sí”, en oposición a una aproximación a través de nuestros sentidos.

En términos mucho más sencillos: si vos y yo estamos viendo la misma mesa, nunca estamos viendo la mesa en sí, sino que estamos viendo, cada une de nosotres, un recorte de la mesa a partir de lo que nuestros sentidos nos ofrecen.
De tu ángulo y del mío, la mesa va a ser, en efecto, distinta y la misma a la vez.

Entonces ¿a qué voy con todo esto? A que con los datos pasa lo mismo.
Acá llegamos al punto crucial y muchas veces ignorado, de lo que es trabajar con datos.

Los datos no son la realidad, son una representación de la realidad, que por lo tanto, siempre va a ser incompleta. Mi departamento no se define sólo porque tiene 40 metros cuadrados, sino por muchísimo más.

Entonces, acá está el punto importante para pensar esta disciplina, y para tener siempre presente la “ciencia” en ciencia de datos.

Todo lo que se hace con datos tiene que ser pensado y repensado de manera constante. Siempre existen mejores formas de interpretar y de capturar información de la realidad (que como ya vimos, nunca la realidad en sí misma) y hacer algo con ello.

La recolección de datos y el armado de estructuras que permitan hacer esto, podrá ser una tarea relativamente mecánica. Pero dada la relación imperfecta entre los datos y la realidad, entender qué datos son realmente necesarios para describir fehacientemente un fenómeno (y luego cómo maniobrarlos) requiere considerar múltiples aristas a la vez: desde lo técnico hasta lo sociopolítico.

El análisis de lo que dicen los datos, por su propia naturaleza, requiere tener un objetivo en mente, y la suficiente honestidad intelectual para no amoldar lo que los datos dicen de forma tal que den las respuestas que nosotros queríamos encontrar.

Y la matemática en sí detrás de los algoritmos, en tanto cuentitas y funciones, podrá ser inocente y relativamente aséptica, pero los datos que le das al modelo y lo que sea que estés buscando hacer con ello, tal vez no lo es tanto.
(Pieza Artística RRSS)
(Pieza Artística MOMENTO CHARLIE BROOKER – inicio)
[Hernán Escudero]
Advertencia: Trigger Warning.
La siguiente noticia menciona temas vinculados al abuso infantil. Si es un tema que te sensibiliza, adelantá unos minutos.

¿Estaría todo bien si entregás un pedazo de tu privacidad para prevenir la pornografía infantil? Si tenés un teléfono Apple espero que tengas la respuesta a esa pregunta más pronto que tarde.

La compañía de la manzanita anunció en julio de 2021 que cada vez que alguien suba alguna foto a iCloud, ese contenido será analizado por un modelo de redes neuronales que va a intentar detectar si es pornografía infantil. Cabe aclarar que si bien no sería tan distinto a sistemas que ya tienen montadas redes sociales como Facebook o Instagram, el problema es que este modelo de análisis de imágenes no opera en la nube, sino que está alojado a nivel del propio teléfono.

¿Cómo funciona?
Cada imagen digital tiene una firma digital, llamada hash. El modelo lo que hace es intentar matchear esa firma con una base de datos que contiene hashes de lo que se sabe que es material pedófilo, recopilado a lo largo del tiempo por entidades dedicadas a la persecución de los distribuidores del contenido. Si se detecta, el sistema inhabilita la cuenta en cuestión y da aviso a las autoridades competentes.

Apple asegura que su modelo tiene un nivel extremadamente alto de precisión y que las chances de equivocarse son de una en un trillón.

El tema es bastante complejo, porque un modelo, cuya configuración no es conocida por nadie salvo la compañía y está instalado en tu teléfono, va a escanear las fotos que vos quieras subir y estimar la probabilidad de que sea en efecto un contenido aberrante.

A esto se le suma que en teléfonos que sean declarados como propiedad de menores, la aplicación iMessage -la de mensajería- va a escanear el contenido para asegurar que sea seguro para elles.

¿Qué impide que el día de mañana, esos modelos que fueron pensados para detectar algo que claramente está mal, sean rápidamente rearmados para escanear otro tipo de contenidos y vulnerar la privacidad de las personas? La respuesta aparentemente es la voluntad de Apple de no hacerlo.

Y aquí salta a la vista la importancia de generar mecanismos que permitan velar por la transparencia no sólo en la construcción de los modelos de machine learning, sino en cómo se ejecutan.

Tener en la mano la tecnología del mañana, nos trae problemas a los cuales tenemos que dar respuestas el día de hoy.
(Pieza Artística MOMENTO CHARLIE BROOKER – fin)
(Pieza Artística SEPA BUENA DATA)
(Bloque 04)
[Hernán Escudero]
Hay una frase muy trillada en este ámbito: “Los datos son el nuevo petróleo”.

Asumiendo que esto sea cierto, ¿queremos replicar el modo de producción extractivista y depredador al análisis y la explotación de los datos como recurso?

¿Vamos a meter abajo de la alfombra todas las complejidades éticas que trae usar algoritmos semi automatizados o completamente automatizados, para tomar decisiones sobre la vida de las personas?

En resumen:
¿Queremos datos para seguir monitoreando el bienestar del status quo, o queremos otros datos que nos permitan visibilizar los problemas que existen y así encontrar las mejores respuestas para ello?
(Pieza Artística CRÉDITOS)

Hernán Escudero
Idea y música original, producción, guión y grabación >https://www.linkedin.com/in/hernanescudero
 
Mothercaster Media
Producción, edición, diseño sonoro y post producción sonora >https://www.mothercastermedia.com
 
Circular.lat
Comunicación y dirección de arte
 
Milagros Francomano
Diseño gráfico
“Buena Data Theme”, “CB Theme” y “GR Theme” by Hernán Escudero

HACEN POSIBLE ESTE PODCAST

¡HOLA!

Soy Hernán Escudero: un comunicador que se recibió de sociólogo y trabaja programando modelos de machine learning en la nube.

Soy fundador y ML Engineer en deployr, una agencia de datos especializada en la puesta productiva de pipelines, arquitecturas de datos y modelos de machine learning.

Busco aportar y compartir una mirada humana, ética y social sobre el mundo de la ciencia de datos.

Encontrame en //