Sobre este blog

Origen, objetivos fallidos y propósito del blog

Tal cual apunta el título de esta página, en esta narración quiero compartir el origen de este blog, los objetivos iniciales que tuve sobre él, todos fallaron, y ahora el nuevo enfoque del mismo. Intentaré no ser breve, así que no es una entrada de pocas palabras, si quiere enterar del actual propósito del blog, vaya directo a los últimos párrafos, pero se perderá la historia del anumerismo, la maduración de los datos, el contenido y el cuerpo de los datos.  De momento sólo quiero decirle: Bienvenido a mi blog! un blog de prueba y error, un blog de constante cambio, un blog de un creyente en que lo bueno se comparte. Las estadísticas y R son de lo mejor, por eso se debe compartir!



Un poco de historia para ponerle romanticismo 


Originalmente, cuando creé este blog, fue en mis tiempos de estudiante de maestría, realmente quería compartir todo esa gran cantidad de conocimientos nuevos (todo era nuevo para mí en ese momento) con quien quisiera leer mi blog. Sin embargo, a medida que avanzaba con los estudios, los trabajos, tareas y exámenes se volvían cada vez más complicados y me sobraba menos tiempo para cumplir con el propósito del blog.

Al inicio quería compartir la utilidad de los modelos económicos y cómo el entendimientos de estos nos podrían ayudar a ser seres más racionales, a optimizar nuestras utilidades, a valorar mejor nuestras alternativas y decidir en función de una evaluación consciente y racional, y zas! primer fallo, eso solo existe en los libros, la gente no actúa de esta manera, perderíamos el encanto de ser humanos si todos nos convertimos en el homoeconómicus, así que decidí no compartir nada sobre los temas que abordaba en mis estudios de economía. 

Luego, cambié de disciplina, pasé de economía a algo más sexy: Estadística! ahí sí encontré la conexión entre las matemáticas y el mundo real, no había la necesidad de que existiera un ser perfecto tomando decisiones racionales para que la cosa funcionara bien, al contrario, la imperfección en el proceso de toma de decisiones, la incertidumbre asociada a ello, los riesgos implícitos, son parte fundamental del día a día, y en gran medida, son la razón de ser de las estadísticas. Pero no me iba a dedicar a publicar y compartir ecuaciones en un blog, para ello están los journals especializados, ahí compartí (publiqué) un artículo sobre estos procesos "irracionales" de decisiones, dicha publicación la hice en conjunto con mi apreciada maestra Montserrat Guillén. Claramente un blog no es para eso este tipo de artículos. 

Así, mientras el tiempo transcurría y en la medida que encontraba un poco de tiempo para escribir algo para el blog, lo hacía, y así fui agregando, poco a poco, algunas entradas sobre tips básicos y alguna que otra movida rara en R. Pero luego pasé de la vida académica a la vida de trabajo aplicado, con lo cual, el tiempo ya no me ajustaba y mientras hacía esa transición del mundo de papers a resolver problemas de la "vida real" pasaron 6 o 7 años de inactividad en el blog.

Sin embargo 2020 está siendo un año de cambios, un año de muchos puntos de ruptura en la cotidianidad de nuestras vidas, estamos viviendo un marcado efecto sustitución: hemos dejado de hacer cosas que normalmente hacíamos para dedicarnos a otras que ahí estaban, pero sólo estaban, no formaban parte de nuestro día a día; cosas como apreciar tiempo en nuestras casas, no conocíamos los detalles que hoy conocemos de nuestras casas; disfrutar de nuestras familias..., reconsiderar aquél proyecto que teníamos estancado desde hacía años, en fin, esto último fue lo me hizo retomar este proyecto y enfocarlo en dos objetivos simples: estructuración de datos y visualización de datos.

La herramienta que utilizaré para ello es el lenguaje de programación estadística R, por todas las bondades que en internet se pueden leer, para no meterme con el marketing (no tiene sentido puesto que es un software libre) sólo diré que usaré R, porque es la herramienta que mejor manejo y que conozco desde hace ya 10 años y es mi caballito de batalla de todos los días. Tanto tiempo que comparto con R que de esta larga relación nació un paquete llamado OCA (Optimal Capital Allocation) que forma parte de los paquetes en el repositorio oficial de R: CRAN

Siempre me gustado tanto R que en mi entusiasmo de ser usuario de R y de compartir lo que sabía con otros, junto con Tim Riffe y Lluís Ramon Callao fuimos los fundadores originales del R User Group - Barcelona, el primer grupo de usuarios de R de Barcelona. Sí el grupo de usuarios locales de R de Barcelona fue creado por un Nica (yo), un gringo (Tim) y un catalán (Lluís), qué extraña combinación, ¿no? No del todo, los tres compartíamos intereses comunes: amor por los datos y devotos de R con ganas de ser parte de la red de usuarios de R que comparten los pocos tips que sabíamos. "Compartida, la vida es más!" rezaba un slogan de movitar, cuánta razón tenían quienes lo inventaron!

¿Por qué estructuración y visualización de datos?

Como ven, este blog ha sido un intento de muchas cosas, hasta que "concretó" un enfoque: R, sin embargo, R por ser R no es gran cosa, por eso este blog no es algo consolidado, no quiero vender R; "se vende solo" se dice en la aulas de estadística, "no tiene precio" dirían los ejecutivos de marketing así que la balanza se inclina o no, según el interés que se tenga por convertir los datos en información y precisamente en este punto es donde quiero ahondar con mi blog.

Al leer noticias en los diarios de mi país, Nicaragua, quedaba clara la falta de educación numérica. Peor aún leyendo notas oficiales de instituciones serias donde confunden puntos porcentuales con por ciento, quedaba más clara aún la falta de comprensión de los números para comunicarlos al pueblo "inculto". Fue cuando leí El Hombre Anumérico: El analfabetismo matemático y sus consecuencias que me di cuenta que, en Nicaragua, estamos viviendo las consecuencias del anumerismo, del analfabetismo matemático, y no con esto quiero decir que para ser educado se requiere que la población entienda cálculo diferencial o teoría de números, lo que quiero decir, y lo deja bien claro John Allen Paulos, que el anumerismo es la falta de comprensión de conceptos fundamentales de matemática, retomo mi ejemplo de confundir puntos porcentuales con porcentajes.

El no entender cosas tan sencillas como proporciones, el no entender cuándo usar un promedio, o cosas más complicadas como hasta dónde es el alcance de un modelo econométrico conllevan, necesariamente, a la misma consecuencia: la malinterpretación de la realidad promovidad por el sesgo numérico. Nos presentan números mal hechos y, simplemente porque ahí va un número me lo creo, porque me han quitado (o nunca me dieron) la capacidad de interpretar, porque un pueblo anumérico es un pueblo débil, un pueblo fácilmente manipulable (lo dice John Allen Paulos y creo que todos estamos de acuerdo). Así el descuido y el deterioro de nuestro sistema educativo fomenta el anumerismo con sus consecuencias fatales: gente manipulable y creación a gran escala  de malas interpretaciones "respaldadas" por números.

En este contexto, es donde quiero hacer hincapié, jamás vamos a superar el anumerismo si no logramos poner orden en la abundancia de datos en la que actualmente vivimos. Es triste cómo en Nicaragua padecemos de anumerismo en la era de los datos. Así que basado en el hecho de que "la información es poder" tenemos que trabajar en la base, en el átomo de la información: los datos.

Al fin, el por qué del blog

En este sentido, tras tantos vaivenes, fallos y no tener un enfoque concreto y correcto sobre el tema del blog, creo que ya lo tengo, quiero que esto sea una pequeña ventana que permita motivar la curiosidad en el análisis de datos, pero en su origen: la estructuración, buscar datos, pelear con los datos, ensuciarnos las manos, aprender de los datos, como decían Box y Jenkins "permitamos que los datos hablen", esto explica mi interés en la estructuración de datos.

Estructuración y limpieza de datos, algunos lo definen como el proceso de depurar, organizar,  bla bla bla..., un conjunto de datos que en ciencia de datos (otro nombre fancy para la estadística) absorbe hasta el 80% del tiempo del data scientist (lea aquí una breve crítica sobre este mal utilizado y prostituido término) y más bla bla bla. En realidad la estructuración y limpieza de datos es la etapa en la que, tanto el investigador, como la base de datos van madurando juntos, uno va conociendo y domesticando a la otra, ésta pone a prueba la capacidad de resolver problemas al investigador, más allá de poner a prueba lo que aprendió en un aula de clase o en un curso on-line express, pone a prueba su creatividad y cómo la conjuga con aquel binomio de conocimiento-experiencia; es esta estructuración y limpieza de datos la que te va sacando del anumerismo, porque en este proceso de sacar la basura de la base de datos, se requiere de interpretación, conocimiento, criterios para sacar o dejar una variable, para extraer un subconjunto de datos, por eso es que toma hasta el 80% del tiempo, porque la maduración no se hace de un día para otro. 

Es precisamente este proceso marginado, este proceso despreciado el que es necesario para darle contenido a la información, ya que no todo dato es información, el investigador debe convertirse en minero, se zambulle en la mina de datos y debe encontrar las piezas preciosas que son altamente demandada: la información. Ahh claro, el marketing no se hace esperar y zas! lo bautizan y salen los data miners. 

Una vez que se ha madurado la base de datos, se ha limpiado y, como consecuencia de ello, la hemos entendido, la conocemos, pasamos de darle contenido a darle cuerpo y este cuerpo se materializa en la visualización. La visualización es la demostración que realmente comprendés tus datos, que sabés qué historia cuentan, que los dejaste hablar y has aprendido a escucharlos, que sos honesto y no los torturaste para que confesaran lo que vos querías que contaran (otro problema que tenemos en Nicaragua, nuestros datos son/fueron torturados), cuando alcanzaste el punto de hacer visualizaciones correctas demostraste que conoces tus datos, que sos capaz de generar información. El punto culminante, el punto meta, el momento de la graduación: conseguir que el ciudadano "inculto" entienda, no que crea, no que quede convencido, sino que entienda y con base en eso decida si te compra tu postura o no. Ahí, precisamente en ese punto habremos vencido al anumerismo.

Esto explica el propósito de por qué centraré mis publicaciones en estructuración y visualización de datos.

Nos hemos propuesto como humanidad vencer al Covid-19 y nos hemos coordinado bien para lograr ese objetivo, ¿Por qué no nos proponemos vencer al anumerismo? No permitamos que el anumerismo siga siendo una pandemia mental.

Así que después de esta laaarga historia te invito a que me acompañés a compartir un poco para combatir el anumerismo.

Finalmente, sólo me queda reiterarte la bienvenida a mi blog. Bienvenido y Bienvenida!.

Jilber Urbina. 





No hay comentarios:

Publicar un comentario