Big Data. Mitos y aplicaciones en la economía moderna

Revista UCEMA, diciembre de 2017
Por Alfredo B. Roisenzvit, Economista de la Universidad de Harvard (distinción Cum Laude) y docente del Workshop en Big Data de la Maestría en Economía de la Universidad del CEMA

Con la aparición más extendida del uso de técnicas de Big Data, está ocurriendo un fenómeno relativamente común a los temas relacionados con el uso de nuevas tecnologías: comienzan a proliferar toda serie de definiciones. Intentaré, en este breve espacio, aportar algunas definiciones y aplicaciones de Big Data para contribuir al entendimiento de estas técnicas, que representan uno de los más importantes avances científicos de los últimos tiempos.

Data Science
El marco general de aplicación de técnicas de Big Data es conocido como Data Science. La estadística tradicional es una forma de data science, por supuesto. Sin embargo, los avances tecnológicos nos permiten ahora ir más allá de la estadística tradicional, especialmente en la estadística de inferencia, para estudiar comportamientos de diferentes tipos de información y sacar conclusiones, o proyecciones y pronósticos mucho más granulares, específicos, detallados y acertados. En países avanzados, la de data scientist es una de las profesiones mejor pagas del mercado. Según el sitio especializado indeed.com, en los Estados Unidos un Data Scientist gana el doble de salario anual que un programador avanzado. De hecho, un buen data scientist tendrá conocimientos avanzados de estadística, programación y aplicación del método científico. Big Data es una serie de técnicas utilizadas en el marco más amplio de Data Science.
Data points
La unidad de la “materia prima” de Data Science son los data points. En estadística tradicional un data point es una observación. Big data permite, o mejor dicho, requiere la utilización de millones de data points en sus modelos. A diferencia de la estadística tradicional, estos data points no tienen que estar estructurados, y pueden ser recogidos de diversas fuentes en diversos formatos, lo que facilita aún más su recolección y procesamiento. Con las herramientas modernas de big data, virtualmente todo puede ser un data point. Desde un suceso específico (como una búsqueda en internet) hasta un conjunto de píxeles en una fotografía.

Datificación
Es el proceso de convertir cualquier elemento en data points. Gran parte de las técnicas de Big Data son en realidad técnicas de datificación, mediante las cuales se convierten elementos de la vida común en millones de data points. La conocida aplicación de big data en los deportes es un ejemplo de datificación. Muchos deportistas ahora utilizan un pequeño GPS en sus atuendos. Conectado a una computadora, el GPS generará miles de data points relacionados con la ubicación del deportista en el campo de juego en cada jugada, la velocidad y dirección de su desplazamiento, entre otros aspectos.

The internet of things
EL fenómeno conocido como el “internet de las cosas” es hoy día el mayor generador automático y constante de data points. Cualquier artefacto conectado a internet está seguramente generando data points de forma constante, aún sin el conocimiento del usuario y “dueño” de esa información. Un teléfono celular, un asistente personal de Inteligencia Artificial (conocido como Alexa, de Amazon), un televisor denominado Smart TV con Netflix, el buscador de internet, y hasta las heladeras conectadas, generan millones de data points que son luego utilizados con técnicas de Big Data para obtener patrones de consumo o comportamientos, que tienen hoy un inmenso valor económico. Un estudio reciente de Vidhia Analytics predice que para 2020 habrá 50 mil millones de dispositivos conectados, recolectando data constantemente.

La ley de Moore

Principlamente, lo que ha permitido la irrupción de las técnicas de Big Data es el aumento de la capacidad de procesamiento y la disminución de su costo. Este fenómeno es usualmente explicado por la Ley de Moore, por el Co-fundador de Intel Gordon Moore, quien en 1965 predijo que cada 2 años se duplicaría el número de transistores en un microprocesador. El propio Moore, en 2007, al ser consultado sobre la precisión de su predicción –que todavía se cumple exactamente (ver gráfico 1)- conjeturó que su ley duraría unos 10 o 15 años más. Es decir, que entre 2017 y 2022 la tecnología se superaría dando un salto cualitativo no lineal.
Interesantemente, un estudio de 2013 de Ray Kurzweil, de BCA Research, definió que los actuales procesadores Quad I7 tienen la capacidad de procesamiento del cerebro de un ratón, y que a partir de 2020 se establecerán las tecnologías que permitan multiplicar la capacidad de procesamiento, hasta alcanzar en breve la capacidad de procesamiento del cerebro humano, e incluso superarla. Este crecimiento en la capacidad de procesamiento –y la consecuente baja en su costo- cambia fundamentalmente la capacidad de analizar información y la velocidad en que ello se lleva a cabo, transformando, por ende, el paradigma de análisis de la información.

Un ejemplo cotidiano

Todos, consciente o inconscientemente, estamos produciendo data points a cada minuto. Hay abundantes ejemplos que se pueden citar, pero el siguiente es uno de mis favoritos, porque muestra en primera persona como ya hoy vivimos inmersos en Big Data.
Seguramente el lector tenga a mano un IPhone. En el IPhone deberá abrir la configuración, y allí entrar en Privacidad (Imagen 1), luego en Localización (I.2), luego en Servicios del sistema (I.3), y finalmente en Ubicaciones importantes ( I.4).
Para su sorpresa, registrará que tiene la función habilitada por default desde Apple, y además encontrará con exactitud de metros, y mostrados en un mapa, los lugares que más frecuentemente visita. Le doy la bienvenida al mundo de Big Data como generador constante de data points para Apple y sus asociados. Básicamente cualquier aparato que se conecte a Internet, o que pueda almacenar información de cualquier tipo, es una fuente utilizable, y seguramente utilizada, de data points. Últimamente crece cada vez más la presencia de asistentes de Inteligencia Artificial en el hogar, como el Amazon Echo Dot, conocido como Alexa. Estos artefactos coleccionan constantemente data points, que son en efecto utilizados por sus fabricantes y asociados. De hecho, un dato bastante inquietante es que el Amazon Echo Dot, o su competidor de google, escuchan constantemente todas las conversaciones de la casa. Esto es así porque están programados para activarse cuando escuchan su propio comando –por ejemplo Alexa. Pero esto es exactamente lo que explica su capacidad de “escuchar” todo lo que Usted diga en la intimidad de su casa. Si Usted tiene uno de estos dispositivos, seguramente aceptó los términos y condiciones con un solo click, y con ellos autorizó a Amazon a escuchar absolutamente todo lo que usted dice en la intimidad de su casa. Según Amazon, a la fecha ya se vendieron más de 11 millones de unidades (Fuente: Alexa, se lo acabo de preguntar –y me lo acaba de responder- a viva voz mientras escribo esta nota). Seguramente Amazon no colecta información más allá de la que se le “habla” directamente al dispositivo. En esencia, si Usted es uno de esos 11 millones, cada palabra que pronuncia en su casa es un data point.

El cambio de paradigma
Big Data implica también un cambio en la forma de utilización de la información. No sólo la utilización de mucha más información. Uno de los principales cambios que aporta Big Data es que la información analizada no sigue nuestra lógica tradicional de relacionar variables dependientes e independientes que resulten de una cierta hipótesis previa. Justamente uno de los grandes valores agregados de las metodologías y herramientas aplicadas con Big Data, es que permiten recoger las relaciones que prima facie no tienen ninguna lógica, pero que, dado el análisis de millones de datos, ofrecen una correlación representativa y significativa para la toma de decisiones. Con Big Data la predicción es creíble porque se analizaron millones de casos. Otra forma de ponerlo, es que Big Data está mucho más cerca de trabajar con el universo o población –en términos estadísticos- que con la muestra. El método tradicional explica el “por qué” de la confirmación de la tesis, o su negación. Con Big Data usualmente no hace falta llegar al porqué; nos quedamos en el “cómo”, y con ello es suficiente. Por ejemplo: el sitio kayak.com es el más reconocido para encontrar los mejores precios de pasajes aéreos. A través de un algoritmo y del análisis de millones de búsquedas de vuelos, el sitio es capaz de determinar que el mejor precio para un pasaje a Nueva York se consigue un martes por la noche. ¿Por qué un martes por la noche? No sabemos, y a los efectos del objetivo propuesto, no importa. Sólo importa que si Usted quiere acercarse al mejor precio, ese es el momento. El “porqué” no se toma en cuenta, y los R2 de las variables que explican esa relación tampoco.