Perspectivas (CEA)

Walter Sosa Escudero: “Lo que quizás nos permita Big Data es entender mejor la naturaleza de los problemas.”

Autor
Walter Sosa Escudero
Mes/Año
07/2019
Walter Sosa Escudero: “Lo que quizás nos permita Big Data es entender mejor la naturaleza de los problemas.”

Tomas Marinozzi, colaborador del Centro de Economía Aplicada de la UCEMA, entrevistó a Walter Sosa Escudero, PhD en Economía (Universidad de Illinois), director de la carrera de economía de la Universidad de San Andrés y profesor en la Universidad Nacional de La Plata. Autor de diversos libros, entre ellos el reciente “Big Data”.

 

En primer lugar, felicitaciones por su nuevo libro “Big Data” que acaba de sacar su segunda edición. Se habla mucho de la revolución de los datos y del fenómeno de Big Data; vayamos de apoco, ¿cuál sería una definición de manual?

Más allá de los reparos que uno tiene sobre la definición de un fenómeno que todavía no se ha establecido, Big Data tiene que ver con la generación de datos masivos que surgen de la interacción espontánea con dispositivos interconectados como teléfonos celulares, GPS, redes sociales, computadoras, tarjeta de crédito, etcétera.

En esta era moderna que rebalsa de datos, ¿más datos es igual a mejores datos?

No, te diría que es exactamente lo contrario. El fenómeno de Big Data se contrapone al paradigma anterior que eran los datos estructurados, aquellos datos que provienen de encuestas, experimentos, registros contables, etc. Esos son datos que justamente tienen estructura muy fija, ya sea una estructura administrativa o probabilística en donde es relativamente fácil evaluar su correspondencia con una población relevante. Por el contrario, los datos de Big Data son completamente anárquicos y espontáneos, mediados por un dispositivo. En definitiva, no se puede comparar la calidad de los datos porque es una comparación de peras con manzanas. Probablemente, los mil datos de una encuesta bien diseñada tengan mucha más y mejor información que los millones de datos anárquicos que salen de una encuesta de twitter.

Desde el punto de vista de la econometría convencional, que hace inferencias y entiende en relaciones causales, ¿puede Big Data darnos una mano?

Desde el punto de vista del análisis causal, los datos de Big Data no resuelven el problema. El problema con los datos que utilizamos para estudiar relaciones causales no es un problema de muchos o pocos sino de datos que ocurren producto una variación exógena. Entonces, per se, tener datos de Big Data no resuelve el problema de endogeneidad. Donde soy optimista es en lo siguiente: dado el volumen de datos de Big Data, uno podría aislar un subconjunto de datos que se asemeje a un experimento natural.

Desde el punto de vista de los economistas, con la revolución de Big Data y algoritmos de Machine Learning, ¿cree que la manera de hacer econometría va a cambiar drásticamente o se trata simplemente de un ajuste de tuercas?

Así como están las cosas creo que es un ajuste de tuercas. Probablemente porque la formación de los economistas en estadística y la interacción de la estadística con los modelos es muy buena. En definitiva, a los economistas esta innovación de Machine Learning los agarra muy bien preparados; no es muy difícil introducir herramientas de aprendizaje automático en la preparación básica. Por el contrario, creo que ésta es una de las profesiones a las que le va a resultar más fácil, desde el punto de vista técnico y conceptual, incorporar estas nuevas herramientas.

Es evidente que Machine Learning y los algoritmos de predicción pueden ser insumos que reduzcan mucho los costos, ¿puede esto en algún punto desplazar al economista?

Es distinto, todavía la generación de ideas es una cosa que Machine Learning se debe. Tal como están las cosas, Machine Learning es una tecnología para dar respuestas pero no para hacer preguntas. En definitiva, una gran ventaja que tiene el uso de métodos empíricos en la economía es que estas nuevas herramientas de Inteligencia Artificial agarran a la ciencia económica después de muchos años de formular preguntas correctamente, no tanto de dar respuestas. En donde Machine Learning puede darle una mano a la economía es en hacerla un poco más inductiva y descriptiva. Yo creo que a la economía le hace falta mucho trabajo tanto inductivo como descriptivo, pero la inducción no es un remplazo de la deducción y la historia así lo muestra.

Dentro de la ciencia económica hacer predicciones siempre fue algo muy complejo, caro y cuestionado en términos de efectividad. En esta línea, ¿cree que los nuevos algoritmos de Machine Learning le pueden dar una mano a nuestra ciencia?

En algún sentido, sí, pero recordemos que la dificultad de hacer predicciones económicas no tiene que ver con la complejidad del sistema ni con la falta de datos como en la meteorología. En economía el grueso de la impredecibilidad tiene un enorme componente estratégico. Muchos fenómenos económicos están dominados por equilibrios múltiples y decisiones estratégicas. Insisto, la linealidad de la predicción del precio del dólar se parece a la linealidad de la predicción del ángulo al que pateará un delantero o al tipo de alianza va a llevar un presidente a la elección. Entonces, la complejidad de estos problemas no tiene que ver con sistemas caóticos o sistemas altamente no lineales (que necesitan mucha más información para ser caracterizados), sino que la complejidad de predecir tiene que ver con que los resultados que surgen de comportamientos estratégicos.

En su nuevo libro “Big Data” habla de un tema interesante: los datos que no tenemos.

Sí, esta falsa creencia de que la estadística y la ciencia clásica resolvían un problema de falta de datos, de que nosotros pensamos asintóticamente una clase de entelequia y resulta que estamos aproximándonos a una etapa en donde vamos a tener todos los datos. De hecho, ahora se habla de que vamos a tener un “N=Todo” donde la muestra es la población. En el libro aclaro enfáticamente que estamos lejos de tener todos los datos. Por la forma en que funciona la naturaleza de los observables nunca vamos a tener todos los datos. Los datos de Big Data son, por construcción, observacionales, entonces nos faltan los datos no observables, es decir, los datos contra fácticos. Estos son datos que no se pueden ver, entonces uno los tiene que construir (mediante experimentos). Es decir, aun siendo optimista, Big Data solo muestra la mitad de los datos y quedan afuera los datos de las decisiones que uno no toma. Desde ese punto de vista, Big Data nunca va a ser todos los datos; peor aún, la idea de que Big Data puede llegar a ser todos los datos tiene que ver con una interpretación incorrecta de la ley de los grandes números. Para que la ley de los grandes números opere, o sea para que una infinita cantidad de datos se traduzca en una información infinitamente precisa, tiene que ser cierto que los datos provengan de una población homogénea y que esos datos provengan de un ejercicio experimental independiente. En cambio, la naturaleza observacional de Big Data hace que los datos provengan de poblaciones muy heterogéneas y que además sean fuertemente dependientes. Por ejemplo, una encuesta de twitter que yo haga con mis seguidores es una encuesta de una subpoblación que decide seguirme. Además, la gente que decide seguirme tiene ciertas características en común, o sea que las opiniones son fuertemente dependientes. Entonces, más allá de que yo tenga cien, doscientos u once mil seguidores, estas características tienen muchas chances de romper la ley de grandes números.

Las nuevas técnicas de aprendizaje automático y la incorporación de Big Data son muy interesantes como herramientas para tomar decisiones. En ese sentido, pareciera que el sector privado ha internalizado estas técnicas dando lugar a nuevas oportunidades e inclusive al cambio de estructuras de negocios. Dicho esto, ¿cómo cree que Big Data y el aprendizaje automático pueden contribuir a la mejora o la creación de políticas públicas?

El uso de Big Data en políticas públicas es muy limitado. Las empresas tienen un objetivo muy claro que posiblemente tenga que ver con lo que uno enseña en clase, que es maximizar beneficios, pero la política pública es mucho más compleja porque tiene otros objetivos que se contraponen entre sí. Por ejemplo, el diseño de la política pública tiene que velar por valores que son contradictorios, como la transparencia y la privacidad, por un lado, y la eficiencia, por el otro. Posiblemente un algoritmo en pos de la eficiencia termine induciendo graves violaciones éticas en términos de transparencia. Imaginate un algoritmo que defina a quién le corresponde un tratamiento médico o a quién le corresponde la Asignación Universal por Hijo; posiblemente termine cometiendo errores tipo 1 o tipo 2 (estadísticamente hablando) que desde un punto de vista ético, moral y capaz desde una perspectiva jurídica no estemos dispuestos a aceptar. Entonces, Big Data, además de estar tamizada por cuestiones de eficiencia y velocidad como las que ocurren en el sector privado, cuando pasamos al marco de políticas públicas, tiene otras restricciones, de ética, de privacidad, transparencia, de estabilidad, que el sector privado no tiene porqué internalizar. En definitiva, las mayores restricciones no tienen nada que ver con lo algorítmico sino más bien con lo burocrático, y me refiero a lo burocrático en el buen sentido de la palabra, las políticas tienen que velar por objetivos múltiples que son contradictorios. En pos de la transparencia uno estaría dispuesto a hacer varias cosas, pero no quizás anteponiendo la privacidad por más que haya costos de eficiencia asociados.

Lo que quizás nos permita Big Data, es entender mejor la naturaleza de los problemas. Así como tiene un costado conspirativo, tiene un lado democrático que permite difundir el conocimiento. Por ejemplo, permitir que un curso que se dicta en tal lugar pueda ser dictado en una zona marginal entendiendo cuáles son las características y necesidades de ese lugar, etc. Esa es la parte donde soy súper optimista con respecto a la tecnología de datos; son cosas que pueden ser utilizadas en gran escala inclusive por el jugador pequeño. Así como están las cosas, un municipio pequeño puede beneficiarse de estrategias de Machine Learning con un costo relativamente bajo. Obviamente, no tanto como una empresa grande o como un estado entero, pero no es una tecnología que necesite una gran estructura para poder operar; es en este sentido que yo soy más optimista sobre la utilización de Big Data en políticas públicas.