Dos conclusiones contradictorias del mismo conjunto de datos: el multiverso en la ciencia de datos

En la implementación de procesos de analítica avanzada para empresas hay un riesgo importante para la toma de decisiones cuando se tienen dos conclusiones distintas del mismo conjunto de datos. Al respecto ¿es posible que ante una misma base de datos dos equipos de científicos de datos lleguen a resultados diferentes? ¿Existe algún modo de identificar las elecciones analíticas que crean esas variaciones?

Un estudio de crowdsourcing publicado en la revista Organizational Behavior and Human Decision Processes documentó el experimento en el que se reunió a un grupo de analistas para que, de manera independiente, evaluaran un conjunto de datos e intentaran contrastar la misma hipótesis.

Cada uno decidió tanto el enfoque analítico como la manera de integrar las distintas variables. El resultado no fue homogéneo: algunos equipos falsearon la hipótesis, otros no lo pudieron hacer y el resto no pudo concluir nada.

Todos los analistas usaron la plataforma DataExplained, con lo cual fue posible acceder en tiempo real tanto a las vías analíticas que eligieron como a las que rechazaron, y por ende a sus procesos de evaluación y toma de decisiones.

Además, mediante esta herramienta se obtuvo una representación gráfica del flujo de trabajo de cada uno, lo cual fue muy útil al momento de comunicar su trabajo y, a su vez, permitió realizar un análisis cualitativo de las decisiones cuantitativas de esta investigación iterativa.

Para ello se realizó un análisis multivariante, el cual ayudó a mostrar que los resultados dependen más de las formas de realizar un análisis y manejar sus variables que de las estadísticas.

¿Qué análisis se realizaron?

La investigación de crowdsourcirng mencionada analizó un complejo conjunto de datos sobre género y estatus profesional en reuniones de grupo. No hubo restricción alguna para la conceptualización y la forma de operar las distintas variables (como el estatus social).

El conjunto de datos de este proyecto incluyó más de tres millones de palabras de diálogos extraídos de un foro en línea de debates científicos. Tras un programa piloto, los expertos coincidieron en dos hipótesis:

  • Hipótesis 1. La tendencia de una mujer a participar activamente en una conversación se correlaciona positivamente con el número de mujeres en la discusión
  • Hipótesis 2. Los participantes de mayor estatus hablan más que los de menor estatus

Para la siguiente fase del estudio se reclutó a un equipo que trabajó con el análisis multivariante o multiverso Boba, el cual permite:

  • Examinar todos los caminos razonables implícitos en las elecciones de los analistas
  • Identificar cuantitativamente qué puntos de elección dispersan las interpretaciones
  • Crear visualizaciones para ilustrar los pasos clave de esas bifurcaciones

El objetivo era examinar si analistas independientes llegarían a los mismos resultados e hipótesis a partir del mismo conjunto de datos.

<< Construye el futuro de tu empresa: aplica analítica avanzada >>

¿Cuáles fueron los resultados?

Los analistas que participaron en este estudio llegaron a los siguientes resultados:

  • El 64.3% estuvo de acuerdo con la hipótesis 1
  • El 28.6% estuvo de acuerdo con la hipótesis 2
  • El 7.1% restante no pudo confirmar ni refutar alguna de las dos hipótesis

Para comprender mejor el proceso que orientó las decisiones analíticas, un subequipo de investigadores cualitativos del proyecto evaluó el texto descriptivo que explica cada paso del análisis de datos, así como el código fuente correspondiente a cada uno de ellos.

Al pedir a los analistas que explicaran sus decisiones se obtuvo un amplio conjunto de datos que recogió sus diversos flujos de trabajo. De ahí se concluyó que muchos análisis fueron iterativos, puesto que de ese modo los participantes le dieron sentido a los datos a lo largo del tiempo.

Por su parte, los científicos que organizaron la investigación señalaron que gracias al enfoque crowdsourcing y al modelo multivariante se redujo drásticamente la posibilidad (de casi el 50%) de que los resultados fueran nulos.

Aunado a ello, sin estos elementos analíticos el papel de las decisiones subjetivas de cada investigador habría permanecido desconocido, en lugar de hacerse transparente.

Asimismo, la plataforma DataExplained hizo la diferencia al momento de observar a detalle la hoja de ruta de las distintas alternativas de análisis y sus respectivas justificaciones.

Consideraciones finales

En cualquier aplicación de analítica avanzada para empresas hay elecciones que son subjetivas porque dependen del analista que está a cargo, así que por ello es necesario que cada organización tenga bases de datos robustas y ordenadas, a fin de que los análisis no carezcan de rigor y brinden conclusiones útiles para eficientar los procesos productivos del negocio.

Por último, se recomienda que los CEOs basen sus decisiones empresariales en estos tres factores:

  • Los hallazgos científicos
  • Los informes de consultoría
  • Los análisis internos

¿En tu empresa han realizado algún tipo de análisis predicitivo? ¿Las conclusiones son contradictorias en el tiempo o dependiendo del equipo que la realiza? ¿Qué procesos productivos crees que pueden ser los más beneficiados con esta tecnología? ¿Crees que un analista externo, como en el modelo crowdsourcing podría guiarte en este proceso?

Comenta en el espacio de abajo y suscríbete a mi blog para conocer más sobre otros temas de innovación y tecnología científica aplicada a los negocios.

Originalmente publicado en Jorge Pérez Colin Blog

Compartir:
Compartir en facebook
Facebook
Compartir en twitter
Twitter
Compartir en linkedin
LinkedIn
Compartir en whatsapp
WhatsApp
Subscribe
Notify of
guest
0 Comments
Inline Feedbacks
View all comments

Contacto

Déjanos tus datos y nos comunicaremos contigo a la brevedad