Fig 1. "Dios no siempre juega a los dados". Parafraseando a Einstein.
Vale la pena ver el blog de origen de la imagen.
Actualmente se está haciendo mucho énfasis en hacer que la Investigación, sobre todo la financiada con fondos públicos en las Universidades, tenga aplicaciones prácticas; en ocasiones, el resultado de esto es la creación de productos o servicios que se comercializan o incluso dan lugar a nuevas empresas de base tecnológica (las famosas Start Ups). A esto se le conoce como Transferencia Tecnológica: los resultados de la investigación se transfieren a la sociedad (esto es el modelo anglosajón). Podemos estar más o menos de acuerdo en como se lleva a cabo, pero actualmente es como se está haciendo.
En la investigación científica se conoce bien el uso de la estadística, ahí tenemos el reciente descubrimiento de la llamada Partícula de Dios (o Bosón de Higgs) en el CERN. Recordemos que la "existencia" de dicha partícula se dio como cierta hasta 5 sigmas (!!!); técnica y lenguaje estadístico en estado puro (el @profedefisica nos habló sobre ello). Recordemos que en el post anterior hablamos de la metodología 6σ (Six Sigma) para el control de calidad: no es casualidad lo de las sigmas, se refiere exactamente al mismo concepto (desviación estándar).
Fig 2. La partícula de Diooooooossssssssssssssss...
Sin embargo, este hecho aún está lejos de poder ser comercializado (si es que se encuentra alguna manera de comercializar el resultado); y quien dude que haya aplicaciones puede ver hacia la Teoría de la Relatividad, pues sin ella la tecnología GPS (que está al alcance de muchas personas) no se hubiese podido llevar a cabo. Pero existen muchas empresas de base científica que usan continuamente la estadística para validar sus desarrollos: las farmacéuticas, quienes no gozan de mucha fama por las implicaciones éticas de algunas de sus decisiones empresariales, básicamente porque han dado más importancia a la parte del business que al bien social que pueden hacer con sus productos.
Fig. 3. El Bosón esperando a tener una utilidad comercial. Con todos sus sigmas.
Pero no es un tema que tocaremos ahora, pues nos interesa la validación de sus productos. Por ejemplo, para determinar si un medicamento tiene efecto real sobre una enfermedad y/o cura lo que dice curar, primero se diseña un experimento y después se analizan los resultados para buscar diferencias entre los que tomaron el medicamento real y los que sólo tomaron un placebo. Si hay una diferencia significativa, se dice que el medicamento tiene efecto; si la diferencia pudo ser fruto del azar, entonces se niega que exista tal efecto. Más detalles en Como afecta la Estadística nuestras vidas IV - Ejemplos con (pocos) números 1.
Fig. 4. Los médicos encantados de curarnos a base de supositorios.
Tomada de aquí.
Técnicas similares se usan (o deberían usarse) para hacer estudios de impacto ambiental. Los cambios hechos por la humanidad (talado de bosques, sustitución de vegetación endémica por cultivos, vertidos de residuos, etc.), pueden dar lugar a cambios importantes, lo suficiente para que diversas especies nativas no puedan vivir más en el sitio. Por eso es importante ver si los cambios producen diferencias significativas (estadísticamente hablando).
Esto plantea un gran reto: ¿Qué pasa cuando hay un error en el resultado mostrado?. Esto es, cuando el estudio nos dice que "no hay diferencia" y en la realidad sí la hay o al contrario, cuando el estudio dice "sí hay diferencia" y en realidad no la hay; también podemos encontrar que el aparato de medición no es fiable en un cien por ciento, por lo que cada resultado nos plantea la duda de si es correcto o no. Cuando nos encontramos que el resultado del aparato no es correcto les llamamos "falso negativo" y "falso positivo". En el siguiente post pondré ejemplos que nos pueden tocar de cerca (y que alguno nos puede dar un buen susto).
Sondeo de votos
Como vimos en la primera parte de esta serie (Estadística pública y sus recursos didácticos) los gobiernos hacen (o deberían hacer) uso intensivo de la estadística para tomar decisiones de manera informada y analítica. Pero antes de llegar muchos han pasado por hacer campaña electoral y aquí usan (sí o sí) la estadística para obtener la mayor parte del pastel (electoral).
Uno de los mayores retos que tenemos los seres humanos es la optimización de recursos, en este caso, ser más eficientes (obtener más con poco). Los partidos políticos tienen una cantidad de dinero limitada (o eso nos gustaría) para gastar en sus campañas políticas, así que buscan obtener la mayor cantidad de votos ajustándose a este presupuesto. Veamos algunas estrategias típicas de marketing; después veremos que son idénticas a las que se usan en la publicidad.
- Hay personas que siempre votan al mismo partido, sea cual sea su reputación. Es lo que se llama el voto duro. Por tanto, habrá todo un segmento que los votará y otro que no, pues será voto duro de otros partidos. Con ellos no gastarán porque son votos que ya están decididos.
- Hay personas que son afines a las ideas del partido, pero que por alguna pequeña diferencia particular prefieren votar a otro. Dentro de este grupo podemos encontrar a personas que pueden cambiar su voto porque les gusta más un candidato (¡o porque lo rechazan!), o en esta campaña en particular apoyan una idea muy concreta o simplemente porque les ha gustado su anuncio en televisión. Este grupo es el que interesa a los políticos, y es en ellos donde harán el gasto. Se les suele llamar indecisos.
Para saber a quién dirigirse, los partidos contratan empresas (por ejemplo IPSOS) que se encargan de realizar encuestas sobre las preferencias electorales de los ciudadanos con derecho a voto; además hacen las llamadas "encuestas a pie de urna", esto es, eligen una muestra representativa de mesas electorales y el día de la votación envían encuestadores a esas mesas; cada cierto tiempo (3 horas, aproximadamente) envían los datos a la central. Utilizan una hoja similar a esta:
Fig 6. Detalle de la hoja para la encuesta electoral que trabajamos en clase.
Puedes descargar el documento desde aquí.
Los datos en amarillo son las preguntas, los datos en verde no se preguntan, el encuestador se encarga de valorar al encuestado y rellenar estos datos. Se usó antes de las elecciones y del fenómeno Podemos.
El encuestador sólo pregunta por la preferencia de voto de la persona que ha salido de la mesa electoral, y es su responsabilidad hacerlo correctamente dentro de la hoja de datos (matriz): la hora, el género de la persona, su edad aproximada, etc. Seguro que te imaginas qué sigue, pues el partido se interesa por:
- la hora a la que van los votantes, tanto los suyos como los de su competencia,
- la edad,
- el género,
- todos aquellos datos que le permitan deducir quienes les votan y quienes no.
Tu eres el objetivo (y el producto)
Este mismo proceso es el que usan las empresas de publicidad de medios (radio, TV, medios impresos) e internet. Lo mejor es que en estos casos podemos ver con nuestros propios ojos como funciona.
1. Publicidad en medios tradicionales
Usaremos como ejemplo la TV abierta. ¿Te has preguntado alguna vez cómo es posible que la TV que emite en abierto sea gratuita?. Sólo que aquí hay algo que no va bien... PRIMER ERROR: La TV abierta NO es gratuita. Justamente esa es la razón que ganen dinero, aunque nosotros no paguemos dinero por ver los programas.
Estas empresas obtienen dinero vendiendo espacios publicitarios; o sea que mientras estamos viendo nuestros programas favoritos, de tanto en tanto se emiten anuncios publicitando productos, también conocidos como comerciales. Como tienen estudiado nuestro perfil, contratan tiempo en la televisora para mostrar los productos que consideran que desearemos comprar; así es como funciona la TV en abierto. El procedimiento es el mismo que con los partidos políticos: recogen datos de los gustos de las personas, los horarios, etc. A partir de aquí, hacen una segmentación por sexo, edades, estrato social, preferencias... Cuando tienen los datos procesados, a cada conjunto le dan un nombre bastante ilustrativo: somos sus targets (objetivos), y usan otros bonitos anglicismos como "share" y "time prime".
Experimenta
Lo mejor de todo es que podemos comprobarlo. Puedes hacerlo de la siguiente forma:
La próxima vez que mires tus programas favoritos, fíjate muy bien qué tipo de productos se anuncian y apunta los datos: programa, horario, tipo de producto. A partir de aquí puedes hacerte las siguientes preguntas:
- ¿A quien pueden interesar estos anuncios (a mí, a mi padre, madre, abuela, amigos)?.
- Si los veo en otro canal o programa, ¿el canal o programa son "similares" al anterior?, ¿lo hacen a una hora similar?.
- Mira algún programa preferido de tu familia o amigos, haz lo mismo de antes y compara con lo tuyo. ¿Los anuncios se parecen a los que se ven en tus programas?. ¿En qué cambian?. ¿Se ajustan al tipo de persona que los está viendo (por ejemplo: niño, joven, adulto, persona mayor)?.
- Prueba de mirar en otro horario y contesta las mismas preguntas.
2. Publicidad en internet
Si has llegado a comprender como nos conocen desde los medios tradicionales, te recomiendo que te sientes y respires pausadamente para poder leer tranquilamente lo que viene a continuación.
Uno de los problemas de las empresas tipo Nielsen (y de la Estadística en general) es que no pueden monitorear a los televidentes todo el tiempo, pero el uso de técnicas estadísticas les ayuda a entender bastante bien su comportamiento.
Este problema se vuelve pequeño cuando llegamos a internet. Aquí sí que es posible hacer un seguimiento mucho más exhaustivo del comportamiento de las personas, a través de "seguirlos" por las webs que visitan, el tiempo que pasan en ellas, los horarios y ubicaciones desde donde lo hacen... Un momento, por favor, que me ha dado un escalofrío...
El funcionamiento de la publicidad en internet parte de los mismos objetivos de los medios tradicionales: encontrar los targets y mostrarles la publicidad adecuada a sus gustos, intereses y circunstancias. Siempre mirando lo que haces en internet. Con muchas más precisión. Con mucha más potencia. Y con mucha más seguridad (para el anunciante).
Todo esto se ha potenciado con la llegada de los smartphones, que nos permiten estar conectados las 24 horas del día, buscar la información que queramos al momento, contactar con otros desde las redes sociales o servicios de mensajería... Hemos llegado a ser un gran producto.
Hemos ganado mucho en cuanto a estar relacionados e informados a costa de ver reducida nuestra privacidad. Si alguna vez has escuchado decir que Google o Facebook sabe más de nosotros que nosotros mismos ya puedes comenzar a tomarlo muy en serio. Hasta donde se sabe, el interés de este tipo de empresas de internet se limita a ponernos la publicidad que creen que es más adecuada para nosotros, sin intención alguna de juzgarnos. Hasta aquí, cada quien acepta o no este seguimiento; el problema viene cuando la empresa usa nuestros datos para otros fines no comerciales (como se vió aquí), o que tengan un problema de seguridad y nuestros datos lleguen a personas, como le pasó a Sony con los datos de las tarjetas de crédito de sus clientes.
Fig. 7. Ya sé que es repetida, pero aquí tiene más sentido. Big Brother, el Gran Hermano que todo lo ve ahora tiene competencia.
Tomada de aquí.
Experimenta
En el caso de internet es más fácil comprobar la segmentación del mercado. Podemos hacerlo de la siguiente manera.
- Si tienes un equipo con acceso a internet que mayoritariamente lo uses tú, mira atentamente la publicidad que aparece en las páginas que visitas. ¿Tiene que ver con las webs que sueles visitar?.
- Puedes probar a hacer lo siguiente: Comienza a hacer búsquedas y visitar webs de un tema que no hayas visto nunca desde ese equipo. Por ejemplo: la liga de cricket.
- Mira la publicidad de las primeras páginas que visitas.
- Insiste en el tema un rato más. Visita más webs y haz búsquedas con los nombres de jugadores o equipos relevantes. Mira la publicidad que sale: seguramente ya está relacionada con el cricket.
- Busca otro tema completamente diferente. Por ejemplo: el uso del pez cebra en investigación genética. Haz lo mismo que en el caso anterior.
- ¿Notas los cambios en la publicidad? ¿Se relaciona con tu naevgación por internet?
Un paso más allá lo ha dado Amazon, quien fue una de las primeras en usar un Sistema de recomendación útil. ¿Que hace este sistema?. Simplemente revisa los perfiles similares al tuyo, mira cuáles son los productos que más ha comprado o buscado y te los presenta en la parte de abajo de la pantalla.
Very Big Big Data
Para poder hacer buenos perfiles y targets, es necesario ir recopilando mucha información, y precisamente internet es una generadora de datos sin parar. Toda nuestra actividad en internet va quedando registrada, de una manera o de otra. Esto provoca que la cantidad de datos vaya creciendo de manera alarmante, así como la capacidad para organizarlos y sobre todo, analizarlos.
Fig. 8. Grandes cantidades de datos y sus relaciones. Además de conseguir, almacenar y organizar grandes cantidades de datos, también tenemos que ser capaces de analizarlos y predecir comportamientos en base a ello. Todo un reto. De aquí.
Si pudiésemos mirar todos los datos que se generan debido a nuestra navegación, nos soprendería tanto la cantidad como lo que revelan estos datos sobre nosotros: Cuantos más datos, mejor. Y si los sumamos a los datos de navegación de otros internautas y de las cosas, porque claro, ahora se conecta a internet la TV, el BluRay, el calzado deportivo, los relojes, los smartphones, los coches... Es tal la cantidad de información que se genera por estas y otras cosas que monitorizamos como la meteorología y la economía; para una definición más exacta y otros interesantes ejemplos se puede ver aquí y aquí.
Open Data
Pero no todo va de privacidad y comercialización a través de los datos. Actualmente, uno de los retos más interesantes es ¿qué se puede hacer con todos aquellos datos que ya están capturados y guardados?. Puesto que, aunque no lo creamos, la información tiene caducidad; esto se puede entender de diferentes maneras, como por ejemplo: información que deja de ser válida porque hay actualizaciones; información almacenada en aparatos obsoletos (o difíciles de acceder físicamente), o incluso porque la ley contempla que los datos deben ser borrados cuando son innecesarios.
Fig. 9. ¡Los datos abriéndose paso!
Obtenida aquí.
- Dado que muchos de estos datos aún pueden ser útiles y evitar que caduquen, en el año 2010 surgió en Inglaterra la primera base de datos abiertos (Open Data) para que pudieran ser usados libremente. Básicamente, serán considerados como Open Data aquellos datos que estén disponibles para cualquiera los pueda acceder a ellos, sin restricciones de derechos de autor, patentes o cualquier otro mecanismo de control similar. ¿Qué se consigue con ello? Organizaciones públicas y privadas o personas físicas pueden construir aplicaciones que reutilicen y aprovechen estos datos, teniendo la libertad de hacerlo con o sin ánimo de lucro.
Conclusiones
Como se puede observar, la estadística aplicada en diferentes ámbitos de la vida, tanto científico-técnico como económico, social y humano, y que nos puede ayudar a:
- Comprender si hay alguna diferencia en el comportamiento de conjuntos de datos,
- Encontrar si un comportamiento es repetitivo, y cuanto (patrones),
- Predecir comportamientos futuros a partir de comportamientos anteriores,
- Y muchas más...
Esto convierte a la Estadística en una de las mejores herramientas matemáticas a nuestro alcance para ir más allá en el conocimiento o aplicación de prácticamente cualquier área; espero pronto poder escribir sobre aplicaciones en el ámbito de la pedagogía, psicología, turismo, criminalística, trabajo social, agricultura y epidemias, por ejemplo.
En el siguiente post veremos algunos ejemplos sencillos (y con pocos números, en la medida de lo posible) de lo que hemos hablado. Pero sobre todo, recuerda que el uso de esta herramienta tiene que ir acompañada de sentido común, experiencia y conocimiento para que los resultados puedan ser útiles realmente.
Para saber más:
Si quieres profundizar en alguno de estos temas, te dejo una serie de enlaces donde podrás ampliar la información.
- Una presentación donde explican de manera básica cual es el papel que juega la Estadística en la investigación científica (descargable directamente en .zip).
- Este blog iniciaba muy bien, ojalá lo hubiesen continuado.
- Sobre medicamentos y ensayos clínicos (farmacología clínica), del Dr. Eduardo Francisco Farías. Tiene lo esencial de los conceptos en estudios farmacológicos, indispensable para quien quiera comprender cómo y por qué se hacen las pruebas de los medicamentos (en PDF).
- Apuntes de Estadística en Ciencias de la Salud. Botella-Rocamora, P., Alacreu-García, M., ambos del Depto.Ciencias F sicas, Matem aticas y de la Computaci on, Univ. CEU-Cardenal Herrera; Martínez-Beneito, M.A. del Centro Superior de Investigación en Salud Pública, de la Generalitat Valenciana.
- Una sencilla explicación de la Metodología 6σ.
- Para los que quieren estudiar Economía o Empresariales porque hay pocas matemáticas, aquí les dejo una Guía Docente en Estadística Económica (en PDF), de la Universidad de Alcalá (España).
- Lo mismo para los que quieran estudiar Psicología, esta excelente introducción (las primeras 5 páginas, todo el documento en pdf) que es parte del OpenCourseWare de la Universitat de Valencia, de los profesores J. Gabriel Molina y María F. Rodrigo.
- Una presentación sobre la aplicación en marketing (en Prezi).
- Cuota de pantalla: audiencias en televisión y como se reparten el pastel los grandes medios.
- La histórica empresa IBM nos explica qué es el Big Data.
2
1
-
Más información sobre caducidad de la información: http://seguridad-de-la-informacion.blogspot.com.es/2009/03/la-caducidad-de-los-datos.htmlEn este interesante blog se puede descubrir más sobre los usos y aplicaciones que ya se están haciendo gracias al uso del Open Data. En este portal hay bastante información para comprender el Open Data.
Muy cierta las explicaciones sobre las estadisticas.
ResponderEliminar