La ilusión de los grandes datos: cómo funciona la sociología y qué hacer para que te crean

El 51% de los estudiantes en México utilizan plataformas en línea, el 89% de los ciudadanos de Estados Unidos no confían en el gobierno, el 47% de los estadounidenses considera que la pena de muerte es justa, y al mismo tiempo el 48% está a favor de la cadena perpetua. Explicamos de dónde provienen estos números, cómo se procesan y si se pueden confiar en ellos.

Trabajando con datos

Año tras año, nuevas tecnologías llegan a nuestras vidas. A principios de los años 2000, surgió el nuevo término Big Data, que marcó una nueva etapa en el desarrollo de la industria de la tecnología de la información. Ahora, todo lo que hacemos, todo el mundo que nos rodea, se describe en el lenguaje de los datos.

Por ejemplo, los sitios web recuerdan el comportamiento de los usuarios, las empresas ingresan a los clientes en sistemas electrónicos, etc. Estos datos se almacenan de una forma u otra, y con el tiempo, su cantidad aumenta cada vez más. Ahora, las empresas están aprendiendo a extraer beneficios de estos datos, por ejemplo, los datos ayudan a los analistas a tener una imagen general de lo que está sucediendo y pueden ser la base para la toma de decisiones gerenciales.

Sin embargo, a veces, trabajar con datos puede llevar a una perspectiva sesgada. Por ejemplo, en las startups les gusta hablar sobre altas tasas de crecimiento: "El número de clientes ha aumentado en un 50%", "Las ventas han aumentado tres veces". Pero si inicialmente el número de clientes era pequeño, por ejemplo, 2 clientes, entonces ese 50% se convierte en solo una cifra bonita. Este fenómeno se conoce como el "efecto de la base baja".

Otro ejemplo: "El desempleo ha aumentado un 10%", pero ¿un 10% de qué? Supongamos que antes era del 2%. Una persona no preparada puede concluir que ahora es del 12%, pero en realidad se trata de un indicador del 2.2%, que se obtiene como 2 + 10% de 2. Estos son ejemplos típicos de manipulación de datos, situaciones en las que los números son correctos, pero su interpretación crea una percepción incorrecta de la situación.

En otro ejemplo se muestra el número de clientes de una empresa por meses. En el primer gráfico, los resultados son aproximadamente iguales. En el segundo, se puede ver una tendencia constante al crecimiento.

En realidad, estos gráficos tienen los mismos valores. La diferencia aquí está solo en el paso del eje vertical. Cuando el paso es de mil, las alturas de las barras parecen similares entre sí. Sin embargo, si el paso es de cien, puede parecer que hay una tendencia constante al crecimiento en el número de clientes. Pero para una empresa que opera con miles de clientes, estos cambios en cientos no son significativos. Este es otro ejemplo de manipulación de datos. La forma en que presentamos los resultados finales afecta en gran medida la percepción de nuestros lectores sobre la dinámica de los cambios.

En la educación en línea, también se manipulan los datos, por ejemplo, algún servicio puede afirmar que el 70% de sus graduados encuentran un nuevo trabajo. Esta afirmación da la impresión de que el 70% de todos los estudiantes realmente encuentran trabajo.

Aquí es importante leer lo que se escribe en letra pequeña. Resulta que este puede ser el 70% entre aquellos que realmente buscan un nuevo trabajo. En un grupo normal, la mayoría de las personas pueden no estar buscando trabajo en absoluto. Y entre aquellos que realmente querían y se esforzaron por obtener una nueva profesión, el 70% tuvo éxito. Esta aclaración de "entre aquellos que querían encontrar una nueva profesión" puede ser muy significativa.

Imaginemos que en un grupo de estudiantes hay 100 personas, de las cuales 20 quieren cambiar de trabajo. Estos 20 están realmente motivados, completan todas las tareas, responden a las vacantes. Los otros 80 no son tan activos. Entonces, el número de "realmente buscando un nuevo trabajo" será de 20 personas según las estimaciones de los investigadores. Si el 70% de ellos encontró trabajo, entonces obtenemos que el 70% de 20 será de 14 personas. Pero si tomamos la proporción de estos 14 con respecto a todas las 100 personas que comenzaron el curso, obtenemos un porcentaje de 14 sobre 100 = 14% de empleados. Y esta es una cifra completamente diferente.

No sabemos cuántos de los que no encontraron trabajo no se pusieron en contacto. No sabemos si las personas que encontraron trabajo están satisfechas con ese trabajo. Surge la cuestión de la evaluación general de la calidad de la investigación. Y es más complicado que las fórmulas estadísticas.

Las escuelas también a menudo tratan de hacer su publicidad lo más atractiva posible. El apoyo y la atención a las características de los estudiantes, el contenido de los cursos, la colocación posterior, son tareas a las que no siempre se les presta mucha atención. A veces es bastante difícil medir y evaluar estos procesos a nivel de significado. Y aunque al final podemos tener buenos indicadores en términos de número de graduados y empleo, la evaluación general de la calidad del trabajo de la escuela solo en base a estadísticas parece incompleta. Volveremos a este problema más adelante.

En los ejemplos anteriores, se puede notar lo siguiente: los datos siempre se utilizaron para respaldar una afirmación. El mecanismo de su formación fue más o menos el siguiente:

recopilación de datos -> estadísticas -> presentación de resultados -> conclusiones

Este esquema es típico al trabajar con datos. Al mismo tiempo, en las encuestas sociológicas, se utiliza el mismo enfoque para trabajar con los datos.

¿Por qué este artículo se trata específicamente de encuestas sociológicas? En primer lugar, es algo simple y familiar para todos. La estructura de estos datos es comprensible si queremos saber qué piensa una persona sobre un tema en particular o qué tan feliz es. Lo más efectivo es simplemente preguntarle a la persona al respecto, y aquí surge una nueva pregunta: ¿hasta qué punto se puede confiar en las palabras de una persona y en su percepción subjetiva? A continuación, describiremos la estructura de las encuestas sociológicas y las compararemos con otros tipos de datos más complejos.

Errores comunes

En las encuestas sociológicas, las personas pueden dar respuestas vagas o respuestas que no corresponden a su opinión. Por ejemplo, una persona puede estar apurada y alguien la detiene en la calle y le hace una pregunta absurda. Responderá algo sin sentido y seguirá con sus asuntos.
Las propias preguntas pueden estar formuladas incorrectamente. Pueden ser preguntas largas, preguntas fuera de contexto, preguntas con negaciones, preguntas que no son neutrales.
Las muestras de personas encuestadas pueden ser demasiado pequeñas o demasiado homogéneas. Por ejemplo, en una empresa trabajan 1,000 personas, la mitad hombres y la mitad mujeres, y la encuesta se realiza solo a tres hombres de esos mil. Para una encuesta de calidad, la muestra debe ser representativa, es decir, lo suficientemente grande e incluir diferentes grupos sociales.
A veces, las personas pueden negarse a responder una pregunta por razones personales. Por ejemplo, pueden no estar interesados en el tema de la encuesta o alguien puede ser demasiado insensible para responder las preguntas que se le hacen. A veces, las personas no confían en el servicio sociológico y temen que sus respuestas puedan ser utilizadas en su contra. Como resultado, algunas personas simplemente no dieron ninguna respuesta, lo que plantea el problema de los datos incompletos.

En la novela de J. Swift "Gulliver's Travels", hay los llamados "big-endians" y "little-endians" - dos clanes en conflicto. La diferencia entre ellos radica solo en el extremo del huevo hervido que, según ellos, debe romperse para el desayuno: el extremo grande o el extremo pequeño.

Supongamos que en la ciudad viven 8,000 personas, de las cuales en realidad hay 6,400 big-endians y 1,600 little-endians (una proporción del 80% al 20%).
Se realiza una encuesta sociológica para conocer esta proporción.
Se sabe que los big-endians tienen más miedo de participar en tales encuestas. Pueden enfrentar problemas por expresar su posición. Es probable que se nieguen a participar.

¿Qué sucederá si se realiza una encuesta en esta situación?

Resulta que 2,000 personas de las 8,000 respondieron a la encuesta. Todos los little-endians responderán sin problemas y es lógico suponer que entre los 2,000 participantes habrá aproximadamente 1,600 de ellos, como en la muestra original. Entonces, los big-endians serán aproximadamente 2,000 - 1,600 = 400. Es decir, en esta formulación, la mayoría de los votos ya no están presentes.

Así pues, los índices de respuesta son una medida importante de la validez de las encuestas. Un índice de respuesta bajo indica algún tipo de problema con los encuestados.

En la fase de cálculo estadístico también hay mucho margen para diversos trucos. El método estadístico elegido, las condiciones en que se utiliza y muchos otros factores son muy importantes.

Por ejemplo, en publicidad existe el concepto de cliente potencial. Se trata de un cliente que está dispuesto a comprar un producto o servicio. Llega a través de una página web, una llamada telefónica, un soporte publicitario y otras fuentes. En teoría, aumentar el número de clientes potenciales es positivo. Pero depende de cuáles sean. Si en su mayoría son clientes potenciales de baja calidad que probablemente no compren nada, no tiene mucho sentido aumentar el número de clientes potenciales. A menudo, el coste de los clientes potenciales -es decir, el coste de la publicidad- va acompañado de una disminución de su calidad. Aunque los astutos pueden mostrar a la dirección estadísticas de que nuestra empresa ha empezado a gastar menos dinero en publicidad. Este es un ejemplo de manipulación en la fase de cálculo de las estadísticas.

Trabajando con datos en encuestas

Existen muchos tipos diferentes de datos, pueden ser estructurados o no tener ninguna estructura en absoluto. Ejemplos incluyen registros de servidores, datos sobre cambios en el clima, datos biométricos y muchos otros. Ahora, incluso se analizan textos, imágenes y videos. Para cada tipo de datos, hay métodos y herramientas de procesamiento específicos en su campo. Todos estos son trabajos de especialistas en análisis de datos (Data Scientist, Data Analyst).

Lee también:

Guía de la profesión de tester: qué hace un especialista en control de calidad, cuánto gana, qué hay que saber y dónde estudiar

Cómo trabajar con datos es un tema muy amplio. En nuestro artículo, por ahora, solo hablaremos sobre un tipo: los datos de las encuestas sociológicas. Las encuestas en sí son una buena herramienta de investigación. Los clientes de las empresas pueden ser personas completamente diferentes: especialistas en marketing, analistas, diseñadores de UI/UX y muchos otros especialistas. Estos procesos pueden incluir la verificación de varias hipótesis y la toma de decisiones basadas en datos. Dentro de las empresas, las encuestas son realizadas por el departamento de recursos humanos o directamente por la gerencia para comprender las necesidades de los empleados. También existen servicios de investigación oficiales para realizar encuestas sociológicas.

Una encuesta sociológica es, en su mayoría, simplemente un conjunto bien pensado de preguntas. En una buena encuesta, las formulaciones de las preguntas se perfeccionan hasta el punto ideal: en la medida de lo posible, son preguntas "estrechas" específicas que permiten al encuestado cierta libertad para responder. Deben ser objetivas y no contener publicidad ni ninguna otra presión.

También hay un conjunto de requisitos para el comportamiento del entrevistador. Principalmente, debe establecer una buena relación con la persona y tratar de conocer su opinión real. Aquí hay una serie de factores importantes:

El estilo del entrevistador
Frases especiales para iniciar la conversación
Cadenas de frases en el diálogo oral
Ubicación adecuada. Todos estos puntos se planifican antes de comenzar la encuesta. Esta conversación es un tipo de arte psicológico conocido por los sociólogos en ejercicio.

Al mismo tiempo, hay muchos tipos de encuestas similares. Esto incluye "conocer a alguien en la calle", una conversación en un lugar característico para el tema de la encuesta (una tienda, un centro comercial), una encuesta telefónica, una encuesta escrita.

El número de personas encuestadas también es importante. Es importante reclutar representantes de diferentes grupos sociales: por edad, género, región. El número de personas que pertenecen a un grupo social en particular debe ser limitado, se establecen cuotas para cada uno de ellos. Se crean tipos de encuestados: por ejemplo, un hombre de 40 años de una región provincial con educación secundaria, una mujer de 25 años de la capital con educación superior, etc.

Además, el número de encuestados no debe ser demasiado pequeño. La cantidad necesaria de encuestados y otros detalles de la investigación se determinan utilizando la ciencia llamada estadística matemática. El instrumento clave aquí es el teorema del límite central.

Este teorema garantiza que la proporción de opiniones entre los participantes de la encuesta en general corresponde a la proporción de opiniones entre toda la audiencia. Esto se afirma con cierto grado de confianza.

Supongamos que encuestamos a 1,000 clientes de una empresa: a favor o en contra de una cierta decisión. Si el porcentaje de votos a favor es del 80%, entonces las leyes de la estadística permiten con cierto grado de confianza concluir que el mismo porcentaje se mantiene entre todos los clientes de la empresa (que pueden ser millones).

Parece que todo está bien. Pero en realidad, esta conclusión se hace solo con cierto grado de confianza. La estadística permite calcular esta probabilidad directamente y llegar a la conclusión: "Con un 95% de confianza, se puede considerar que la desviación de las proporciones en la muestra y en la población en general no excede dos errores estándar". Sin una explicación adicional, es difícil entender lo que realmente significa tal conclusión.

Esta afirmación significa lo siguiente: si los expertos realizaran no 1, sino 100 encuestas a 1,000 clientes cada una, entonces en 95 de cada 100 encuestas, la desviación de la proporción en la muestra y en la población en general sería insignificante. En resumen, los sociólogos están seguros de los resultados de la encuesta en un 0.95 con cierta precisión en las desviaciones de las proporciones.

Por supuesto, cuanto más seguros estén los expertos en sus conclusiones, más perderán en términos de precisión. Para obtener un mayor porcentaje de confianza, deben tomar más encuestados en la muestra y evaluar más estrictamente las desviaciones de las proporciones reales. Puede leer más sobre estos problemas en el libro "Naked Statistics" de Charles Wheelan, que utiliza el ejemplo de la distribución de votos para diferentes candidatos en las elecciones.

El autor de su libro dice que en realidad hay dos problemas principales para llevar a cabo encuestas sociológicas efectivas:

Determinar la muestra correcta y llegar a ella
Obtener información de este grupo representativo de manera que refleje con precisión las opiniones de sus miembros.

Resulta que a menudo los problemas de las encuestas no están en los métodos estadísticos, sino en cómo encontrar a las personas adecuadas y obtener respuestas honestas de ellas. Esto se logra mediante la aplicación de diversas técnicas sociológicas y psicológicas. Preguntas inteligentes, búsqueda cuidadosa de encuestados, diversos métodos de selección hacen que la encuesta sea de mayor calidad. Pero es precisamente aquí donde surge un gran espacio para la manipulación de datos.

La interpretación de los resultados de la encuesta también es importante. ¿Qué significa el resultado de la encuesta: "El 47% de los estadounidenses considera que la pena de muerte es justa, y al mismo tiempo el 48% está a favor de la cadena perpetua"?

En realidad, en respuesta a la pregunta "¿Apoya usted la pena de muerte?", el 60% de los estadounidenses responde afirmativamente. Y en el caso de una encuesta en la que se le ofrece al encuestado elegir entre la pena de muerte y la cadena perpetua como la mejor medida de castigo, los resultados se dividen en 47% y 48%. Es decir, en esta formulación, la mayoría de los votos ya no están presentes.

Este ejemplo muestra lo importante que es la formulación y el contexto de la pregunta. Es importante que la pregunta esté en algún campo semántico y esté relacionada con otras preguntas sobre el tema, entonces los resultados de la investigación reflejarán mejor la imagen real en la sociedad.

Checklist para una buena investigación

Muestra. El conocimiento de los encuestados corresponde al tema de la investigación. La muestra es grande y representativa. Un pequeño porcentaje de personas se negó a responder la pregunta.
Cuestionario. Está formulado correctamente y contiene un conjunto de preguntas estrechas y específicas.
Métodos de recolección. La información se recopila mediante entrevistadores experimentados. Se utilizan métodos apropiados para el tipo de encuesta (telefónica, en la calle, etc.).
Estadísticas. Se utilizan métodos estadísticos conocidos para verificar hipótesis.
Interpretación. Los resultados de la investigación se presentan correctamente, con la adición de todos los detalles y suposiciones iniciales.

Nunca te detengas:

En programación, dicen que siempre debes seguir aprendiendo, incluso solo para mantenerte en el mismo lugar. Desarrolla tus habilidades con nosotros: en Códica hay cientos de cursos sobre desarrollo en diferentes lenguajes y tecnologías

Inicio Blog

Leer otros artículos de Blog

Lee otros artículos relevantes del mundo de la tecnología y el espíritu empresarial.

¿Vale la pena aprender JavaScript: perspectivas, situación en el mercado laboral, opiniones de expertos

Las 50 mejores películas y series sobre tecnología

¿Qué es MVC: explicado en palabras sencillas

Lenguaje de programación Java: lo que un principiante necesita saber

Todo sobre Node.js: por qué escribir backend en JavaScript y cuánto se paga por ello

Cómo aprender a programar: 6 cosas que aprendí en Códica