¿Quién es un Data Scientist, qué hace y cuánto gana?

Contamos qué es la profesión de data science, en qué se ocupa un científico de datos, qué problemas resuelve y analizamos las ventajas y desventajas de trabajar como especialista en este campo.
¿Qué es un Científico de Datos y en qué se ocupa?
Un Científico de Datos es un especialista que trabaja con los datos de una empresa: los analiza, busca dependencias en ellos y, en base a esta información, saca conclusiones.

El Científico de Datos crea algoritmos que resuelven diferentes problemas empresariales y mejoran los procesos: muestran contenido interesante a los usuarios y aumentan su participación, predicen picos y caídas en las ventas, mejoran la calidad de la producción. Por ejemplo, con la ayuda de estos algoritmos, un Científico de Datos puede:
  • Predecir ventas, comportamiento de los compradores y demanda de grupos específicos de productos para que el negocio pueda ajustar su estrategia o gestionar el inventario de manera más eficiente.
  • Analizar el comportamiento de los visitantes en un sitio web para mejorar las campañas de marketing y ofrecer contenido más interesante al consumidor.
  • Analizar datos de texto para identificar tendencias en las redes sociales.
  • Analizar grandes conjuntos de datos para descubrir patrones y, en base a ellos, hacer predicciones científicas o descubrimientos completos, como en el caso de AlphaFold, una red neuronal que logró descifrar el mecanismo de plegamiento de las proteínas.
¿Dónde se necesita un Científico de Datos?
Un científico de datos puede encontrar trabajo en casi cualquier industria donde se generen datos adecuados para su procesamiento y análisis: datos de clientes, procesos científicos o de producción, cifras, métricas, estadísticas.

En los bancos, estos especialistas crean modelos de scoring bancario, que determinan a qué tasa se le aprobará una hipoteca a un cliente. En la industria, mediante el análisis de datos, se pueden predecir fallos en los equipos, realizar prospección geológica y garantizar la seguridad. En el comercio electrónico y minorista, se pueden aumentar las ventas mediante sistemas de recomendación y selecciones personalizadas para los compradores.

Estos expertos suelen ser contratados por grandes empresas o startups. Las primeras, porque la ciencia de datos requiere un presupuesto considerable para la recopilación y análisis de datos. Las segundas, debido a que la ciencia de datos es parte de una idea innovadora y puede impulsar el crecimiento de la empresa.
Problemas que resuelve un Científico de Datos: un ejemplo
Supongamos que a un científico de datos se le pide construir un modelo para un operador de telefonía móvil que identifique a los suscriptores en "riesgo" de cancelar sus servicios o cambiar de plan.
Para lograr esto, se deben seguir los siguientes pasos:

Recopilar datos

Esto implica determinar si hay una muestra de datos y una variable objetivo: una descripción de la característica que el modelo predecirá. Por ejemplo, si se sabe con certeza qué personas de una muestra de 100 cancelaron sus servicios y cuáles se quedaron con el operador, entonces hay una variable objetivo y se puede construir un modelo efectivo. Sin embargo, si de los 100 participantes algunos se fueron y otros se quedaron, pero no se sabe quién es quién, el modelo puede fallar.

La recopilación de datos suele ser responsabilidad de un ingeniero de aprendizaje automático o un ingeniero de datos. Su tarea es proporcionar al científico de datos datos relevantes, preparados y limpios.

Es importante no solo comprender qué datos hay para cada objeto, sino también evaluar su confiabilidad. Por ejemplo, cada conjunto de datos contiene datos falsos cuando una persona proporciona información incorrecta sobre sí misma, como escribir "900 años" en el campo de edad.

Seleccionar un modelo y preparar los datos

En esta etapa, es importante garantizar la calidad de la información en la que se entrenará el modelo. Sin esto, el algoritmo puede producir resultados incorrectos o erróneos. Preparar los datos significa transformarlos en una forma conveniente, que se llama matriz de objetos y características. Esta matriz se parece a una tabla con todas las características de los datos de entrenamiento.

Evaluar los resultados

Uno de los pasos clave es cuando el analista de ciencia de datos, basándose en su experiencia, intuición y habilidades profesionales, determina qué tan efectivo es el modelo. ¿Podrá funcionar no solo en los datos de entrenamiento, sino también en datos reales, o el algoritmo se ha sobreajustado, es decir, ha "aprendido de memoria" las respuestas para este conjunto de datos y será inútil para analizar nueva información?
Diferencias entre un Científico de Datos, un Analista de Datos y un Ingeniero de Datos
En las tareas que requieren análisis de datos, no solo participa el Científico de Datos, sino también otros especialistas. Por ejemplo, mencionamos al Ingeniero de Datos, que recopila y prepara los datos para el Científico de Datos.
También existe el Analista de Datos, un especialista que analiza y visualiza los datos para ayudar a los líderes empresariales a tomar decisiones.

A primera vista, estas profesiones pueden parecer similares y a menudo se confunden. Pero en realidad, son diferentes:
El Ingeniero de Datos recopila y prepara los datos para los analistas y los especialistas en Ciencia de Datos. No entrena modelos, pero programa mucho, trabaja con bases de datos: extrae información de ellas, la procesa y crea almacenes de datos.

El Científico de Datos y el Ingeniero de Datos a menudo trabajan juntos: uno prepara los datos, el otro los utiliza para experimentar con modelos. Por otro lado, el Analista de Datos resuelve tareas completamente diferentes: estudia estadísticas, busca ideas basadas en datos y las presenta de forma visualmente comprensible. La tarea del analista de datos es encontrar respuestas a preguntas específicas del negocio, como predecir qué productos serán populares o determinar en qué áreas de la empresa vale la pena invertir y cuáles reducir.
Lo que se necesita saber y aprender para convertirse en Científico de Datos
Un especialista en este campo debe tener un buen conocimiento de matemáticas: álgebra lineal, teoría de la probabilidad, estadística, análisis matemático. También deberá comprender la teoría del aprendizaje automático, adquirir habilidades básicas de programación en Python, familiarizarse con los marcos de trabajo para el aprendizaje automático y profundo, y aprender a trabajar con SQL, que permite obtener información de las bases de datos.

Estos son los conocimientos básicos necesarios para un especialista principiante. Se espera que un Científico de Datos experimentado tenga habilidades para resolver problemas difíciles, como construir modelos de alto rendimiento que puedan ejecutarse cientos de veces por segundo para cada cliente individual. También deben ser capaces de prevenir errores sutiles, como el sobreajuste del modelo debido a la inclusión de campos irrelevantes en el conjunto de datos de entrenamiento.

Estas habilidades solo se adquieren con experiencia, por lo que, además de la teoría, la práctica es muy importante en Ciencia de Datos. Y aquí la profesión tiene una ventaja: se puede adquirir experiencia práctica casi desde el principio del aprendizaje, participando en competiciones abiertas de aprendizaje automático. Por ejemplo, la comunidad más conocida de especialistas en Ciencia de Datos es Kaggle, una plataforma que ofrece muchos materiales de aprendizaje, pero lo más importante son las competiciones organizadas por empresas.
Una de las competiciones de Kaggle más famosas es el desafío de construir un modelo que determine qué pasajeros del Titanic sobrevivirán al desastre.

Participar e, incluso, ganar en este tipo de competiciones es una cartera de trabajo lista para mostrar a los clientes y una experiencia real en la resolución de problemas de aprendizaje automático.

Kaggle y otras competiciones pueden ser un trampolín para que un principiante en Ciencia de Datos se convierta en un especialista senior. Se puede obtener experiencia práctica "en condiciones reales" y, demostrando la capacidad de resolver problemas difíciles, aspirar a un puesto más alto.
Salario de un Científico de Datos
El nivel de salario depende de la experiencia del especialista, la región y el tamaño de la empresa. A continuación se presentan ejemplos de ofertas de trabajo en la Ciudad de México.

Un Científico de Datos Junior puede ganar hasta 40,000 pesos mexicanos.
Un especialista con experiencia media puede ganar entre 40,000 y 50,000 pesos mexicanos.
Un Jefe de Ciencia de Datos con años de experiencia y un amplio conjunto de habilidades puede ganar hasta 60,000 pesos mexicanos.
Ventajas y desventajas de trabajar como Científico de Datos
Ventajas

Profesión en demanda

Según el Foro Económico Mundial, los Analistas y Científicos de Datos ocupan los primeros lugares en la lista de las profesiones más relevantes hasta 2025.
Salario alto

Los desarrolladores y los especialistas en Ciencia de Datos tienen salarios comparables: según los datos de las ofertas de trabajo en hh.ru en mayo de 2023, un Científico de Datos de nivel medio puede aspirar a un salario similar al de un desarrollador de Python de nivel medio.

Crecimiento profesional dinámico

En Ciencia de Datos, es más fácil adquirir experiencia práctica: se pueden resolver problemas en competiciones, participar en Kaggle o hackathones, construir un portafolio y crecer rápidamente en la carrera.

Trabajo interesante

La Ciencia de Datos es una de las industrias más jóvenes y de rápido desarrollo. Hay muchas cosas interesantes aquí. Por ejemplo, se pueden automatizar tareas y sectores, desarrollar la ciencia, especializarse en aprendizaje profundo, áreas donde la inteligencia artificial resuelve problemas muy complejos.

Desventajas

Alto umbral de entrada

Los especialistas en Ciencia de Datos deben tener un buen conocimiento de matemáticas y teoría de aprendizaje automático. Además, deben estar en constante aprendizaje para mantenerse al día con las innovaciones en el campo de la IA, que cambia rápidamente.

Falta de comprensión por parte del negocio

A pesar de que el aprendizaje automático encuentra aplicaciones en casi todas las áreas, hay muchos campos donde la construcción de modelos no es eficiente: no hay suficientes datos o una variable objetivo clara. En estos casos, se puede esperar lo imposible de un Científico de Datos o se le pueden asignar tareas irrelevantes.
¿Quién es un Científico de Datos y cómo convertirse en uno? - Conclusiones
  • 1
    Un Científico de Datos crea modelos de aprendizaje automático, algoritmos matemáticos que buscan patrones y hacen predicciones en base a grandes cantidades de información.
  • 2
    Los especialistas en datos o Científicos de Datos trabajan en casi todas las industrias y campos, generalmente en grandes empresas o startups.
  • 3
    Para convertirse en Científico de Datos, es necesario estudiar la teoría: repasar o profundizar los conocimientos de matemáticas, comprender la teoría del aprendizaje automático.
  • 4
    Se puede obtener experiencia práctica en competiciones y desafíos abiertos, lo que permite comprender los detalles de la profesión, obtener una buena experiencia y convertirse en un especialista en demanda.
Leer otros artículos de Blog
Lee otros artículos relevantes del mundo de la tecnología y el espíritu empresarial.