¿Cómo es el día a día de un Data Scientist? ¡Conviértete en Data Scientist por un día!
Clic en la imagen
¿Qué es la "ciencia de datos"?
Esta "ciencia de los datos", nacida del método científico, es la evolución de lo que hasta ahora se conocía como Analista de datos, pero a diferencia de éste que sólo se dedicaba a analizar fuentes de datos de una única fuente, el Data Scientist debe explorar y analizar datos de múltiples fuentes, a menudo inmensas (conocidas como Big Data), y que pueden tener formatos muy diferentes. Además, debe tener una fuerte visión de negocio para ser capaz de extraer y transmitir recomendaciones a los responsables de negocio de su empresa.
Estos conjuntos de datos pueden provenir de los datos generados por todo tipo de dispositivos electrónicos (como un móvil, todo tipo de sensores, secuenciadores de genoma, ...), redes sociales, datos médicos, páginas web, ... y afectan de manera muy significativa la investigación actual en muchos campos como las ciencias biológicas, la informática médica, la salud, las ciencias sociales, por citar sólo algunos.
¿Qué proceso sigue un Data scientist?
El proceso que sigue un Data Scientist para responder a las cuestiones que se le plantean se pueden resumir en estos 5 pasos:
Lo que se espera de un Data Scientist es que no sólo sea capaz de abordar un problema de explotación de datos desde el punto de vista de análisis, sino que también tenga las aptitudes necesarias para cubrir la etapa de gestión de datos. Así, el objetivo de un perfil de este tipo es acercar dos mundos (el de gestión y análisis de datos), que hasta ahora habían podido existir separados, pero que debido a los nuevos requisitos de volumen, de variedad de datos y de velocidad en la explotación de estas (ie, las tres V's de la definición estándar del término Big Data), se ha vuelto imprescindible llevar a cabo esta explotación a través de un perfil combinado, y que además, también entienda el negocio para dirigir esta explotación hacia resultados que puedan ser de interés para la compañía...
Esta "ciencia de los datos", nacida del método científico, es la evolución de lo que hasta ahora se conocía como Analista de datos, pero a diferencia de éste que sólo se dedicaba a analizar fuentes de datos de una única fuente, el Data Scientist debe explorar y analizar datos de múltiples fuentes, a menudo inmensas (conocidas como Big Data), y que pueden tener formatos muy diferentes. Además, debe tener una fuerte visión de negocio para ser capaz de extraer y transmitir recomendaciones a los responsables de negocio de su empresa.
Estos conjuntos de datos pueden provenir de los datos generados por todo tipo de dispositivos electrónicos (como un móvil, todo tipo de sensores, secuenciadores de genoma, ...), redes sociales, datos médicos, páginas web, ... y afectan de manera muy significativa la investigación actual en muchos campos como las ciencias biológicas, la informática médica, la salud, las ciencias sociales, por citar sólo algunos.
¿Qué proceso sigue un Data scientist?
El proceso que sigue un Data Scientist para responder a las cuestiones que se le plantean se pueden resumir en estos 5 pasos:
- Extraer los datos, independientemente de su fuente (webs, csv, logs, APIs, etc.) y de su volumen (Big Data o Small Data)
- Limpiar los datos, para eliminar lo que distorsiona a los mismos
- Procesar los datos usando diferentes métodos estadísticos (inferencia estadística, modelos de regresión, pruebas de hipótesis, etc.)
- Diseñar nuevos tests o experimentos en caso necesario
- Visualizar y presentar gráficamente los datos.
Lo que se espera de un Data Scientist es que no sólo sea capaz de abordar un problema de explotación de datos desde el punto de vista de análisis, sino que también tenga las aptitudes necesarias para cubrir la etapa de gestión de datos. Así, el objetivo de un perfil de este tipo es acercar dos mundos (el de gestión y análisis de datos), que hasta ahora habían podido existir separados, pero que debido a los nuevos requisitos de volumen, de variedad de datos y de velocidad en la explotación de estas (ie, las tres V's de la definición estándar del término Big Data), se ha vuelto imprescindible llevar a cabo esta explotación a través de un perfil combinado, y que además, también entienda el negocio para dirigir esta explotación hacia resultados que puedan ser de interés para la compañía...
Fuente: Texto | Video