¿Qué es Data Science?
La ciencia de datos es un nuevo campo interdisciplinario cuyo objetivo es analizar y desarrollar explicaciones de fenómenos complejos a partir del análisis de los datos generados por eventos particulares.
La ciencia de datos se relaciona con otras disciplinas para el tratamiento y comprensión de datos, entre las que destacan las siguientes:
- La estadística, una disciplina matemática que se ocupa de la recopilación, organización, análisis, interpretación y presentación de datos para una mejor comprensión de la naturaleza. Como tal, su agenda principal consiste en inferir, a partir de ese estudio, reglas generales o conceptos que pueden aplicarse a observaciones nuevas o desconocidas.
- La inteligencia artificial, una disciplina que tiene el objeto de desarrollar métodos de solución de problemas que, por sus mecanismos complejos de deducción, suelen compararse con los mecanismos utilizados por los seres vivos, particularmente el ser humano.
- El reconocimiento de patrones, una de las disciplinas de las ciencias de la computación, relacionada con el análisis inteligente de datos. Su objetivo es la identificación de patrones o regularidades en los datos disponibles en un determinado contexto. El reconocimiento de patrones utiliza elementos de estadística, gramáticas formales y metáforas con la naturaleza para desarrollar sus métodos propios.
- El aprendizaje automático, una disciplina orientada a desarrollar métodos que les permitan a las máquinas construir modelos analíticos a partir de datos. Como tal, puede considerarse una rama de la inteligencia artificial, basada en el reconocimiento de patrones, o como un área del reconocimiento de patrones basada en un enfoque de inteligencia artificial.
- La minería de datos, una disciplina cuyo objetivo es descubrir patrones en conjuntos de datos complejos. La complejidad puede deberse a su volumen (espacial o de velocidad de generación) o a su falta de estructura. Para ello, se vale de métodos especializados de reconocimiento de patrones, provenientes lo mismo del aprendizaje automático que de la estadística, además de técnicas especializadas para manejo de bases de datos.
Si bien, la ciencia de datos está vinculada con estas disciplinas y su interrelación con todas ellas se vuelve cada vez más estrecha y compleja, es importante distinguir su naturaleza como una disciplina con una agenda propia, que se nutre de otras disciplinas como la ingeniería de software y la gestión. A diferencia de otras disciplinas, la finalidad principal de la ciencia de datos es generar información útil para la toma de decisiones en problemas específicos, por lo cual se adoptan métodos provenientes de cualquier disciplina que aporte fortaleza a la solución, con un punto de vista dinámico y flexible.
Data science suele representarse como la integración de cuatro grandes áreas: Informática (aprendizaje automático, ingeniería de software de software, bases de datos, programación, etc.), Matemáticas (incluyendo estadística, matemáticas discretas, cálculo, etc.), Conocimiento del domino (conocimiento del área de la que se quiere resolver un problema; finanzas, medicina, administración, agricultura, etc.) y Habilidades blandas (manejo de grupos de trabajo interdisciplinarios, relación con el cliente, habilidades de comunicación, etc.). Visto así, el "científico de datos" es, obviamente, un unicornio, del que se habla mucho pero que solo existe en la fantasía.
Sin embargo, la creación de equipos multidisciplinarios, con expertos en cada una de las áreas (y solo en el área correspondiente) para resolver problemas de ciencia de datos también es una fantasía. La ciencia de datos requiere de equipos transdisciplinares; esto es, el científico de datos es aquel profesionista de cualquiera de estas áreas que se siente cómodo "invadiendo" las otras áreas: matemáticos, por ejemplo, con habilidades avanzadas de programación, con suficientes habilidades blandas para interaccionar con clientes y con equipos de trabajo multidisciplinarios y capaces de comprender y dominar, en el grado necesario, los conocimientos de cada dominio específico en el que participa. De esta manera, se crean perfiles diferentes de científicos de datos.
Estos perfiles no son fantasiosos, al contrario, son perfiles que corresponden con características ya identificadas en los profesionistas jóvenes, aquellos pertenecientes a la generación "Y", también conocida como generación del milenio, milénica o millenial. Por supuesto, este perfil también se encuentra en generaciones previas (un gran ejemplo, quizás el mejor, sería Leonarda Da Vinci), pero con menor frecuencia. No obstante, la plasticidad del científico de datos para analizar y resolver problemas desde diferentes perspectivas sigue siendo una característica relativamente poco común pero cada vez más necesaria. No en vano, esta disciplina ha sido calificada como la más sexi del siglo XXI; en 2012, Davenport y Patil escribían :
QuoteSi "sexy" significa tener cualidades raras que tienen mucha demanda, los científicos de datos ya están allí. Son difíciles y costosos de contratar y, dado el mercado muy competitivo de sus servicios, difíciles de retener. Simplemente no hay mucha gente con su combinación de antecedentes científicos y habilidades analíticas y computacionales.
Data Scientist: The Sexiest Job of the 21st Century
Thomas H. Davenport y DJ Patil
Harvard Business Review, October 2012.
En posteriores entradas de este Blog, analizaremos diferentes aspectos y técnicas de la ciencia de datos, con el objeto de que cada vez sean más los especialistas en esta área.
Edited by Ramon Soto
- 3
0 Comments
Recommended Comments
There are no comments to display.
Create an account or sign in to comment
You need to be a member in order to leave a comment
Create an account
Sign up for a new account in our community. It's easy!
Register a new accountSign in
Already have an account? Sign in here.
Sign In Now