About This Circle
All things data.
- What's new in this circle
-
Gus joined the circle
-
MelchorGracia joined the circle
-
ManuelV23 joined the circle
-
J. Saul Mier V. joined the circle
-
Miguel C. Molina joined the circle
-
ramsesrocha7 joined the circle
-
Claudia Mirel joined the circle
-
Datos y la pirámide DIKW Los datos son la materia prima del razonamiento y de la toma de decisiones y, dado su gran volumen y diversidad, son la característica fundamental de esta era. Sin embargo, y a pesar de que existe un claro consenso al respecto, no existe una definición absolutamente aceptada de lo que es un dato ni de sus productos derivados. Aqui una excelente discusión al respecto. Una definición aceptable de datos, en el contexto que nos interesa, es: A partir de los datos se generan, sucesivamente, constructos de mayor abstracción: la información, el conocimiento y la sabiduría. La relación entre los datos y estos otros conceptos suele describirse a través de la llamada pirámide de datos, también conocida como pirámide de la información, del conocimiento, de la sabiduría o, simplemente, pirámide DIKW (por las siglas en inglés data, information, knowledge, wisdom). En la siguiente figura se muestra un diagrama de la pirámide DIKW con un ejemplo simple: De manera similar, podemos definir el término información como un conjunto de datos organizados para un propósito específico y presentados en un contexto que les da significado y relevancia para el usuario. El conocimiento es el conjunto de reglas, en un contexto dado, que resultan de la interpretación y apropiación de la información por parte del usuario. La sabiduría, por su parte, es la capacidad de tomar decisiones adecuadas utilizando el conocimiento, la experiencia, la comprensión y la percepción. El fin de la ciencia de datos es transformar datos en acciones pertinentes a través de la generación de información, conocimiento y sabiduría. Patrones y percepción Un patrón puede definirse como una regularidad en un sistema. La capacidad de identificar estas regularidades es lo que podemos llamar Reconocimiento de patrones. El reconocimiento de patrones es una habilidad natural del ser humano, y de los seres vivos en general, y es lo que nos permite reconocer objetos en ambientes complejos y tomar decisiones de forma cotidiana. En la imagen siguiente, por ejemplo, podemos observar un camino de terracería y aunque se trata de tierra, piedras y vegetación mezclados, es muy simple distinguir los límites (imprecisos) entre el camino y los bordes, las piedras a un costado y la vegetación. Incluso podemos distinguir en el camino las zonas por donde transitan regularmente los automóviles. Existen diferentes tipos de regularidades que pueden ser detectadas de forma natural por los humanos, entre las que se pueden destacar las siguientes: Armonía: Proveniente del griego ἁρμονία (harmonía), que significa “conjunto, acuerdo, concordia”, esta palabra se usa comúnmente para denotar formas de concordancia y acuerdo en el ámbito social y musical. Sin embargo, podemos hablar también de armonías visuales, olfativas, gustativas o táctiles. Ritmo: El ritmo es cualquier movimiento regular y recurrente, marcado por la sucesión regular de elementos débiles y fuertes, o bien de condiciones opuestas o diferentes. En la definición del ritmo, el movimiento puede hacer referencia a una secuencia 'apreciadas' de estados: un escalón que 'sigue a otro', por ejemplo. Flujo: La palabra flujo, proveniente del latín fluxus hace referencia al movimiento de una substancia, un fluido, que puede tratarse de una corriente o de una emanación. Aunque típicamente se asocia el flujo a un líquido, actualmente el término se utiliza para para referirse a cualquier efecto en el que una cosa parece pasar o viajar, ya sea que se mueva o no. Así, podemos hablar del flujo de actividades en un proceso o del flujo de efectivo en una empresa. Simetría: La simetría se define como la 'correspondencia exacta en la disposición regular de las partes o puntos de un cuerpo o figura con relación a un centro, un eje o un plano'. Proporcionalidad: La proporcionalidad es una relación o razón constante entre magnitudes medibles. Reconocimiento de patrones y conocimiento El ser humano ha tratado, desde el surgimiento de la sociedad, de identificar las regularidades en un ambiente, típicamente azaroso, para generar modelos abstractos. Estos modelos, utilizados por los seres humanos para dominar su entorno, son representaciones parciales de la realidad, limitadas por las capacidades del ser humano para sensar su entorno. Esta idea fue planteada hace cerca de 2500 años por Protágoras y sujeta, desde entonces, a controversia. Un punto de vista alterno/complementario, para valorar la calidad de los modelos, se deriva de la alegoría de la caverna, presentada por Platón alrededor de 380 a. C. En esta metáfora, Platón describe a un grupo de prisioneros que han vivido encadenados en una cueva viendo hacia una pared desnuda. Los prisioneros juzgan el mundo a través de las sombras proyectadas en ella por objetos comunes, en contraposición a los filósofos que ven los objetos como son. De esta manera, Platón discute la importancia de la educación: los modelos de los prisioneros son pobres, en este caso, debido a la falta de conocimiento, pero pueden ser mejorados gracias a un estudio más profundo. Al margen de esta discusión por demás, filosóficamente interesante (si los modelos utilizados por los seres humanos son incompletos o erróneos por ignorancia o por imposibilidad de aprehensión de la realidad), es importante destacar la naturaleza incompleta de cualquier modelo, ya sea que dicho modelo sea resultado de métodos de reconocimiento de patrones o de teorías científicas bien establecidas. Pensamiento computacional El pensamiento computacional es un concepto que describe el proceso de razonamiento que conduce a la resolución de un problema por medios computacionales. El término fue introducido originalmente por Seymour Papert para resaltar el potencial de las representaciones computacionales para expresar ideas complejas, particularmente mediante el uso de simulaciones para enfatizar los aspectos dinámicos de los fenómenos físicos, en la enseñanza. Posteriormente, el concepto fue abordado por Jeannette M. Wing en el sentido que se utiliza actualmente, como la habilidad para descomponer un problema de manera que se pueda resolver de manera algorítmica. Wing enfatiza su importancia como una competencia básica para el aprendizaje, adicional a las de lectura, escritura y aritmética De caracter controversial, en algunos casos es presentado como una tercera forma de generar conocimiento, además de las formas tradicionales de teoría y experimentación. De acuerdo a este concepto, las actividades de resolución de problemas se pueden organizar en cuatro etapas: Descomposición: En esta etapa, el problema se replantea en pequeños subproblemas más manejables. Reconocimiento de patrones: En esta etapa, cada subproblema es analizado tratando de encontrar similaridades con otros casos resueltos u observados anteriormente. Abstracción: Esta etapa consiste en replantear el problema global y sus subproblemas, así como la solución, tratando de eliminar los aspectos específicos al caso y generalizar problema y solución. Algoritmos: Finalmente, se presenta la solución al problema en términos de una secuencia de pasos sistemáticos. Hay que notar que, en este contexto, el término de reconocimiento de patrones suele utilizarse de manera más general que el utilizado en ciencias de la computación, es decir, no sólo se trata del reconocimiento de patrones a partir de los datos, sino de segmentos de solución de problemas en general. También es digno de resaltar la coincidencia del enfoque del pensamiento computacional con el de ciencia de datos, en el sentido de estar enfocado en casos específicos y en el uso de las herramientas necesarias para sistematizar su análisis. Conclusiones El reconocimiento de patrones es una disciplina que busca explotar las capacidades naturales del ser humano para identificar regularidades en grandes volúmenes de observaciones con el fin de explicar el comportamiento de sistemas complejos. Aunque actualmente se han puesto de moda muchos otros términos relacionados con el análisis de datos, el reconocimiento de patrones sigue siendo una de las áreas fundamentales para este fin. La ciencia de datos no se limita a la aplicación de técnicas estadísticas para el análisis de datos. En su lugar, se plantea la búsqueda de una comprensión más integral. Para ello, dejamos en gran medida las matemáticas en un segundo plano, como herramientas para lograr esa comprensión más completa del problema y entran en juego toda clase de heurísticas y metáforas que permiten atacar un problema de una forma más "natural".
-
Sergio Lizarraga joined the circle
-
El crecimiento del interés de la industria en las metodologías de inteligencia artificial ha venido acompañado de una formalización del proceso de desarrollo de soluciones. Este fenómeno es particularmente notable en el área de análisis inteligente de dato, destacándose las siguientes metodologías: KDD (Knowledge Discovery in Databases). Es una metodología general, formalizada principalmente por Usama Fayyad (investigador en Microsoft Research) y sus colaboradores, para describir el proceso de generación de conocimiento a partir de datos. CRISP-DM (Cross-Industry Standard Process for Data Mining). Esta metodología fue propuesta por un consorcio formado por las empresas Daimler Chrysler AG, SPSS Inc. y NCR Systems Engineering Copenhagen con el apoyo del banco OHRA Verzekeringen en Bank Groep B.V. A diferencia de KDD, CRISP-DM presta especial atención a la comprensión del negocio como directriz del proceso de minería de datos. TDSP (Team Data Science Process). Es una metodología para el desarrollo de proyectos de ciencias de datos propuesta por Microsoft en 2016. TDSP presenta gran semejanza con CRISP-DM pero, a diferencia de su antecesor, enfatiza y especifica diversos aspectos de implementación, incluyendo estructuras de archivos para los proyectos y organización del equipo de ciencia de datos. ASUM-DM (Analytics Solutions Unified Method for Data Mining) es una refinamiento y extensión de CRISP-DM propuesto por IBM en 2015 en torno a su herramienta IBM Analytics. A pesar de frecuentes críticas por sus limitaciones, particularmente en lo referente a la ausencia de una fase de toma de decisiones, y aún cuando no ha sido actualizada, CRISP-DM sigue siendo la metodología más reconocida, particularmente en la industria, para el manejo de proyectos de ciencia de datos. CRISP-DM ofrece un marco de referencia que permite planificar el desarrollo de un proyecto de ciencia de datos a partir de 6 fases: 1) Comprensión del negocio, 2) Comprensión de los datos, 3) Preparación de los datos, 4) Modelado, 5) Evaluación y 6) Despliegue (implementación/puesta en marcha). Comprensión del negocio La fase inicial de un proyecto de minería de datos (y similares) se enfoca en entender los objetivos y requerimientos del proyecto, desde la perspectiva del negocio: a) identificar las características del problema que se quiere resolver, b) identificar cuáles son las necesidades prioritarias que el cliente quiere satisfacer y c) cuáles son los costos que el cliente está dispuesto a pagar. El resultado de esta fase debe ser la definición de un problema en términos técnicos (un problema de minería de datos, por ejemplo) y un plan preliminar de cómo alcanzar los objetivos. Las actividades en esta fase con sus respectivos resultados esperados son: Establecimiento de los objetivos del negocio. El objetivo de este conjunto de actividades es conocer las características del cliente: ¿Cuáles son sus antecedentes? ¿Cuáles son sus objetivos de negocio? ¿Cuáles son los criterios de éxito del negocio? Evaluación de la situación. Con estas actividades se busca conocer la situación de la empresa para determinar su capacidad para explotar los datos con que cuenta. Entre las preguntas que hay que responder se encuentran las siguientes: ¿Cuáles son los términos más importantes para describir el negocio? ¿Con qué recursos humanos y materiales cuenta la empresa para completar el proyecto? ¿Qué tipos de datos están disponibles para el proyecto? ¿Cuáles son los principales factores de riesgo? ¿Cuáles son los planes de contingencia para cada factor de riesgo? ¿Cuáles son los potenciales costos y beneficios del proyecto? Establecimiento de los objetivos de la minería de datos. Establecimiento de los objetivos de la minería de datos. Aquí se busca determinar los objetivos del proyecto de minería de datos y los criterios que permiten evaluar el éxito del proyecto: ¿Qué se espera obtener con el proyecto?, ¿una nueva herramienta o servicio?, ¿información para planificación estratégica? ¿Cuáles son los KPIs? Generación del plan del proyecto. La fase de comprensión del negocio debe concretarse en una determinación de intervención (hasta este punto, ¿se considera viable la realización del proyecto?) y en caso de ser positiva, en un plan de cómo realizar las siguientes fases de intervención (recursos a utilizar, compromisos, indicadores de avances, etc.). Comprensión de los datosLa comprensión de los datos se refiere a familiarizarse con las características de los datos disponibles para el proyecto y de los requerimientos adicionales de datos. Es una actividad fundamental para el desarrollo del proyecto dado que ésta es la base de todas las actividades que se realizarán a continuación. Es por ello que, en ocasiones, será necesario regresar a analizar el negocio con el fin de comprender mejor los datos.Las actividades en esta fase, con sus respectivos resultados esperados son: Recolección inicial de datos. En este primer paso, se toman muestras de los datos disponibles y se identifica el alcance, así como posibles dificultades para su recolección y uso. Se distinguen los datos propios de la empresa de otros conjuntos de datos complementarios adquiridos y se identifican las fuentes adicionales de datos. Descripción de los datos. A continuación, se identifican las características generales de los datos, como son el número de variables disponibles, la cantidad de registros, la frecuencia de generación de cada variable, su identificación, el significado de cada campo y el formato inicial. El resultado más importante de este análisis preliminar es una determinación de si los datos disponibles son suficientes para alcanzar los objetivos de la minería de datos. Exploración de los datos. El objetivo de esta actividad es identificar la distribución general de los datos a través de pruebas estadísticas básicas y establecer hipótesis preliminares. Este análisis permite identificar la complejidad del problema y realizar una selección preliminar de técnicas a utilizar. Verificación de la calidad de los datos. En este paso se verifica la completitud de los datos. Se buscan los porcentajes de datos incompletos, valores fuera de rango o no típicos y variables equivalentes. Se definen estrategias generales para resolver los problemas identificados. Preparación de los datosLa fase de preparación de los datos incluye todas las actividades necesarias para generar el conjunto de datos final que se utilizará para alimentar los modelos, partiendo de los datos originales. Está ampliamente reconocido que esta suele ser la fase que consume más tiempo en un proyecto de ciencia de los datos.En esta fase se realizan las siguientes actividades: Selección de los datos. Aquí se busca escoger una porción del volumen total de datos preseleccionados que parezca representativa del problema de minería de datos. Por una parte, se realiza una selección de registros suficientemente amplia para cubrir todo el universo de objetos a analizar y, por otra parte, se seleccionan las características (variables) que mejor describen los diferentes objetos, tratando de tener la representación más rica posible y evitar, al mismo tiempo, variables que sean básicamente equivalentes. Es importante justificar y documentar las razones por las que diferentes subconjuntos de datos se van a incluir o excluir. Limpieza de los datos. Esta actividad, que es la que más tiempo y recursos consume, tiene el objeto de subsanar las deficiencias de los datos identificadas en la fase previa. Entre las principales tareas a realizar sobresale el tratamiento a datos con valores faltantes y el manejo de datos atípicos y/o inconsistentes. Estructuración de los datos. Esta actividad consiste en generar la estructura de los registros que se emplearán en el análisis, principalmente mediante la generación de nuevas variables que resulten más descriptivas de los datos y que ayuden a reducir la complejidad del espacio de representación. Integración de los datos. La integración de datos consiste en unir datos de diferentes fuentes en un sólo conjunto de datos. Puede tratarse de crear una tabla unificada a partir de diferentes tablas o de generar registros o columnas nuevas a partir de la agregación de datos de diferentes fuentes. Formateo de los datos. Esta actividad tiene el objeto de poner los datos en la forma en que serán procesados, típicamente mediante transformaciones que no alteran su significado. Entre las tareas más tareas más comunes de formateo de datos se encuentran el cambio de escala, la eliminación de caracteres especiales y el reordenamiento de columnas y renglones en datos tabulares. ModeladoEn esta fase se eligen y se prueban diversas técnicas de modelado, afinando sus parámetros para ajustarse a la dinámica representada por los datos. En el proceso, suele ocurrir que una técnica requiera datos no contemplados en las fases previas y sea necesario dar marcha atrás para rectificar la construcción del conjunto de datos. La elección de las técnicas a utilizar se realiza utilizando criterios técnicos (como la pertinencia de la técnica para el problema específico) y prácticos (como la disponibilidad de datos adecuados, el tiempo disponible para obtener un modelo o el conocimiento de la técnica por parte del equipo de desarrollo).Las actividades en esta fase, con sus respectivos resultados esperados son: Selección de las técnicas de modelado. En este paso, se eligen las técnicas de modelado que se emplearán. La selección depende de una serie de factores relativos al proyecto, entre los que destacan el grado de estructuración del problema y de los datos (¿existen modelos formales del sistema?, ¿Existen relaciones bien identificadas entre variables?, ¿se dispone de conocimiento experto?, ¿existen suficientes datos de observación?, ¿de qué tipo son los datos existentes?), los objetivos de la minería de datos, el dominio de técnicas por parte del equipo de desarrollo, restricciones legales y las preferencias del cliente. En cualquier caso, es muy común que se requiera el uso de diversas técnicas para la solución de un problema, particularmente si es un problema complejo. Generación del plan de pruebas. Una vez seleccionadas las técnicas de modelado, se debe crear un plan de cómo realizar la implementación del prototipo (lo que suele llamarse la "prueba de concepto"). Esta actividad incluye tareas como la selección de bibliotecas y herramientas, la implementación de las técnicas, definición de una estrategia de segmentación de datos para creación del modelo y para realización de pruebas y selección de medidas de evaluación. Construcción del modelo. A continuación, se construye el modelo (o conjunto de modelos, colaborativos o competidores). Se definen los parámetros de cada modelo, se hacen pruebas preliminares y se realizan ajustes al modelo. Aquí es importante destacar el carácter incierto típico en todo proyecto de minería de datos que obliga, frecuentemente a regresar a pasos previos, en este caso a la selección de modelos, definición de parámetros e incluso, a la fase de preparación de los datos. El resultado debe ser un modelo afinado, adecuado al problema. Evaluación del modelo. Finalmente, se evalúa el modelo, haciendo pruebas con los datos reservados para ello, se realiza un reporte de los niveles de precisión/error, tiempos de respuesta, potenciales puntos críticos y cualquier otra información que sea relevante para la implementación final del sistema. Evaluación El resultado esperado de la fase de modelado es un modelo o un conjunto de modelos con un buen desempeño desde un punto de vista de los datos; es decir, un conjunto de modelos capaces de "explicar" el comportamiento de los datos. En la fase de evaluación se analiza la pertinencia de los modelos desarrollados en relación con los objetivos del negocio.Las actividades por realizar en esta fase son: Evaluación de los resultados. En esta fase se evalúan los resultados que arrojan los modelos desarrollados y se comparan tales resultados con los objetivos de negocio. Se identifican objetivos del negocio que pudieran no estar resueltos y que pudieran requerir incluir nuevas herramientas e incluso, se analiza la posibilidad de ampliar los objetivos de negocio con resultados emergentes del modelado. Revisión del proceso. Aquí se realiza una revisión de todo el proceso seguido hasta el momento, desde la comprensión del negocio, se realizan los ajustes necesarios en cada etapa yt se presentan propuestas de como mejorar todo el proceso. Determinación de los pasos siguientes. En este paso se plantean las opciones a seguir, que pueden ir desde abandonar el proyecto (si los resultados obtenidos hasta el momento prevén un impacto no rentable en el negocio), regresar a la fase inicial, replantear y corregir los pasos necesarios o preceder a la implementación. Despliegue Una vez realizado el modelado del problema y obtenidos resultados satisfactorios, es necesario transformar el modelo obtenido en un producto. Este producto puede ser un nuevo sistema de información para la toma de decisiones, una herramienta para detección de determinados comportamientos de interés en los datos que genera la empresa o una ampliación del conocimiento de la empresa que conduzca a nuevos procedimientos.Esta fase contempla las siguientes actividades: Planificación de la implementación. Este paso es determinante para lograr que la implementación se integre adecuadamente y con la menor perturbación posible al sistema actual. Deben definirse como se extenderán los sistemas actuales para incorporar los nuevos resultados, como se modificarán los procedimientos de acuerdo a la nueva información de negocios, cómo se desarrollarán los recursos humanos necesarios para la implementación de los cambios. Planificación del control y del mantenimiento. Además de planificar la implementación, hay que planificar los procedimientos de control y mantenimiento que permitan darle seguimiento a los resultados que se espera obtener, particularmente en lo que se refiere a rentabilidad y estabilidad. Generación de un informe final. El paso final del proyecto es elaborar un reporte final, que incluya la documentación técnica del proyecto, manuales de usuario y casos de uso. Adicionalmente, deben generarse un reporte ejecutivo que resuma los resultados del proyecto y cualquier otro apoyo para la presentación final ante el cliente. Revisión del proyecto. Adicionalmente, en esta fase se elabora también un reporte anecdótico acerca del desarrollo del proyecto, que facilite el desarrollo de posteriores proyectos de innovación. Conclusiones El interés de la industria por las metodologías de aprendizaje automático (y reconocimiento de patrones, por lo tanto), se debe a la promesa de mejorar la productividad de las empresas. Este interés genera oportunidades de negocio, opciones de empleo bien pagadas, vinculación industria-universidad, desarrollo regional. Para poder aprovechar estas oportunidades, es importante establecer un plan de acción sistemático, basado en una buena comprensión de lo que el cliente busca. La metodología CRISP-DM permite mantener la atención puesta a todos los aspectos importantes para asegurar el éxito de un proyecto de minería de datos, por lo qué, de manera explícita o implícita, es conveniente tenerlo como guía. CRISP-DM es la metodología de facto en la industria para el desarrollo de proyectos de minería de datos. Esta metodología hace énfasis en garantizar que las soluciones planteadas se integren adecuadamente al negocio y le generen valor. En próximas entradas de este blog presentaremos ejemplos de la utilización de las diferentes fases de Crisp-DM a proyectos de Ciencias de Datos.
-
Orlando Murrieta joined the circle
-
Enrique Jimenez joined the circle
-
David Pacheco joined the circle
-
La ciencia de datos es un nuevo campo interdisciplinario cuyo objetivo es analizar y desarrollar explicaciones de fenómenos complejos a partir del análisis de los datos generados por eventos particulares. La ciencia de datos se relaciona con otras disciplinas para el tratamiento y comprensión de datos, entre las que destacan las siguientes: La estadística, una disciplina matemática que se ocupa de la recopilación, organización, análisis, interpretación y presentación de datos para una mejor comprensión de la naturaleza. Como tal, su agenda principal consiste en inferir, a partir de ese estudio, reglas generales o conceptos que pueden aplicarse a observaciones nuevas o desconocidas. La inteligencia artificial, una disciplina que tiene el objeto de desarrollar métodos de solución de problemas que, por sus mecanismos complejos de deducción, suelen compararse con los mecanismos utilizados por los seres vivos, particularmente el ser humano. El reconocimiento de patrones, una de las disciplinas de las ciencias de la computación, relacionada con el análisis inteligente de datos. Su objetivo es la identificación de patrones o regularidades en los datos disponibles en un determinado contexto. El reconocimiento de patrones utiliza elementos de estadística, gramáticas formales y metáforas con la naturaleza para desarrollar sus métodos propios. El aprendizaje automático, una disciplina orientada a desarrollar métodos que les permitan a las máquinas construir modelos analíticos a partir de datos. Como tal, puede considerarse una rama de la inteligencia artificial, basada en el reconocimiento de patrones, o como un área del reconocimiento de patrones basada en un enfoque de inteligencia artificial. La minería de datos, una disciplina cuyo objetivo es descubrir patrones en conjuntos de datos complejos. La complejidad puede deberse a su volumen (espacial o de velocidad de generación) o a su falta de estructura. Para ello, se vale de métodos especializados de reconocimiento de patrones, provenientes lo mismo del aprendizaje automático que de la estadística, además de técnicas especializadas para manejo de bases de datos. Si bien, la ciencia de datos está vinculada con estas disciplinas y su interrelación con todas ellas se vuelve cada vez más estrecha y compleja, es importante distinguir su naturaleza como una disciplina con una agenda propia, que se nutre de otras disciplinas como la ingeniería de software y la gestión. A diferencia de otras disciplinas, la finalidad principal de la ciencia de datos es generar información útil para la toma de decisiones en problemas específicos, por lo cual se adoptan métodos provenientes de cualquier disciplina que aporte fortaleza a la solución, con un punto de vista dinámico y flexible. Data science suele representarse como la integración de cuatro grandes áreas: Informática (aprendizaje automático, ingeniería de software de software, bases de datos, programación, etc.), Matemáticas (incluyendo estadística, matemáticas discretas, cálculo, etc.), Conocimiento del domino (conocimiento del área de la que se quiere resolver un problema; finanzas, medicina, administración, agricultura, etc.) y Habilidades blandas (manejo de grupos de trabajo interdisciplinarios, relación con el cliente, habilidades de comunicación, etc.). Visto así, el "científico de datos" es, obviamente, un unicornio, del que se habla mucho pero que solo existe en la fantasía. Sin embargo, la creación de equipos multidisciplinarios, con expertos en cada una de las áreas (y solo en el área correspondiente) para resolver problemas de ciencia de datos también es una fantasía. La ciencia de datos requiere de equipos transdisciplinares; esto es, el científico de datos es aquel profesionista de cualquiera de estas áreas que se siente cómodo "invadiendo" las otras áreas: matemáticos, por ejemplo, con habilidades avanzadas de programación, con suficientes habilidades blandas para interaccionar con clientes y con equipos de trabajo multidisciplinarios y capaces de comprender y dominar, en el grado necesario, los conocimientos de cada dominio específico en el que participa. De esta manera, se crean perfiles diferentes de científicos de datos. Estos perfiles no son fantasiosos, al contrario, son perfiles que corresponden con características ya identificadas en los profesionistas jóvenes, aquellos pertenecientes a la generación "Y", también conocida como generación del milenio, milénica o millenial. Por supuesto, este perfil también se encuentra en generaciones previas (un gran ejemplo, quizás el mejor, sería Leonarda Da Vinci), pero con menor frecuencia. No obstante, la plasticidad del científico de datos para analizar y resolver problemas desde diferentes perspectivas sigue siendo una característica relativamente poco común pero cada vez más necesaria. No en vano, esta disciplina ha sido calificada como la más sexi del siglo XXI; en 2012, Davenport y Patil escribían : En posteriores entradas de este Blog, analizaremos diferentes aspectos y técnicas de la ciencia de datos, con el objeto de que cada vez sean más los especialistas en esta área.