Ciencia de datos. Брендан Тирни
Чтение книги онлайн.
Читать онлайн книгу Ciencia de datos - Брендан Тирни страница 7
La historia de Moneyball es un ejemplo muy claro de cómo la ciencia de datos puede dar a una organización una ventaja en un espacio de mercado competitivo. Sin embargo, desde una perspectiva de ciencia de datos pura, quizás el aspecto más importante de la historia de Moneyball es que destaca que a veces el valor principal de la ciencia de datos es la identificación de atributos informativos. Una creencia común es que el valor de la ciencia de datos está en los modelos creados a través del proceso. Sin embargo, una vez que conocemos los atributos importantes en un dominio, es muy fácil crear modelos basados en datos. La clave del éxito es obtener los datos correctos y encontrar los atributos correctos.
La clave del éxito es obtener los datos correctos y encontrar los atributos correctos. |
En Freakonomics: Un economista politicamente incorrecto explora el lado oculto de lo que nos afecta, Steven D. Levitt y Stephen Dubner ilustran la importancia de esta observación en una amplia gama de problemas. Como lo expresaron, la clave para entender la vida moderna es “saber qué medir y cómo medirlo” (2009, 14). Mediante la ciencia de datos podemos descubrir los patrones importantes en un conjunto de datos, y estos patrones pueden revelar los atributos importantes en el dominio. La razón por la cual la ciencia de datos se usa en tantos dominios es que no importa cuál sea el dominio del problema: si los datos correctos están disponibles y el problema se puede definir claramente, entonces la ciencia de datos puede ayudar.
¿Por qué ahora?
Varios factores han contribuido al reciente crecimiento de la ciencia de datos. Como ya hemos mencionado, la aparición del big data ha sido impulsada por la relativa facilidad con la que las organizaciones pueden recopilar datos. Ya sea a través de registros de transacciones de punto de venta, clics en plataformas en línea, publicaciones en redes sociales, aplicaciones en teléfonos inteligentes u otros miles de canales, las compañías ahora pueden crear perfiles mucho más ricos de clientes individuales. Otro factor es la mercantilización del almacenamiento de datos con economías de escala, lo que hace que almacenar datos sea más barato que nunca. También ha habido un tremendo crecimiento en la potencia informática. Las tarjetas gráficas y las unidades de procesamiento gráfico (GPU en inglés) se desarrollaron originalmente para hacer una representación gráfica rápida para juegos de computadora. La característica distintiva de las GPU es que pueden llevar a cabo multiplicaciones rápidas de matrices. Sin embargo, las multiplicaciones de matrices son útiles no solo para la representación gráfica, sino también para el aprendizaje automático. En los últimos años, las GPU se han adaptado y optimizado para el uso del aprendizaje automático, lo que ha contribuido a grandes aceleraciones en el procesamiento de datos y el entrenamiento de modelado. También se han vuelto disponibles herramientas de ciencia de datos fáciles de usar y se han reducido las barreras para ingresar a la ciencia de datos. En su conjunto, estos desarrollos significan que nunca ha sido tan fácil recopilar, almacenar y procesar datos.
En los últimos 10 años también ha habido avances importantes en el aprendizaje automático. En particular, ha surgido el aprendizaje profundo y ha revolucionado la forma en que las computadoras pueden procesar el lenguaje y los datos de imágenes. El término aprendizaje profundo describe una familia de modelos de redes neuronales con múltiples capas de unidades en la red. Las redes neuronales han existido desde la década de 1940, pero funcionan mejor con conjuntos de datos grandes y complejos y requieren una gran cantidad de recursos informáticos para entrenar. Por lo tanto, la aparición del aprendizaje profundo está relacionada con el crecimiento en el big data y la potencia informática. No es una exageración describir el impacto del aprendizaje profundo en una variedad de dominios como nada menos que extraordinario.
El programa informático AlphaGo7 de DeepMind es un excelente ejemplo de cómo el aprendizaje profundo ha transformado un campo de investigación. Go es un juego de mesa que se originó en China hace 3.000 años. Las reglas de Go son mucho más simples que el ajedrez; los jugadores se turnan para colocar piezas en un tablero con el objetivo de capturar las piezas de su oponente o el territorio vacío circundante. Sin embargo, la simplicidad de las reglas y el hecho de que Go usa un tablero más grande significa que hay muchas más configuraciones de tablero posibles que en ajedrez. De hecho, hay más configuraciones de tablero posibles en Go que átomos en el universo. Esto hace que Go sea mucho más difícil que el ajedrez para computadoras debido a su espacio de búsqueda mucho más grande y a la dificultad de evaluar cada una de estas posibles configuraciones de tablero. El equipo de DeepMind utilizó modelos de aprendizaje profundo para permitir a AlphaGo evaluar las configuraciones de tablero y seleccionar el siguiente movimiento a realizar. El resultado fue que AlphaGo se convirtió en el primer programa informático en vencer a un jugador profesional de Go, y en marzo de 2016 AlphaGo venció a Led Sedol, el 18 veces campeón mundial de Go, en un partido visto por más de 200 millones de personas en todo el mundo. Para poner en contexto el impacto del aprendizaje profundo en Go: en 2009, el mejor programa informático Go en el mundo fue calificado en el extremo inferior de los aficionados avanzados; siete años después AlphaGo venció al campeón mundial. En 2016, se publicó un artículo que describía los algoritmos de aprendizaje profundo detrás de AlphaGo en la revista científica académica más prestigiosa del mundo, Nature (Silver, Huang, Maddison et al. 2016).
El aprendizaje profundo también ha tenido un impacto masivo en una gama de tecnologías de consumo de alto perfil. Facebook ahora utiliza el aprendizaje profundo para el reconocimiento de rostros y para analizar textos con el fin de publicitar directamente a las personas en función de sus conversaciones en línea. Tanto Google como Baidu utilizan el aprendizaje profundo para el reconocimiento de imágenes, subtítulos y búsqueda, y traducción automática. Las asistentes virtuales Siri de Apple, Alexa de Amazon, Cortana de Microsoft y Bixby de Samsung utilizan el reconocimiento de voz basado en el aprendizaje profundo. Huawei está desarrollando actualmente un asistente virtual para el mercado chino, y también utilizará el reconocimiento de voz de aprendizaje profundo. En el capítulo 4, “Introducción al aprendizaje automático”, describiremos las redes neuronales y el aprendizaje profundo con más detalle. Sin embargo, aunque el aprendizaje profundo es un desarrollo técnico importante, quizás lo más significativo en términos del crecimiento de la ciencia de datos es la mayor conciencia de las capacidades y beneficios de la ciencia de datos y la aceptación de las organizaciones, que ha sido producto de estas historias de éxito de alto perfil.
Mitos sobre la ciencia de datos
La ciencia de datos tiene muchas ventajas para las organizaciones modernas, pero también hay una gran expectación en torno a ella, por lo que debemos entender cuáles son sus limitaciones. Uno de los mitos más importantes es la creencia de que la ciencia de datos es un proceso autónomo que podemos hacer correr en nuestros datos para encontrar las respuestas a nuestros problemas. En realidad, la ciencia de datos requiere una supervisión humana especializada en las diferentes etapas del proceso. Se necesitan analistas humanos para enmarcar el problema, diseñar y preparar los datos, seleccionar qué algoritmos de aprendizaje automático son los más apropiados, interpretar críticamente los resultados del análisis y planificar la acción adecuada a tomar en función de la información que el análisis ha revelado. Sin supervisión humana calificada, un proyecto de ciencia de datos no podrá cumplir sus objetivos. Los mejores resultados de la ciencia de datos ocurren cuando la experiencia humana y la potencia