Ciencia de datos. Брендан Тирни
Чтение книги онлайн.
Читать онлайн книгу Ciencia de datos - Брендан Тирни страница 6
La presentación de datos en un formato gráfico hace que sea mucho más fácil ver y comprender lo que sucede con los datos. La visualización de datos se aplica a todas las fases del proceso de ciencia de datos. Cuando los datos se inspeccionan en forma de tabla, es fácil pasar por alto cosas como valores atípicos o tendencias en las distribuciones o cambios sutiles en los datos a través del tiempo. Sin embargo, cuando los datos se presentan en la forma gráfica correcta, estos aspectos de los datos pueden resaltar. La visualización de datos es un campo importante y en crecimiento, y recomendamos dos libros, The Visual Display of Quantitative Information de Edward Tufte (2001) y Show Me the Numbers: Designing Tables and Graphs to Enlighten de Stephen Few (2012) como una excelente introducción a los principios y técnicas de visualización efectiva de datos.
Métodos de estadística y probabilidad se utilizan en todo el proceso de ciencia de datos, desde la recopilación inicial y la investigación de los datos hasta la comparación de los resultados de diferentes modelos y análisis producidos durante el proyecto. El aprendizaje automático implica el uso de una variedad de técnicas avanzadas de estadística e informática para procesar datos para encontrar patrones. El científico de datos que participa en los aspectos aplicados del aprendizaje automático no tiene que escribir sus propias versiones de algoritmos de aprendizaje automático. Al comprender estos algoritmos, para qué se pueden usar, qué significan los resultados que generan y qué tipo de algoritmos de datos particulares se pueden ejecutar, el científico de datos puede considerar los algoritmos de aprendizaje automático como un cuadro gris. Esto le permite concentrarse en los aspectos aplicados de la ciencia de datos y probar los diversos algoritmos para ver cuáles funcionan mejor para el escenario y los datos que le interesan.
Finalmente, un aspecto clave de ser un científico de datos exitoso es poder comunicar la historia en los datos. Esta historia podría descubrir el conocimiento que ha revelado el análisis de los datos o cómo los modelos creados durante un proyecto se ajustan a los procesos de una organización y el probable impacto que tendrán en el funcionamiento de la misma. No tiene sentido ejecutar un proyecto brillante de ciencia de datos a menos de que se utilicen y comuniquen los resultados de este de tal manera que los colegas con antecedentes no técnicos puedan comprenderlos y confiar en ellos.
¿Dónde se usa la ciencia de datos?
La ciencia de datos impulsa la toma de decisiones en casi todos los aspectos de las sociedades modernas. En esta sección, describimos tres estudios de caso que ilustran el impacto de la ciencia de datos: las compañías de consumo que usan la ciencia de datos para ventas y marketing; los gobiernos que utilizan la ciencia de datos para mejorar la salud, la justicia penal y la planificación urbana; y las franquicias deportivas profesionales que utilizan ciencia de datos en el reclutamiento de jugadores.
Ciencia de datos en ventas y marketing
Walmart tiene acceso a grandes conjuntos de datos sobre las preferencias de sus clientes mediante el uso de sistemas de punto de venta, rastreando el comportamiento del cliente en el sitio web de Walmart y los comentarios de las redes sociales sobre Walmart y sus productos. Durante más de una década, Walmart ha estado utilizando la ciencia de datos para optimizar los niveles de stock en las tiendas, un ejemplo bien conocido es cuando en 2004 reabasteció con Pop-Tarts de fresas sus tiendas en la ruta del huracán Francis en base a un análisis de datos de ventas previos al huracán Charley, que había golpeado unas semanas antes. Más recientemente, Walmart ha utilizado la ciencia de datos para impulsar sus ingresos minoristas en términos de introducir nuevos productos basados en el análisis de las tendencias de las redes sociales, el análisis de la actividad de las tarjetas de crédito para hacer recomendaciones de productos a los clientes y la optimización y personalización de la experiencia en línea de los clientes en el sitio web de Walmart. Walmart atribuye un aumento del 10% al 15% en las ventas en línea a las optimizaciones de ciencia de datos (DeZyre 2015).
El equivalente de ventas superiores y ventas cruzadas en el mundo en línea es el “sistema de recomendación”. Si has visto una película en Netflix o has comprado un artículo en Amazon, sabrás que estos sitios web utilizan los datos que recopilan para proporcionar sugerencias sobre lo que debes ver o comprar a continuación. Estos sistemas de recomendación se pueden diseñar para guiarte de diferentes maneras: algunos te guían hacia éxitos de taquilla y bestsellers, mientras que otros te guían hacia artículos de nicho que son específicos para tus gustos. El libro de Chris Anderson, La Economía Long Tail (2008), argumenta que a medida que la producción y la distribución se vuelven menos costosas, los mercados pasan de vender grandes cantidades de un pequeño número de artículos exitosos a vender cantidades más pequeñas de un mayor número de artículos de nicho. Esta compensación entre impulsar las ventas de productos exitosos o de nicho es una decisión de diseño fundamental para un sistema de recomendación y afecta los algoritmos de ciencia de datos utilizados para implementar estos sistemas.
Gobiernos que usan ciencia de datos
En los últimos años, los gobiernos han reconocido las ventajas de adoptar la ciencia de datos. En 2015, por ejemplo, el gobierno de Estados Unidos nombró al Dr. D. J. Patil como el primer científico de datos en jefe. Algunas de las mayores iniciativas de ciencia de datos encabezadas por el gobierno de Estados Unidos han estado en salud. La ciencia de datos está en el centro de las iniciativas “Cancer Moonshot”4 y “Precision Medicine”. La iniciativa “Precision Medicine” [Medicina de precisión] combina la secuenciación del genoma humano y la ciencia de datos para diseñar medicamentos para pacientes individuales. Una parte de la iniciativa es el programa “All of Us” [Todos nosotros], 5 que recopila datos ambientales, de estilo de vida y biológicos de más de un millón de voluntarios para crear los conjuntos de datos más grandes del mundo para la medicina de precisión. La ciencia de datos también está revolucionando la forma en que organizamos nuestras ciudades: se utiliza para rastrear, analizar y controlar los sistemas ambientales, de energía y de transporte e informar la planificación urbana a largo plazo (Kitchin 2014a). Volveremos al tema de la salud y las ciudades inteligentes en el capítulo 7, en el que discutiremos cómo la ciencia de datos será aún más importante en nuestras vidas en las próximas décadas.
La iniciativa de datos policiales del gobierno de EE.UU.6 se centra en el uso de la ciencia de datos para ayudar a los departamentos de policía a comprender las necesidades de sus comunidades. La ciencia de datos también se está utilizando para predecir los puntos críticos del crimen y la reincidencia. Sin embargo, los grupos de libertad civil han criticado algunos de los usos de la ciencia de datos en la justicia penal. En el capítulo 6, discutiremos las preguntas de privacidad y ética planteadas por la ciencia de datos, y uno de los factores interesantes en esta discusión es que las opiniones que las personas tienen en relación con la privacidad personal y la ciencia de datos varían de un dominio a otro. Muchas personas que están contentas de que sus datos personales sean utilizados para investigaciones médicas financiadas con fondos públicos tienen opiniones muy diferentes cuando se trata del uso de datos personales para la vigilancia y la justicia penal. En el capítulo 6, también discutiremos el uso de datos personales y ciencia de datos para determinar las primas de seguros de vida, salud, automóvil, hogar y viajes.
Ciencia