La imaginación metodológica. Raúl Trejo Delarbre
Чтение книги онлайн.
Читать онлайн книгу La imaginación metodológica - Raúl Trejo Delarbre страница 6
Es decir, el imperativo de la obtención de datos nos hace quedar entrampados en la paradoja de que mientras menor sea la población también es limitada la posibilidad de considerarse big data, pero mayor la de estudiarse en su totalidad. Por el contrario, cuando es mayor la cantidad de datos extraídos puede llegar a considerarse big data, pero es común que no represente la totalidad del universo, por lo que es necesario mayor rigor en la justificación del muestreo. En este sentido, la selección del corpus en términos de grandes datos exige una cuidadosa explicación sobre su matiz representativo.
El Gran Archivero, como he propuesto traducir el fenómeno de los datos masivos (Rodríguez Cano, 2020), es un canon económico, político, social y, de nuestro interés, analítico. Las famosas tres v que lo definen: velocidad, variedad y volumen resultan en sendos desafíos para la investigación social. La velocidad exige una instantaneidad de captura inusitada; la variedad un proceso de limpieza y estructuración que es difícil realizar rudimentariamente y el volumen un procesamiento y almacenamiento computacional monumental. Nuevamente, en mi experiencia de investigación, he tenido que recurrir a diferentes diseños para plantear caminos más o menos estables en el trabajo de análisis.
Como señala Meneses Rocha (2018), los grandes datos son un gran desafío para las ciencias sociales, en parte por las dificultades en cada uno de los elementos necesarios en su cadena de valor: generación, recolección, almacenamiento, procesamiento, distribución y análisis. De acuerdo con este punto de partida, el big data exige un volumen casi ilimitado, velocidad rápida y continua, y una variedad amplia. Contrario a lo que Rogers (2013) denomina small data, que precisa un volumen limitado, velocidad lenta y una variedad también limitada. Con esta distinción, el trabajo que he realizado a lo largo de estos años con extracción de información y minería de datos ha sido más desde una perspectiva de los pequeños datos.
Sin embargo, aquí es importante hacer una aclaración. El big data no solo es un fenómeno tecnológico, por ende detonador de desafíos técnicos, sino que representa en mayor medida un fenómeno social cuya principal característica es la datificación de la cultura, una de cuyas fuentes es la sociedad de las plataformas (Van Dijck, Poell y De Waal, 2018). Desde esta perspectiva, al hacer minería de datos, incluso en cantidades menores, nos ubicamos en el marco de la datificación y por lo menos de inicio a la sombra de los grandes datos como paradigma de la época.
Como señala la misma Meneses, los desafíos respecto al big data en las ciencias sociales son de varios órdenes: en primer lugar, la importancia de tomar distancia de los discursos técnicos y mercadológicos que buscan objetivos más concretos sin fundamento, más que la propia utilidad de los datos, una tendencia explicada por los flujos cuantificables de cascadas mercantiles que caracterizan a la cultura digital. En segundo lugar, señala la autora, existe el reto de no ser avasallados por el saber computacional y, por el contrario, poner a la tecnología al servicio del conocimiento de lo social. Esto, quiero argumentar, supone no reivindicar la dimensión mitológica del big data al cuestionar investigaciones que tienen una menor cantidad de datos, muchas veces obtenidas al límite de las capacidades técnicas, siempre y cuando se encuentren en la lógica de la investigación científica.
De hecho, Brooker, Barnett, Cribbin y Sharma (2016) señalan que a pesar de los límites del data mining, podemos hacer análisis significativos, mientras se tome en cuenta la comprensión profunda de cómo se ha construido el conjunto de datos con la intención de diseñar aproximaciones analíticas apropiadas con las cuales lidiar, esto es pensar en procesos de obtención de los datos, no en los datos exclusivamente, entendiendo que la traducción de lo social convertido en datos envuelve un proceso de abstracción que impone ciertos compromisos en la forma en que los datos son generados, recolectados, seleccionados y analizados (Schäfer y Van Es, 2017).
En este sentido, en la discusión sobre grandes o pequeños datos, fue bastante conocida la mirada antropológica que aportó Wang (2013), con el término datos densos. Como imaginará el lector, en una analogía con la descripción densa que propuso Clifford Geertz (1973), por lo tanto, un enfoque desde la dimensión interpretativa de la cultura, esta autora cuestiona la reverencia al big data al reiterar la importancia de trabajar los datos en el sentido inverso, a conveniencia dela investigación y con estrictas precauciones: cercanía, precisión, descubrimiento, interpretación. Contrario a las bases que puedes descargar en las modernas aplicaciones, el acercamiento desde los datos densos permite elegir el corpus de investigación de la manera tradicional, en concreto las variables que conforman la matriz de información, con compleja comprehensión del fenómeno estudiado y sin imperativos cuantitativos inmanentes. En el sentido de los datos densos, como veremos, mi estrategia ha sido buscar la obtención de datos de abajo hacia arriba.
Equilibrista del software
El uso de Gephi fue parte de mi primer experiencia con el análisis de redes sociales, como he comentado. No así con software con enfoque cuantitativo, pues ya había trabajado con estadística descriptiva, inferencial y diseño factorial en el Paquete Estadístico para Ciencias Sociales (spss, por sus siglas en inglés) durante el procesamiento de bases de datos y generación de gráficas derivadas de cuestionarios para encuestas. Sin embargo, fue con Gephi cuando me empecé a dar cuenta de las implicaciones del software en el trabajo metodológico, en concreto con las posibilidades de realizar los cálculos estadísticos, editar directamente las bases de datos, cambiar la apariencia y aplicar algoritmos de espacialización, entre otras herramientas, lo que me dio el sentido para entender Internet como fuente y no solo como objeto de estudio (Rogers, 2013), cuestión que quiero comentar aquí a partir de la experiencia casi a la par en el uso de NodeXL, otro software enfocado en la visualización de grafos.
La primera diferencia entre ambos paquetes fue un aspecto que considero relevante porque condiciona los alcances del investigador. Mientras Gephi era una propuesta de fuente abierta y enfoque comunitario, basada en una filosofía sin ánimos de lucro y utilizable en cualquier computadora y sistema operativo, NodeXL era parte de la Social Media Research Foundation, ligada a Microsoft, un software que únicamente podía correrse como plug-in o dispositivo adicional de Excel, diferencia que resulta considerable si lo analizamos a partir de la matriz analítica que divide las plataformas en constructos tecnoculturales y estructuras socioeconómicas (Van Dijck, 2016) y que también se puede aplicar respecto al software. En este orden de ideas, las coordenadas políticas que han acompañado el fomento de actividades, como la minería de datos, en sectores no comerciales, han estado atravesadas por iniciativas performativas que exponen consignas políticas como el software libre y el acceso abierto. Paradójicamente, a diferencia de Gephi, en ese entonces NodeXL y su ecosistema comercial permitía algo novedoso que me fue muy útil: la extracción de datos directamente desde Twitter, YouTube, Flicker y Wikipedia.
No obstante, pese a no contar con pase directo a los datos de alguna plataforma, Gephi estaba ligado a ellas mediante otras aplicaciones de descarga. En mi primer ejercicio utilicé la aplicación Netvizz, desarrollada por Rieder (2013), de la Universidad de Ámsterdam, para extraer mi red de amigos en Facebook (véase Imagen 2), algo que en ese entonces estaba permitido, pero que se limitaría con el tiempo, incluso en páginas públicas, luego del escándalo por la intervención de Cambridge Analytica en las elecciones estadounidenses de 2016.
Imagen 2
Visualización de