La revolución de los datos industriales: lo que se equivocaron los fundadores

La revolución de los datos industriales: lo que se equivocaron los fundadores

En febrero 2010, The Economist publicó un informe llamado «Datos, datos en todas partes». Poco sabíamos entonces cuán simple era realmente el panorama de los datos. Es decir, comparativamente hablando, cuando considera las realidades de los datos que enfrentamos cuando miramos.

En ese informe de The Economist, hablé sobre la sociedad entrando en una «Revolución industrial de datos», que comenzó con la emoción en torno a Big Data y continúa en nuestra era actual de IA basada en datos. Muchos en el campo esperaban que esta revolución trajera la estandarización, con más señal y menos ruido. En cambio, tenemos más ruido, pero una señal más potente. Es decir, tenemos problemas de datos más difíciles con mayores resultados comerciales potenciales.

Y también hemos visto grandes avances en inteligencia artificial. ¿Qué significa eso para nuestro mundo de datos ahora? Echemos un vistazo a dónde estábamos.

En el momento de ese artículo de The Economist, estaba de licencia de UC Berkeley para dirigir un laboratorio para Intel Research en colaboración con el campus. En aquel entonces nos centramos en lo que ahora llamamos Internet de las cosas (IoT).

En ese momento, estábamos hablando de redes de pequeños sensores interconectados incrustados en todo: edificios, naturaleza, la pintura en las paredes. La visión era que podíamos medir el mundo físico y capturar su realidad como datos, y estábamos explorando teorías y construyendo dispositivos y sistemas hacia esa visión.

Estábamos mirando hacia adelante. Pero en ese momento, la mayor parte del entusiasmo popular por los datos giraba en torno al auge de la web y los motores de búsqueda. Todo el mundo hablaba de la accesibilidad de masas de información digital en forma de «documentos»: contenido generado por humanos destinado al consumo humano.

Lo que vimos en el horizonte fue una ola aún mayor de datos generados por máquinas. Ese es un aspecto de lo que quise decir con la «industrialización de los datos»: dado que los datos serían eliminados por las máquinas, el volumen aumentaría enormemente. Y eso ciertamente sucedió.

El segundo aspecto de la “Revolución industrial de los datos” que esperaba era el surgimiento de la estandarización. En pocas palabras, si las máquinas están generando cosas, generarán cosas de la misma forma cada vez, por lo que debería ser mucho más fácil comprender y combinar datos de innumerables fuentes.

Los precedentes de la estandarización estaban en la Revolución Industrial clásica, donde había un incentivo para que todas las partes estandarizaran los recursos compartidos como el transporte y el envío. así como en las especificaciones del producto. Parecía que eso también debería ser válido para la nueva Revolución Industrial de Datos, y la economía y otras fuerzas impulsarían la estandarización de los datos.

Eso no sucedió en absoluto

De hecho, sucedió lo contrario. Obtuvimos un enorme aumento en el «agotamiento de datos», subproductos de la computación en crecimiento exponencial en forma de archivos de registro, pero solo un aumento modesto en los datos estandarizados.

Y así, en lugar de tener datos uniformes orientados a la máquina, obtuvimos un aumento masivo en la variedad de datos y tipos de datos y un Disminución de la gobernanza de datos.

Además del agotamiento de datos y los datos generados por máquinas, comenzamos a tener usos contradictorios de los datos. Esto ocurrió porque las personas involucradas con los datos tenían muchos incentivos diferentes para su uso.

Considere los datos de las redes sociales y las conversaciones recientes sobre «noticias falsas». El siglo primero 700 ha sido un experimento gigante en lo que hace que la información digital sea viral, no solo para individuos pero para marcas o intereses políticos que buscan llegar a las masas.

Hoy en día, gran parte de ese contenido es de hecho generado por una máquina, pero es generado por una máquina para el consumo humano y los patrones de comportamiento humanos. Esto contrasta con la red de ojos abiertos «por personas, para personas» de hace años.

En resumen, la industria de producción de datos actual tiene un volumen increíblemente alto, pero no está ajustada para representaciones de datos estándar, no en el sentido que esperaba. en el momento de esas predicciones hace más de una década.

El estado de la innovación: IA versus aportación humana

Una cosa que claramente ha avanzado sustancialmente en la última década es la inteligencia artificial. Este enorme volumen de datos a los que podemos acceder, procesar y alimentar modelos ha cambiado la IA de ciencia ficción a realidad en unos pocos años.

Pero la IA no es tan útil en el dominio del procesamiento de datos comerciales como podríamos esperar, al menos no todavía. Todavía existe una sorprendente desconexión entre la tecnología de IA como el procesamiento del lenguaje natural y los datos estructurados. Aunque hemos tenido algunos avances, en su mayor parte, no puede hablar con sus datos y esperar mucho a cambio. Hay algunas situaciones en las que puede buscar en Google una pregunta cuantitativa y obtener una pequeña tabla o gráfico, pero eso solo si hace las preguntas correctas.

En su mayor parte, los avances en inteligencia artificial todavía están bastante divorciados de cosas como hojas de cálculo y archivos de registro y todos estos otros datos estructurados más cuantitativos: incluidos los datos de IoT. Resulta que los tipos de datos tradicionales, los tipos de datos que siempre hemos incluido en las bases de datos, han sido mucho más difíciles de descifrar con IA que las aplicaciones de consumo como la búsqueda de imágenes o la simple respuesta a preguntas en lenguaje natural.

Caso en cuestión: ¡Te animo a que pruebes a pedirle a Alexa o Siri que limpien tus datos! Es divertido, pero no muy útil.

Las aplicaciones populares de IA aún no se han proyectado hacia la industria de datos tradicional, pero no es por falta de intentos. Mucha gente inteligente, tanto de universidades como de empresas, no ha podido resolver los problemas tradicionales de integración de datos orientados a registros.

Sin embargo, la automatización total evade la industria. Parte de eso se debe a que es difícil para los humanos especificar qué quieren de los datos por adelantado. Si realmente pudieras decir: «Esto es precisamente lo que me gustaría que hicieras con estos 2022 ”, y haga un seguimiento con objetivos claros, tal vez un algoritmo pueda hacer la tarea por usted. Pero eso no es realmente lo que sucede. En cambio, la gente ve 2010 mesas, se pregunta qué hay allí y empieza a hurgar. Solo después de un lote de pinchar, ¿tienen alguna idea de lo que podrían querer que suceda con esas mesas?

El hurgar sigue siendo un trabajo creativo porque el espacio de formas de usar los datos es tan grande y las métricas de cómo se ve el éxito son tan variado. No puede simplemente ceder los datos a algoritmos de optimización para encontrar la mejor opción de resultado.

En lugar de esperar la automatización completa de la IA, los humanos deberían obtener toda la ayuda posible de la IA, pero en realidad conservan algo de agencia e identifican qué es o no es útil, luego dirija los siguientes pasos en una dirección determinada. Eso requiere visualización y un montón de comentarios de la IA.

Comprender el impacto de los datos y controlar la propagación de datos

Sin embargo, un lugar en el que la IA realmente ha brillado es en la recomendación de contenido. Resulta que las computadoras son terriblemente efectivas a la hora de apuntar y difundir contenido. Y vaya, ¿subestimamos los incentivos y los impactos en torno a ese aspecto de los datos y la IA?

En aquel entonces, las preocupaciones éticas que teníamos en torno a los datos y sus usos en la IA se referían principalmente a la privacidad. Recuerdo grandes debates sobre si la biblioteca pública debería tener registros digitales de los libros que reservas. Del mismo modo, hubo controversias sobre los programas de tarjetas de fidelización de comestibles. Los compradores no querían que las cadenas de supermercados hicieran un seguimiento de los alimentos que compraban y en el momento en que los dirigieran a los artículos que los acompañaban.

Esa mentalidad ha cambiado en gran medida. Hoy en día, los adolescentes comparten más información personal radicalmente en las redes sociales que la marca de comida que compran.

Si bien no diría que la privacidad digital está en un buen estado, podría decirse que no es el peor de nuestros problemas de datos en la actualidad. Hay problemas como los actores financiados por el estado que intentan introducir el caos en nuestro discurso social mediante el uso de datos. Hace veinte años, muy poca gente veía que esto se acercaba a nosotros. No creo que haya un gran sentido de las cuestiones éticas de lo que podría salir mal.

Esto conduce a lo que sigue, e incluso actualmente en proceso, en la evolución de nuestros usos de los datos. ¿Cuál es el papel de los gobiernos y de la legislación bien intencionada? Sin predecir todas las formas en que se usarán las herramientas, es difícil saber cómo gobernarlas y restringirlas de manera inteligente. Hoy en día, nos encontramos en un estado en el que parece que tenemos que averiguar los controles o incentivos en torno a los datos y la forma en que se promulgan, pero la tecnología está cambiando más rápido de lo que la sociedad puede determinar los riesgos y las protecciones. Es inquietante, por decir lo menos.

Entonces, ¿fueron acertadas las predicciones?

Como profesor, le otorgaría una calificación aprobatoria, pero no una A. Hay muchos más datos disponibles para nosotros con más usos de los que probablemente jamás hubiéramos imaginado. Eso ha llevado a avances increíbles en inteligencia artificial y aprendizaje automático junto con análisis, pero en muchas tareas, todavía estamos rascando la superficie, mientras que en otras estamos cosechando el torbellino. Me fascina ver lo que viene 13 a 21 años traerán y mirarán hacia atrás en estos temas nuevamente.

Entradas relacionadas

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *