¿Qué estás buscando?

Big Data: Más que gran cantidad de datos, lo importante es tener los datos correctos

Ricardo Baeza, experto chileno en computación y miembro de la Red de Talentos de Imagen de Chile, ChileGlobal, opina sobre redes sociales y democratización de la información, en su última entrevista antes de dejar la vicepresidencia de Investigación de Yahoo Labs, en pleno Silicon Valley (Estados Unidos).

Ricardo Baeza Yates es uno de los profesionales chilenos que ha logrado llegar a escalones altos de su profesión no sólo en el país, sino en el extranjero, en la cuna misma donde están desarrollándose varios de los avances tecnológicos más masivos.

Este ex alumno del Instituto Luis Campino de Santiago, ingeniero electrónico y máster de la U. de Chile y doctorado en Ciencias de la Computación de la U. de Waterloo (Canadá), formó en 2005 un grupo de investigación de la web en la U. Pompeu Fabra de Barcelona, España. Al año siguiente, se integró a Yahoo Labs, el núcleo científico de este gigante de la búsqueda de datos en la web. Ahí ocupó primero la vicepresidencia de área para Europa, Medio Oriente y Latinoamérica, y en 2014 se hizo cargo de los equipos de investigación que trabajan en Sunnyvale y San Francisco, en California, Estados Unidos, una responsabilidad que terminó en febrero pasado.

“Mi tiempo se dividía en el desarrollo de la estrategia de investigación de Yahoo!, además de liderar algunos grupos de trabajo y realizar investigación en temas de tecnologías de búsqueda, minería de datos o publicidad en la web”, explica este profesional chileno desde su casa en Palo Alto, al sur de San Francisco, en Silicon Valley (Estados Unidos). Además realiza investigación con sus estudiantes de doctorado en la Universitat Pompeu Fabra, donde es catedrático part-time. Y pese a que viaja poco a Santiago, mantiene relación con la U. de Chile, donde sigue como profesor titular. “De hecho, a partir de este año soy el embajador de la Escuela de Ingeniería en el Silicon Valley” –cuenta- “y mi primera actividad será generar una red de exalumnos que estén trabajando por aquí”.

El profesor Baeza es miembro de la Red de Talentos de Imagen de Chile, ChileGlobal, y un entusiasta de este tipo de herramientas de interconexión profesional. Piensa que aún no se explota en su totalidad la ventaja de tener esta red, que en inglés se llama network effect. “Por ejemplo podría ser una herramienta más efectiva en iniciativas científicas y sociales”, plantea.

Y si de redes se trata, por cierto tiene su opinión sobre las redes sociales y su papel para generar contactos e impulsar negocios, conocimiento y progreso profesional. Explica que su uso es muy extendido en los países desarrollados, “eso sí en las redes sociales correctas. Por ejemplo en el mundo profesional es mejor hacerlo usando LinkedIn que Facebook, en lo que se refiere a las redes de contactos y el desarrollo profesional.  Hay también foros específicos en Internet para distintas áreas de negocios o temas de conocimiento”.

Acerca del momento actual, donde el manejo de datos ha pasado a ser un elemento relevante, conciliar el monopolio de la información con la demanda pública por ponerla al alcance de todos es complejo. ¿Cómo está avanzando esto? Según Ricardo Baeza hay que distinguir entre datos privados y datos públicos, y ahí se notan varias tendencias.

“Primero, poner datos que siempre han sido públicos en Internet, de modo que sea más fácil acceder a ellos”, explica. “Este movimiento se llama Open Data y en particular es importante a nivel de gobiernos y en general de transparencia política. ¡Cuántos datos son públicos, pero verlos sólo es posible en papel, en oficinas especiales o incluso sólo si se solicitan…y a veces nunca se obtienen!”, dice este experto chileno.

En segundo lugar, con los medios sociales es más fácil filtrar datos privados, acota, “y estos mismos medios permiten masificar su acceso haciendo imposible su control, como sería por ejemplo censurar una publicación específica confiscando todos los ejemplares de la edición correspondiente”.

Y en tercer lugar, con las técnicas computacionales disponibles hoy en día, “como el aprendizaje automático, es posible integrar muchos datos públicos e inferir datos que antes pensábamos que eran privados. Esto incluye tanto datos personales como de empresas”, especifica.

Según el experto, usar redes de contacto y de transferencia de datos pueden servir como contrapeso a la acción de grandes corporaciones o gobiernos. “Yo creo que la democratización de los datos vía Internet ayuda a compensar los monopolios de información y la transparencia de sus acciones. Esto lo estamos viendo todos los días en Facebook, Twitter y otros foros sociales en Internet”, asegura el profesor Baeza.

Respecto al desafío ante el Big Data –¿recoger más información o mejorar la extracción de datos adecuados a partir de esa materia prima?- el experto opina que ambos son importantes, pues cada uno no existe sin el otro. “Sin embargo hay etapas que son más difíciles y/o tediosas. Por ejemplo, preparar todos los datos necesarios y asegurar que son correctos y completos es el ‘cuello de botella’ actual de muchas de las aplicaciones”, advierte. “De hecho creo que más importante que tener muchos datos es tener los datos correctos. Y el problema principal puede ser sólo determinar si los datos son correctos”, concluye.