Beauchef Magazine 2021

Ciencia de datos e IA en computación: Sentando las bases para el nuevo mundo digital

Ciencia de datos e IA en computación: Sentando las bases para el nuevo

Por Ana Martínez A.

Los datos son hoy un elemento fundamental en el mundo digital, llegando incluso a afirmarse que son “el nuevo petróleo” dado el valor que adquieren una vez “refinados”. Es este nuevo conocimiento que se tiene de los datos el que ha permitido impulsar grandes avances en el desarrollo de la inteligencia artificial (IA). “La mayor parte de los sistemas de IA se crean hoy utilizando grandes volúmenes de datos de entrenamiento. Esto no era posible en el pasado porque no habían datos suficientes ni avances de infraestructura computacional (hardware) que pudiera procesarlos”, explica Jorge Pérez, académico del Departamento de Ciencias de la Computación (DCC) e investigador asociado del Instituto Milenio Fundamentos de los Datos (IMFD).

El impacto que hoy tiene la IA, plantea nuevos desafíos y problemas de estudio, como los sesgos en sistemas automáticos. “La forma más común de generar sistemas de IA hoy es a partir de datos de entrenamiento. En simple, usamos los datos del pasado para crear sistemas que nos están ayudando a tomar decisiones hoy y en el futuro. Los datos del pasado tienen codificados todos los sesgos de nuestras decisiones anteriores y si no observamos este problema corremos el riesgo de perpetuar esos sesgos”, indica. Otro problema es la interpretabilidad/ explicabilidad de las decisiones de sistemas automáticos. “Los sistemas de mejor desempeño hoy son del tipo ‘caja negra’, lo que quiere decir que los sistemas mismos toman decisiones de manera opaca, que es difícilmente interpretable incluso por quienes los crearon. Desarrollar herramientas que nos permitan entender mejor a estos sistemas y, por lo tanto, que podamos confiar más en sus decisiones, parece un problema altamente relevante y desafiante”, agrega.

A juicio del académico, una de las mayores implicancias que tiene hoy el desarrollo de la IA para la ciencia de la computación tiene que ver con las técnicas que se utilizan para generarla, en particular, el aprendizaje de máquina (machine learning), donde afirma que “se está introduciendo un cambio importante en cómo generamos software. Estamos pasando de la creación de software a partir de codificar reglas fijas, a un nuevo paradigma en donde las reglas en el software son suaves, moldeables y más ligadas a datos del pasado, a la experiencia”.

En este contexto, académicos y académicas del DCC lideran diversas investigaciones, enfocando el estudio en tres ámbitos: fundamentos de inteligencia artificial y datos, investigación clásica en áreas aplicadas de inteligencia artificial, y ciencia y sociedad. En el desarrollo de esta labor, destaca la conformación del grupo Representations for Learning and Language - ReLeLa (www.relela.com) y la participación en el Instituto Milenio Fundamentos de los Datos - IMFD (www.imfd.cl).

Mejores resultados de búsquedas en la web

Dentro de las iniciativas impulsadas, Aidan Hogan, académico del DCC e investigador asociado del IMFD, desarrolla trabajos en torno a la web semántica, con el fin de contribuir a mejorar la forma en que se publican y se consumen datos en la web.

Para ilustrar esto, explica que, en buscadores como Google, es fácil encontrar páginas individuales que responden a preguntas simples como “encontrar las películas en un cine particular para ver esta noche”. Sin embargo, señala que si la respuesta que buscamos no existe en una página o un sitio web individual, sino que depende de la información disponible en varias fuentes, el usuario tiene que combinar esa información. “Por ejemplo, si uno quiere buscar los detalles de las comedias en los cines de Santiago esta noche (indicando el cine, la hora, el precio, la calificación, etc.), habría que buscar en las páginas de varios cines, buscar los títulos de películas para ver cuáles son comedias, etc”. Además de situaciones cotidianas, en áreas especializadas como la astronomía, la ciencia de datos, la medicina, el periodismo, entre otros, muchas de las preguntas también dependen de múltiples fuentes en la web. “Por ejemplo, para entender la pandemia por COVID-19 se requiere información de varias organizaciones, países, disciplinas, etc. La web semántica propone estructurar los datos publicados en la web para automatizar la integración y la utilización de contenido de varias fuentes en la web, facilitando responder a preguntas y tareas más complejas instantáneamente”, señala el profesor Hogan.

Máquinas que aprenden

Actualmente, el académico del DCC Benjamín Bustos, quien también es investigador asociado del IMFD, trabaja en el desarrollo de algoritmos y métodos que permitan representar información multimedia en forma eficaz, para luego realizar tareas complejas como búsqueda por similitud, clasificación y reconocimiento de patrones. “Un tema específico en esta área es el llamado Video captioning, problema que consiste en producir una representación textual de lo que está sucediendo en un video dado, solo a partir de su contenido”, cuenta. Los métodos para resolver este problema los está desarrollando el alumno de doctorado Jesús Pérez Martín, en colaboración con el profesor Jorge Pérez.

El profesor Bustos trabaja también junto con el académico del DCC Iván Sipirán y el estudiante de doctorado Arniel Labrada, en el análisis de colecciones de objetos 3D. En particular, métodos de deep learning “para definir representaciones matemáticas, conocidas como embeddings, de los objetos 3D, los que se pueden utilizar para realizar búsquedas o clasificación de objetos 3D”, explica.

Por su parte, el académico del DCC Felipe Bravo- Márquez, investigador joven del IMFD, aborda problemas científicos sobre Procesamiento de lenguaje natural (NLP por su sigla en inglés), rama de la ciencia de la computación que se encarga de construir modelos que lean o generen texto en forma de lenguaje natural o “humano” con el fin de resolver algún problema en particular, por ejemplo, traducir, corregir errores ortográficos o generar respuestas a preguntas.

En este contexto, trabaja en tres propiedades de los vectores de palabras o word embeddings, que son ampliamente utilizados en NLP: polisemia, es decir, si una palabra tiene más de un significado los modelos tradicionales no son capaces de detectarlo; cambio semántico, donde los modelos tradicionales no pueden detectar cuando una palabra cambia su significado en el tiempo; y sesgo, referente a que los modelos tradicionales incorporan sesgos de los textos de donde se construyen”, explica el académico.

Extrayendo información útil para el manejo de emergencias

Bárbara Poblete, académica del DCC e investigadora asociada del IMFD, lidera diversas investigaciones en torno al tema de crisis informatics, el cual utiliza información de redes sociales para extraer información útil para el manejo de situaciones de crisis y emergencias. “También trabajamos en la detección de lenguaje de odio en redes sociales, todo esto con un enfoque en el aspecto multilingüe de estos problemas, ya que existen muy pocos recursos para idiomas como el español en inteligencia artificial. Por otro lado, estudiamos cómo generar modelos de lenguaje que incorporan contexto espacio-temporal”, señala.

En tanto, el académico del DCC Andrés Abeliuk, impulsa iniciativas que contribuyan a desarrollar modelos matemáticos, herramientas computacionales y métodos basados en datos, enfocado en preguntas que pueden ayudar a comprender y diseñar sistemas de computación social para mejorar el comportamiento colectivo, combinando inteligencia humana y algorítmica. “Nuestra vida cotidiana es cada vez más mediada por sistemas digitales. Estas tecnologías no existen en el vacío, sino que están integradas en sistemas sociales que dan lugar a complejas relaciones entre el comportamiento humano y los algoritmos. Estudiar el impacto de los algoritmos en la sociedad abre varios problemas y desafíos, tales como cuantificar y mitigar los posibles efectos negativos de los algoritmos en la sociedad y explorar el potencial de innovación para mejorar procesos colectivos de toma de decisiones”, explica el académico.

Es a partir de este amplio trabajo de investigación en ciencia de datos e IA que desarrollan investigadores e investigadoras del DCC, que el profesor Jorge Pérez destaca lo imprescindible de mirar estas áreas como un campo de estudio en sí misma. “No debemos confundir su estudio disciplinar con su uso. Los usos son importantes, las aplicaciones son muy importantes porque nos permiten resolver problemas prácticos hoy. Pero con mejor ciencia básica de la disciplina misma también tendremos mejores soluciones en el futuro, mejores herramientas para lo que viene. Estudiar la disciplina nos permitirá estudiar este mundo nuevo y no solo adaptarnos, sino crearlo de cara al futuro”, sostiene.