Máquinas de leer en ayuda de la descubribilidad

Por: - - , , , .

“There is no reason why the simple shapes of stories can’t be fed into computers.” Kurt Vonnegut

Y si alguien lo pone en duda, aquí tenéis un análisis de sentimiento y de la trayectoria narrativa de El retrato de Dorian Grey. Se ha hecho con el R package zyuzhet, desarrollado por el profesor de literatura Matthew Jockers, de la Universidad de Nebraska en Lincoln. Se inspiró en los formalistas rusos, especialmente en Vladimir Propp.

maquinas de leer; análisis de sentimiento de Dorian Grey

Clarísimo, ¿verdad? La vida de Dorian Grey parte de un punto neutro, le pasan montones de cosas excitantes y positivas y luego se hunde en la oscuridad, a medida que la realidad del retrato se hace evidente, lo que no impide que la neutralidad vuelva a restaurarse hacia el final. Seguramente, estáis corriendo a coger esta novela de suma cero, acicateados por esta visualización, en la que el análisis de sentimiento actúa por procuración para representar el movimiento narrativo.

Fuera de broma

Hemos escrito tanto —y hemos conservado tanto de lo escrito— que ya sólo podemos confiar en las máquinas para la indexación y el posterior descubrimiento de un corpus que ha adquirido dimensiones monstruosas.

Corpus aparte —ya se arreglarán los académicos con esto—, está la realidad acuciante del día a día de la industria editorial, que debe poner en el mercado (hacer descubribles) una ingente cantidad de novedades de todo tipo y pelaje, que ahora también compiten con los autores autoeditados, quienes tampoco se quedan atrás en la carrera de seguir agregando objetos al mundo.

Es lo que tiene la puesta en práctica de la ideología emprendedora: provoca sobreabundancia de todo, menos de tiempo y atención. A menos que nos pongamos a fabricar seres humanos a escala, lo que no parece una solución prudente.

Si sumamos a esto el advenimiento del libro electrónico, que no se agota ni necesita reedición, al que no lo destruye el incendio ni la inundación de un almacén… bueno, está claro que necesitamos ayuda para llamar la atención sobre el producto libro que necesitamos vender.

Los metadatos no empezaron con Amazon

En la Biblioteca del Congreso, en Washington, Leonardo DiCaprio intenta seducir a una mucho más realista (en lo que a la atracción sexual se refiere) Naomi Watts sorprendiéndola con su obra mayor: la posibilidad de encontrar, en minutos, cualquier volumen guardado en la institución. Fue uno de los momentos de la película dirigida por Clint Eastwood que más me emocionó. J. Edgar Hoover había metadateado toda la Biblioteca del Congreso y descubierto, aunque con otras intenciones, el poder de los metadatos.

maquinas de leer; pasillo biblioteca del congreso, Leonardo DiCaprio, Naomi Watts

Los metadatos han cambiado mucho desde J. Edgar Hoover, como habían cambiado entonces desde las etiquetas de barro que llevaban las tabletas de Ur. Siguen sirviendo, eso sí, para encontrar o descubrir cosas: desde la verdadera identidad de Jack el Destripador hasta la novela descatalogada que estamos buscando.

A pesar de saber que son esenciales para el marketing y la comercialización de los libros, la industria editorial tiene una carencia crónica de personalidades tan obsesivas como la de Hoover. Se gasta más dinero en un equipo de comunicación que emite mensajes unidireccionales en las redes sociales que en crear, mantener y actualizar los metadatos.

Es una tarea ingrata. Y además, descomunal. Tiene principio, pero no tiene fin. ¿Por qué no se la dejamos a las máquinas? Finalmente, estamos en la edad de oro de la automatización.

Entra Trajectory en escena

Así pensaron Jim Bryant y Scott Beatty, fundadores de una red inteligente que quiere resolver los problemas de editoriales, libreros y bibliotecarios. Además de los de lectores, con una máquina de recomendación de títulos que vaya más allá del “los que compraron X también compraron Y”. Se trata de Trajectory.

Lo que ofrece Trajectory es un motor de procesamiento de lenguajes naturales y se dedica a la indexación de títulos, de manera de facilitar su descubrimiento online.

De momento, sólo funciona en inglés, alemán y chino. Y aunque a comienzos del 2015 había anunciado su expansión al segundo idioma de occidente, el español, los planes se han retrasado. Tal vez porque el valor económico de nuestra lengua no se corresponde con el goloso número de sus hablantes, algo que los anglosajones empiezan a entender.

Qué hace la máquina de leer

Trajectory desmonta la obra en sus componentes mínimos —la oración y sus partes— y genera una lista de palabras clave para cada narración. Aunque sus fundadores aseguran que es posible descubrir un estilo para cada autor, Trajectory es tan sólo una máquina y no sabe ir más allá del análisis gramatical, aunque es lo bastante inteligente como para encontrar co-ocurrencias entre entidades.

Con instrucciones precisas, Trajectory puede distinguir entre lugares y personas y hacer un mapa de personajes ligados a ciertos sitios dentro de una novela o señalar las relaciones entre personajes en términos de intensidad.

Trajectory, como el resto de las máquinas inteligentes, todavía es incapaz de reconocer las preposiciones, que son el esqueleto de las lenguas occidentales. Ya sabéis, si alguna vez habéis optimizado un post para buscadores, que este elemento articulador de sentido, posición e intención es visto por ellas como un stopper, una basurilla que molesta su natural discurrir maquínico. Esta ceguera para las preposiciones acarrea una serie de malentendidos a los que la inteligencia artificial es propensa, pero esa es otra historia.

La idea de los fundadores de Trajectory es entregar al editor unos metadatos enriquecidos absolutamente puros y objetivos, destilados de la esencia misma de la obra procesada. Sucede que los metadatos nunca han sido inocentes ni neutrales. Y si no, preguntadle a J. Edgar Hoover y al FBI. Las recomendaciones, tampoco.

Lo que está ausente en estos metadatos es el lenguaje natural ¡de los lectores que buscan el libro!

Análisis de sentimiento o la piedra filosofal

Una obsesión del marketing digital es conocer el estado de ánimo de los consumidores. Para eso hacemos análisis de sentimiento de emails, tuits y otros textos cortos. Se parte de la base de que el sentimiento es un valor fijo. Un tuit es airado o contento; positivo o negativo.

¿Es posible hacer el análisis de sentimiento de una novela, en cuya longitud caben casi todos los estados de ánimo, muchas veces presentes en un mismo párrafo? ¿Un oxímoron, qué valencia tendrá en el análisis de sentimiento de la máquina? Cero, desde luego.

Como veréis si visitáis el sitio web de Trajectory, en una escala que va de 1 (positivo) a -1 (negativo) casi todas las obras narrativas puntúan cerca del cero. La máquina no ha tenido la misma experiencia que el lector humano cuando se enfrentó a las montañas rusas de Anna Karenina o de El resplandor.

Pero no desesperemos de Trajectory, sólo les falta introducir alguna variable en la fórmula, algo que les permita traducir el tiempo de la novela a una frecuencia.

Por supuesto, para analizar el sentimiento, la máquina necesita instrucciones. Las instrucciones que le han dado a Trajectory son soprendentes y las copio y pego aquí:

Maquinas de leer plantilla de análisis de sentimiento

Que “indigno” y “travesti” figuren con la misma valencia negativa en las instrucciones que recibe la pobre Trajectory para contarnos de qué va una novela es, cuanto menos, descorazonador.

Máquina a la obra

Elegí la traducción al inglés de La tía Julia y el escribidor, de Mario Vargas Llosa, para probar cómo trabaja Trajectory sobre una obra concreta y en qué ayudan sus metadatos automatizados a lectores, editores, libreros y bibliotecarios.

Palabras clave

Traduzco y copio aquí las palabras que aparecen resaltadas en la nube de keywords para La tía Julia y el escribidor, porque la lista completa es demasiado larga.

  • tía
  • camacho
  • día
  • ojo
  • mano
  • javier
  • julia
  • vida
  • lima
  • hombre
  • noche
  • pedro
  • gente
  • cuarto

Ahora, pensad que sólo tenéis 7 palabras clave para agregar a los metadatos que se envían a Amazon para mejorar la visibilidad de una novela ¡y empezad por rehacer el Onix desde cero!

Trajectory no ha devorado y procesado 13 millones de obras, como sí ha hecho Google. No sabe que Pedro y Camacho son el mismo personaje, por ejemplo, ni que la tía se llama Julia. La pobre Trajectory está en pañales y famélica; démosle tiempo y libros para que vaya aprendiendo, porque cuando crezca puede sernos útil.

Objetos, lugares y recomendaciones

Trajectory, al igual que hizo antes Small Demons, nos ofrece una lista de los objetos y las marcas que aparecen en la novela. Estos son algunos de los objetos que ha encontrado en La tía Julia y el escribidor:

  • argentinos
  • bolivianos
  • chinos
  • cristianos
  • franceses
  • italianos
  • mexicanos
  • cubanos
  • Guardia Civil
  • freudianos

y coke, que dejo en inglés para poder explicar qué me pasó. Se supone que pinchando en cualquiera de estas palabras, Trajectory me llevará a algún libro relevante a mi búsqueda. Sucede que coke, en inglés, es tanto la coca como la cocaína, la bebida Coca-Cola como el apellido de sir Thomas, conde de Leicester. Pues que fui a parar a una biografía de Thomas Coke de autor ignoto; a un cuento de Dennis Cooper sobre sus abusos de sustancias psicotrópicas en el año 1979; a un análisis de la relación de Freud con la cocaína y a un libro que relata el irresistible ascenso del refresco universal.

Pinché sobre el cuento de Dennis Cooper, que supo ser un autor que me gustaba. Y las recomendaciones automáticas fueron otros seis títulos de ¡Dennis Cooper!

Con los lugares, Trajectory lo lleva un poco mejor. Aunque el enamorado Varguitas, aprendiz de escritor, aparece entre las mismas entidades que Lima o España.

En fin, que un libro (que no es lo mismo que un texto y mucho menos es un contenido) sigue resultando un blob a los ojos de una máquina: esto es, un archivo intratable.

De momento, los metadatos enriquecidos tendrán que seguir creándolos personas que se dirigen a personas, que saben cómo hablan estas personas de los libros, cómo preguntan por ellos, qué punto de contacto hay entre una serie de televisión, los sentimientos que despierta y el ambiente y/o argumento de un título que se quiere introducir a esas audiencias coincidentes aunque disímiles. Y otras varias cosas para las que también se necesita la existencia de un yo.

Terapia de risas

Después de esta noticia demoledora de que habrá que seguir machacando sobre el Onix por más que nos ayuden herramientas como OnixSuite, que habrá que tener leídos los libros para los que hacemos planes de marketing y que nadie nos salva, de momento, de la escucha social para saber con quiénes hablamos a través de las palabras clave, merecemos un poco de alegría y optimismo.

Repitamos con Kurt Vonnegut que no hay ninguna razón por la que las formas simples de los relatos no se puedan introducir en las computadoras.

Enjoy!

Posts relacionados: Por qué no hay un Netflix de los libros
Cómo ayudar a la visibilidad de tus libros
Un elefante en la habitación de los big data

Comentarios

Actualmente no hay comentarios a este artículo.

Escriba un comentario

Atención: Para poder enviar su comentario, antes debe previsualizarlo (botón "Vista previa"). Los campos marcados con * son obligatorios.





¿Hablamos?

Conózcanos