Similitud español-inglés a través de word embeddings.

Procesamiento del Lenguaje Natural(2017)

引用 22|浏览21
暂无评分
摘要
En este trabajo hemos afrontado la tarea de similitud de textos multilingue mediante representaciones vectoriales de las palabras. Hemos experimentado con varias colecciones de textos con pares de frases en espanol e ingles, adaptando dos tecnicas basadas en word embeddings que han mostrado su eficacia en la similitud de textos monolingue: la agregacion de vectores y el alineamiento. La agregacion permite construir una representacion vectorial de un texto a partir de los vectores de las palabras que lo componen, y el algoritmo de alineamiento aprovecha los word embeddigs para decidir el emparejamiento de palabras de los dos textos a comparar. En el proceso se han utilizado dos estrategias distintas: usar traductores automaticos para poder aplicar directamente las tecnicas de similitud monolingue, y aplicar una tecnica de transformacion de modelos para trasladar los vectores de un idioma al espacio del otro. Las dos estrategias han funcionado razonablemente bien por separado, y los resultados mejoran cuando las salidas de los dos tipos de sistemas se integran mediante tecnicas de ensemble learning.
更多
查看译文
AI 理解论文
溯源树
样例
生成溯源树,研究论文发展脉络
Chat Paper
正在生成论文摘要