NAEWI - Non-rendering Approach to Extract Web Information

Marcelo C. Nunes,Carina F. Dorneles

Anais Estendidos do XXXVII Simpósio Brasileiro de Banco de Dados (SBBD Estendido 2022)(2022)

引用 0|浏览0
暂无评分
摘要
Extração de informações em páginas da Web é uma tarefa importante que visa facilitar a criação de bases de conhecimento. Levando em consideração que uma página Web é desenvolvida para ser agradável à utilização do usuário, porém é renderizada a partir de uma árvore HTML DOM, identificar e extrair suas informações ainda é um grande desafio. Para superar este desafio, este trabalho propõem uma abordagem que utilizará as informações da árvore DOM em conjunto com as informações visuais extraídas em forma de metadados dos elementos HTML da página para classificar e extrair os conteúdos relevantes de uma página Web. Para isso, será criado um modelo textual que representará a identidade visual do elemento da página, a fim de emular o contexto visual dos elementos e sua hierarquia na página, sem a necessidade de renderização da página por um navegador, para a extração das informações. Para a classificação dos elementos, será utilizado o modelo de linguagem bidirecional ELMo para contextualizar e identificar as características individuais de cada tipo de elemento.
更多
查看译文
AI 理解论文
溯源树
样例
生成溯源树,研究论文发展脉络
Chat Paper
正在生成论文摘要