Uma extensa avaliação empírica de técnicas de pré-processamento e algoritmos de aprendizado supervisionado de uma classe para classificação de texto

Anais do Encontro Nacional de Inteligência Artificial e Computacional (ENIAC 2019)(2019)

引用 3|浏览1
暂无评分
摘要
Dado o volume massivo de textos sendo produzido nos dias atuais, a classificação automática de textos tem se tornado interessante tanto para fins acadêmicos quanto empresariais. Tradicionalmente, a classificação automática de textos é realizada por meio de aprendizado de máquina multi-classe, o qual requer que o usuário apresente textos rotulados de todas as classes de um domínio. Entretanto, em cenários onde deseja-se classificar apenas se um documento pertence ou não a uma classe de interesse, é mais adequada a utilização do aprendizado baseado em uma única classe (AMUC), o qual requer apenas textos rotulados da classe de interesse para se gerar um modelo de classificação. Apesar da aplicabilidade do AMUC, não há trabalhos na literatura que considerem avaliações experimentais envolvendo algoritmos de diferentes categorias, diferentes técnicas de pré-processamento de textos, e diferentes coleções de textos, de forma a indicar quais são as técnicas e algoritmos a serem utilizados em determinadas situações. Com isso, esse artigo visa sanar essa lacuna. Nos resultados é demonstrado que o algoritmo de AMUC baseado no k-Means obteve as melhores performances de classificação para a maioria dos experimentos realizados. Além disso, o uso de técnicas de redução de dimensionalidade, as quais são comumente empregadas na literatura, não proveram aumento na performance de classificação.
更多
查看译文
AI 理解论文
溯源树
样例
生成溯源树,研究论文发展脉络
Chat Paper
正在生成论文摘要