domingo, 15 de setembro de 2013

O que é Text Analytics?

Text Analytics, também chamado a grosso modo de Text Mining se refere ao processo de extrair informações de grande qualidade de textos puros [1].

Pense em um artigo comum de revista, por exemplo, e responda algumas perguntas como:
  1. Quem são os autores deste artigo?
  2. Quais são as entidades, locais, pessoas ou instituições envolvidas neste texto?
  3. Qual o assunto do texto?
  4. O texto disserta sobre aspectos positivos ou negativos acerca do assunto?
Estas informações são apenas para esquentar.

TextAnalytics acaba sendo, então, um conjunto de técnicas e metodologias para se responder, de forma automatizada, a todas estas perguntas citadas acima e muitas outras.

A análise de textos envolve várias áreas de conhecimento como extração de informação, análise léxica, estudo das distribuições de frequência de palavras, reconhecimento de padrões, tagging, mineração de dados, redes complexas, regreas de associação, visualização de dados e análise preditiva. Em resumo, estamos falando essencialmente de transformar textos em dados para análise, por meio da aplicação de técnicas de processamento de linguagem natural e métodos analíticos.

Esta tagcloud, também conhecida como nuvem de palavras, foi criada a partir de um texto puro utilizando técnicas de análise de textos.

A aplicação destas técnicas é bem ampla, abrangendo as seguintes áreas:
  • Business Intelligence
  • Análise de Sentimento
  • Aplicações de Segurança
  • Biblioteconomia
  • Marketing
  • Aplicações Acadêmicas

Agora que já introduzimos o tema, apresentaremos no próximo post como manipular pequenos textos na linguagem Python e calcular as frequências de termos distintos conhecidos como unigramas. Até lá!

Fonte:

[1] Text mining - Wikipedia [http://en.wikipedia.org/wiki/Text_mining]

Nenhum comentário:

Postar um comentário