Weka: a prática da mineração de dados

Depois de várias análises e comparações, finalmente cheguei a uma boa escolha para investir nas pesquisas e estudos a respeito das técnicas e algoritmos de mineração de dados para 2017.

Teoricamente, um excelente livro que descobri nas últimas semanas é o trabalho do Leandro Nunes e Daniel Gomes publicado pela editora Saraiva. O livro faz uma síntese muito objetiva das técnicas e etapas dos processos de mineração, bem como vai mostrando como essas coisas se conectam de um jeito simples, fácil de entender e que produz um dos melhores resumos que já li nos últimos anos, ou seja, poupa tempo e vai direto ao ponto. Fortemente recomendo como um material para iniciar no tema. O problema do livro é que ele não apresenta nenhum exercício prático ou tutorial guiado de como usar as técnicas apresentadas. Isso, para quem está iniciando nos estudos, pode ser de fato um grande problema. Como implementar as técnicas? Que algoritmos usar? Como parametrizar esses algoritmos em um software de análise de dados? Qual software utilizar?

Depois de experimentar várias soluções (SPSS, R, Excel, OpenOffice, entre outros) acabei decidindo investir os estudos para o ano 2o17 no Weka. É uma ferramenta já clássica no campo da mineração de dados e vem sendo desenvolvidas a vários anos pela Universidade de Waikato na Austrália. Software livre, boa documentação, interface de fácil acesso, boa integração com dados XLS, CSV, Json e ODS, bons algoritmos de análise foram alguns dos fatores que me influenciaram na escolha.

Listo alguns dos recursos que recomendo para estudo do Weka e como uma forma de implementar na prática o que o livro sugerido acima apresenta:

  1. Curso em EAD auto-instrucional com 3 módulos sobre Weka da Universidade de Waikato;
    1. Lista de videos no Youtube dos tutoriais apresentados pelo curso;
  2. Série de tutoriais em língua portuguesa feitos pela IBM para introdução a alguns dos principais recursos do Weka;
  3. Excelente vídeo de introdução a usuários iniciantes em mineração de dados e no uso do Weka;
  4. Artigo de comparação e introdução aos principais algoritmos de agrupamento/clusterização no Weka.
Anúncios