Script: extrair links de posts de uma rede social como forma de analisar a mobilização de referências pelos usuários

Nas últimas semanas, tenho intensificado as ações de pesquisa com scripts em Python para análise de dados. Alguns estudantes se aproximaram do laboratório para iniciar estudos e pesquisas e o projeto de pesquisa da Rede Humaniza SUS está entrando em uma fase mais operacional e temos sido levados a aprofundar os esforços para tratar dados e começar a responder algumas de nossas perguntas.

Uma análise que tenho desejado fazer já a algum tempo diz sobre entender melhor como os usuários de uma rede social linkam outros sites ou mesmo conteúdos internos como forma de referenciar, seja para criticar, seja para se basear, mas mobilizando outros objetos digitais para incluírem em sua narrativa.

O desafio técnico aqui estava em obter os links de cada post, ao mesmo tempo referenciando o post de origem e o usuário que postou.

Deixo aqui algumas anotações sobre como isso foi feito para registro da pesquisa:

  • Links consultados para escrever o script:
    • biblioteca BeautifulSoup: é a lib que permite de fato extrair os elementos html de uma página. No caso, foi utilizado o recurso de extrair os “hrefs” dos links;
    • biblioteca PyMySql: interface com o banco de dados MySql;
    • biblioteca CSV: gera o arquivo de saída que pode ser exportado para um editor de planilhas ou qualquer outra ferramenta para analisar os dados.
  • Script: o resultado final tá aqui, já hospedado no GitHub onde vou arquivar todos os códigos utilizados para o desenvolvimento desta pesquisa.

Os resultados analisados dos arquivos gerados para essa pesquisa serão publicados posteriormente, dado que ainda passarão por várias fases de reflexão até poderem ser publicados acompanhados de comentários e análises da equipe de pesquisa.

Anúncios

Material do minicurso “Cultura digital, museus e acervos em rede” no Fórum Nacional de Museus – IBRAM

Vídeo de apresentação da pesquisa sobre acervos digitais e do projeto Tainacan:

Apresentação utilizada para o minicurso Cultura digital, acervos em redes e museus

Textos recomendados para leitura sobre os temas do mini-curso:

  1. Acervos em rede em tempos de cultura digital-VERSAO24.04
  2. Memória como Prática na Cultura Digital

Conheça o manual do Tainacan, sofware livre para produção de acervos digitais apresentado na oficina:

Inteligência artificial e arte: um bem comum necessário para humanidade no século XXI

Esse vídeo é um exemplo incrível do que pode a inteligência artificial no século XXI. É lindo, é apaixonante… mas deveria se tornar um bem comum da humanidade. É nossa água em uma sociedade da inteligência e da informação. Que novos caminhos orientem na pesquisa e nos possibilitem nos tornarmos inteligentes o suficiente para produzir bens públicos nessa direção…

 

Weka: a prática da mineração de dados

Depois de várias análises e comparações, finalmente cheguei a uma boa escolha para investir nas pesquisas e estudos a respeito das técnicas e algoritmos de mineração de dados para 2017.

Teoricamente, um excelente livro que descobri nas últimas semanas é o trabalho do Leandro Nunes e Daniel Gomes publicado pela editora Saraiva. O livro faz uma síntese muito objetiva das técnicas e etapas dos processos de mineração, bem como vai mostrando como essas coisas se conectam de um jeito simples, fácil de entender e que produz um dos melhores resumos que já li nos últimos anos, ou seja, poupa tempo e vai direto ao ponto. Fortemente recomendo como um material para iniciar no tema. O problema do livro é que ele não apresenta nenhum exercício prático ou tutorial guiado de como usar as técnicas apresentadas. Isso, para quem está iniciando nos estudos, pode ser de fato um grande problema. Como implementar as técnicas? Que algoritmos usar? Como parametrizar esses algoritmos em um software de análise de dados? Qual software utilizar?

Depois de experimentar várias soluções (SPSS, R, Excel, OpenOffice, entre outros) acabei decidindo investir os estudos para o ano 2o17 no Weka. É uma ferramenta já clássica no campo da mineração de dados e vem sendo desenvolvidas a vários anos pela Universidade de Waikato na Austrália. Software livre, boa documentação, interface de fácil acesso, boa integração com dados XLS, CSV, Json e ODS, bons algoritmos de análise foram alguns dos fatores que me influenciaram na escolha.

Listo alguns dos recursos que recomendo para estudo do Weka e como uma forma de implementar na prática o que o livro sugerido acima apresenta:

  1. Curso em EAD auto-instrucional com 3 módulos sobre Weka da Universidade de Waikato;
    1. Lista de videos no Youtube dos tutoriais apresentados pelo curso;
  2. Série de tutoriais em língua portuguesa feitos pela IBM para introdução a alguns dos principais recursos do Weka;
  3. Excelente vídeo de introdução a usuários iniciantes em mineração de dados e no uso do Weka;
  4. Artigo de comparação e introdução aos principais algoritmos de agrupamento/clusterização no Weka.