Word Cloud
O que é Word Cloud?
Muitas vezes você pode ter visto uma nuvem repleta de muitas palavras em tamanhos diferentes, que representam a frequência ou a importância de cada palavra. Isso é chamado de Tag Cloud ou WordCloud. Para este tutorial, você aprenderá como criar seu próprio WordCloud em Python e personalizá-lo como achar necessário. Essa ferramenta será muito útil para explorar dados de texto e tornar seu relatório mais dinâmico.
Neste tutorial, usaremos um conjunto de dados de análise retirado do Kaggle o link https://www.kaggle.com/luisfredgs/imdb-ptbr
Esse belíssimo Dataset de 128mb foi retirar do site IMDB sobre todas as criticas de filmes e com coluna em ingles (original) e português
Bibliotecas necessárias
Pandas, Matplotlib e Word Cloud (documentação)
word cloud
Pegando todas as palavras do dataset da coluna text_pt
Realizamos um list comprehensions no dataset resenha na coluna text_pt e separou todas as palavras em listas 49459 (listas).
Realizamos a função join para unir essas listas em uma unica string. Esse join foi feito assim: ao final de cada frase juntas com palavras. Ficou uma unica string com 63448424 caracteres
Agora vamos instanciar o Word Cloud e também ja fazer sua geração
Vamos realizar a primeira plotagem
Vamos melhorar sua visualização
Existe muito mais funções para ser explorada no word cloud e também ajustes nas colunas do dataset mas esse artigo foi apenas um breve review dessa poderosa biblioteca