Word Cloud

Naoki Yokoyama
3 min readOct 11, 2020

--

O que é Word Cloud?

Muitas vezes você pode ter visto uma nuvem repleta de muitas palavras em tamanhos diferentes, que representam a frequência ou a importância de cada palavra. Isso é chamado de Tag Cloud ou WordCloud. Para este tutorial, você aprenderá como criar seu próprio WordCloud em Python e personalizá-lo como achar necessário. Essa ferramenta será muito útil para explorar dados de texto e tornar seu relatório mais dinâmico.

Neste tutorial, usaremos um conjunto de dados de análise retirado do Kaggle o link https://www.kaggle.com/luisfredgs/imdb-ptbr

Esse belíssimo Dataset de 128mb foi retirar do site IMDB sobre todas as criticas de filmes e com coluna em ingles (original) e português

Bibliotecas necessárias

Pandas, Matplotlib e Word Cloud (documentação)

word cloud

Pegando todas as palavras do dataset da coluna text_pt

Realizamos um list comprehensions no dataset resenha na coluna text_pt e separou todas as palavras em listas 49459 (listas).

Realizamos a função join para unir essas listas em uma unica string. Esse join foi feito assim: ao final de cada frase juntas com palavras. Ficou uma unica string com 63448424 caracteres

Agora vamos instanciar o Word Cloud e também ja fazer sua geração

Vamos realizar a primeira plotagem

Vamos melhorar sua visualização

Existe muito mais funções para ser explorada no word cloud e também ajustes nas colunas do dataset mas esse artigo foi apenas um breve review dessa poderosa biblioteca

--

--