Web Scraping com BeautifulSoup

3 min readOct 10, 2020

Web Scraping é uma técnica de programação que permite extrair informações de páginas da web (websites). Essa técnica foca principalmente na transformação de dados não estruturados (formato HTML) da Web em dados estruturados (Banco de dados, JSON ou Planilha).

Bibliotecas para a web scraping

O Python é uma linguagem de programação de código aberto (open source). Você pode encontrar muitas bibliotecas para executar uma função. Por isso, é necessário encontrar a melhor para fazer o que você precisa. Eu uso o BeautifulSoup (biblioteca python), já que é fácil e intuitivo de trabalhar. Resumindo, vou usar dois módulos do Python para extrair dados:

BeautifulSoup: É uma ferramenta incrível para extrair informações de uma página da web. Você pode usá-lo para extrair tabelas, listas, parágrafos e também pode colocar filtros para extrair, por exemplo, e-mails de páginas da web. Neste artigo, usaremos a versão mais recente do BeautifulSoup 4. Você pode ver as instruções de instalação em sua documentação.
Requests: É uma biblioteca responsável por interagir nas paginas html nelas somos capaz de fazer uma requisição (requests) e obter a responta do servidor desejado (response) consulte a documentação.

Existe outros metodos de webscraping mas aqui o intuito é demostrar essas 2 bibliotecas mencionadas acima

E também antes de começar os trabalhos deve ter um breve conhecimentos das tags html e uso do inspecionar dos navegadores

Nesse Artigo vamos passa a passo explorar a uso dessas ferramentas para extrair dados do site de vagas catho e ao final vamos montar um dataframe pandas com as seguintes informações

Vaga de emprego : cientista de dados

Nome da vaga, descrição e localidade da vaga

Importando bibliotecas