Web Scraping com BeautifulSoup

Naoki Yokoyama
3 min readOct 10, 2020

--

Web Scraping é uma técnica de programação que permite extrair informações de páginas da web (websites). Essa técnica foca principalmente na transformação de dados não estruturados (formato HTML) da Web em dados estruturados (Banco de dados, JSON ou Planilha).

Bibliotecas para a web scraping

O Python é uma linguagem de programação de código aberto (open source). Você pode encontrar muitas bibliotecas para executar uma função. Por isso, é necessário encontrar a melhor para fazer o que você precisa. Eu uso o BeautifulSoup (biblioteca python), já que é fácil e intuitivo de trabalhar. Resumindo, vou usar dois módulos do Python para extrair dados:

  • BeautifulSoup: É uma ferramenta incrível para extrair informações de uma página da web. Você pode usá-lo para extrair tabelas, listas, parágrafos e também pode colocar filtros para extrair, por exemplo, e-mails de páginas da web. Neste artigo, usaremos a versão mais recente do BeautifulSoup 4. Você pode ver as instruções de instalação em sua documentação.
  • Requests: É uma biblioteca responsável por interagir nas paginas html nelas somos capaz de fazer uma requisição (requests) e obter a responta do servidor desejado (response) consulte a documentação.

Existe outros metodos de webscraping mas aqui o intuito é demostrar essas 2 bibliotecas mencionadas acima

E também antes de começar os trabalhos deve ter um breve conhecimentos das tags html e uso do inspecionar dos navegadores

Nesse Artigo vamos passa a passo explorar a uso dessas ferramentas para extrair dados do site de vagas catho e ao final vamos montar um dataframe pandas com as seguintes informações

Vaga de emprego : cientista de dados

Nome da vaga, descrição e localidade da vaga

Importando bibliotecas

Requests e Beautifulsoup

Vamos fazer a requisição do site

Vamos instanciar o BeautifulSoup e realializar o pharser html

Agora vamos começar a realizar a raspagem da pagina

Apos inspecionar a pagina HTML e descobrir as tags necessárias

Varrendo 1 pagina

Agora que já conseguimos varrer uma pagina vamos captar 10 paginas

Vamos criar o DataFrame

Vale lembrar que esse processo precisa ser feito de forma correta para não infringir nenhuma regras do site.

--

--