Web Scraping com BeautifulSoup
Web Scraping é uma técnica de programação que permite extrair informações de páginas da web (websites). Essa técnica foca principalmente na transformação de dados não estruturados (formato HTML) da Web em dados estruturados (Banco de dados, JSON ou Planilha).
Bibliotecas para a web scraping
O Python é uma linguagem de programação de código aberto (open source). Você pode encontrar muitas bibliotecas para executar uma função. Por isso, é necessário encontrar a melhor para fazer o que você precisa. Eu uso o BeautifulSoup (biblioteca python), já que é fácil e intuitivo de trabalhar. Resumindo, vou usar dois módulos do Python para extrair dados:
- BeautifulSoup: É uma ferramenta incrível para extrair informações de uma página da web. Você pode usá-lo para extrair tabelas, listas, parágrafos e também pode colocar filtros para extrair, por exemplo, e-mails de páginas da web. Neste artigo, usaremos a versão mais recente do BeautifulSoup 4. Você pode ver as instruções de instalação em sua documentação.
- Requests: É uma biblioteca responsável por interagir nas paginas html nelas somos capaz de fazer uma requisição (requests) e obter a responta do servidor desejado (response) consulte a documentação.
Existe outros metodos de webscraping mas aqui o intuito é demostrar essas 2 bibliotecas mencionadas acima
E também antes de começar os trabalhos deve ter um breve conhecimentos das tags html e uso do inspecionar dos navegadores
Nesse Artigo vamos passa a passo explorar a uso dessas ferramentas para extrair dados do site de vagas catho e ao final vamos montar um dataframe pandas com as seguintes informações
Vaga de emprego : cientista de dados
Nome da vaga, descrição e localidade da vaga
Importando bibliotecas
Requests e Beautifulsoup
Vamos fazer a requisição do site
Vamos instanciar o BeautifulSoup e realializar o pharser html
Agora vamos começar a realizar a raspagem da pagina
Apos inspecionar a pagina HTML e descobrir as tags necessárias
Varrendo 1 pagina
Agora que já conseguimos varrer uma pagina vamos captar 10 paginas
Vamos criar o DataFrame
Vale lembrar que esse processo precisa ser feito de forma correta para não infringir nenhuma regras do site.