Friday, February 19, 2016

Web Crawler para Free Packt Publishing

PACKT PUBLISHING 

Para quem não conhece a Packt Publishing é uma empresa criada em 2004 com foco na venda de livros e vídeos sobre diversas áreas da Tecnologia da Informação. O material é dividido em series conforme o seu nível de complexidade, que são:
  •       Learning
  •       Blueprints
  •       Beginner’s Guide
  •       Essentials
  •       Cookbook
  •       Mastering
  •       By Example 

Todo o acervo pode ser acessado pelo na opção BOOKS & VIDEOS. Atualmente o mesmo conta com mais de 3400 livros e mais de 170 vídeos.

FREE BOOK


Uma ideia interessante da empresa é a disponibilidade diária e de forma gratuita de algum livro do seu acervo mas para ter acesso ao livro é necessário ter uma conta no site. Dessa forma o livro fica disponível para que o usuário faça o download sempre que achar necessário.

Para visualizar o livro do dia e quais foram os disponibilizado anteriormente acesse o link https://www.packtpub.com/packt/offers/free-learning.

WEB CRAWLER


Pensando em automatizar o processo de pegar o livro e não ter que ficar olhando todos os dias para o site, acabei criando um web crawler para tal.

O web crawler é simples, onde ele analisa se o usuário já tem o livro e caso não tenha o mesmo é adicionado. O interessante é adiciona-lo em uma regra do cron do Linux para executar automaticamente em uma hora específica.

No meu ambiente de testes eu coloquei em dois horários distintos, 13:00 e 23:00, esses horário foram escolhidos para diminuir a possibilidade da internet não esta funcionando no horário e o script não conseguir adicionar o livro.


Link do projeto: https://github.com/GabrielRocha/WebCrawlerPacktPublishing

No comments:

Post a Comment