Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[manutenção] Raspador de Belo Horizonte - MG parou de funcionar #1339

Open
trevineju opened this issue Jan 8, 2025 · 1 comment
Open
Labels
maintenance Demanda de manutenção priority Issue endereça algo prioritário production Esse problema afeta o que está em produção spider Adiciona robô raspador para município(s)

Comments

@trevineju
Copy link
Member

Segue o log da última coleta em produção para apoio na identificação do problema:
log_mg_belo_horizonte_1050.txt

@trevineju trevineju added production Esse problema afeta o que está em produção priority Issue endereça algo prioritário maintenance Demanda de manutenção spider Adiciona robô raspador para município(s) labels Jan 8, 2025
@trevineju
Copy link
Member Author

trevineju commented Jan 9, 2025

As requisições do raspador estão sendo barradas por captcha que percebe que é um acesso de robô desde o primeiro acesso. Dois casos do HTML da página retornada: mg_bh.zip

Tentei mudar alguns headers e cookies para ver se passa, mas não consegui. Achei curioso pois BH tem uma API Pública com endpoint de acesso do diário oficial - https://api-dom.pbh.gov.br/ - e tá bloqueando acesso automático?

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
maintenance Demanda de manutenção priority Issue endereça algo prioritário production Esse problema afeta o que está em produção spider Adiciona robô raspador para município(s)
Projects
Status: novo
Development

No branches or pull requests

1 participant