-
-
Notifications
You must be signed in to change notification settings - Fork 416
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
[Manutenção] Novo raspador para Bento Gonçalves-RS #1239
Comments
Vou puxar essa issue. Acho que já vale a pena criar um spider base pra esse sistema Gespam Web. |
@trevineju eu vi que podem existir 3 tipos de publicação nesse sistema: Pode me dar uma orientação sobre como seria essa captura?
|
Isso seria ótimo, você conseguiu achar outros casos? Temos integrado spider bases a partir de 2 casos.
Pode classificar como "legislative" mesmo. Temos alguns casos que fazem isso já, por exemplo a base adiarios_v1. E o esquema de validação permite o campo Não é o foco de integração do projeto no momento, mas nesses casos em que os documentos estão misturados, vale a pena já coletar. Então, tá show a tabela, só muda as duas últimas linhas.
|
Ainda não, mas vou dar uma olhadinha. Pq já podemos integrar vários de uma vez só.
Blz. Tudo bem fazer o scrapping de todas as categorias mesmo, então? |
Puxei aqui que @ayharano achou vários casos usando um formato de pesquisa no google. Dá uma tentada nisso!
Pode dale |
URL da forma de consulta
https://transparencia.abase.com.br/diario-oficial/3Qbz33YASiE=
Período de publicação
11/07/2024
Formato da publicação
Os diários oficiais são publicados em PDF (texto)
Conteúdo da publicação
Diário único: documento publicado é uma edição completa do diário oficial
Detalhes do site de publicação
Possui paginação, Possui filtro por data
Observações
O raspador para rs_bento_goncalves.py não está mais coletando diários em produção devido o site ter mudado. É necessário sobreescrever o código para coletar a partir da URL cadastrada na issue.
Não existe uma issue aberta para esse município
The text was updated successfully, but these errors were encountered: