Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[Manutenção] Novo raspador para Bento Gonçalves-RS #1239

Open
1 task done
trevineju opened this issue Aug 2, 2024 · 5 comments
Open
1 task done

[Manutenção] Novo raspador para Bento Gonçalves-RS #1239

trevineju opened this issue Aug 2, 2024 · 5 comments
Assignees
Labels
maintenance Demanda de manutenção priority Issue endereça algo prioritário production Esse problema afeta o que está em produção spider Adiciona robô raspador para município(s)

Comments

@trevineju
Copy link
Member

URL da forma de consulta

https://transparencia.abase.com.br/diario-oficial/3Qbz33YASiE=

Período de publicação

11/07/2024

Formato da publicação

Os diários oficiais são publicados em PDF (texto)

Conteúdo da publicação

Diário único: documento publicado é uma edição completa do diário oficial

Detalhes do site de publicação

Possui paginação, Possui filtro por data

Observações

O raspador para rs_bento_goncalves.py não está mais coletando diários em produção devido o site ter mudado. É necessário sobreescrever o código para coletar a partir da URL cadastrada na issue.

Não existe uma issue aberta para esse município

  • Eu verifiquei que não existe uma issue aberta ou marcada com incompatible para o mesmo município.
@trevineju trevineju added spider Adiciona robô raspador para município(s) production Esse problema afeta o que está em produção priority Issue endereça algo prioritário maintenance Demanda de manutenção labels Aug 2, 2024
@trevineju trevineju changed the title [Novo spider]: Bento Gonçalves-RS [Manutenção] Novo raspador para Bento Gonçalves-RS Aug 2, 2024
@trevineju trevineju moved this from novo to pendente in [Querido Diário] Municípios Sep 19, 2024
@jjpaulo2
Copy link
Contributor

Vou puxar essa issue. Acho que já vale a pena criar um spider base pra esse sistema Gespam Web.

@jjpaulo2
Copy link
Contributor

@trevineju eu vi que podem existir 3 tipos de publicação nesse sistema: SUPLEMENTAR, ORDINÁRIA e ORDINÁRIA - CAMARA (acredito que também pode haver um SUPLEMENTAR - CAMARA, apesar de eu não ter encontrado).

Pode me dar uma orientação sobre como seria essa captura?
(acredito que seria como na tabela abaixo)

Categoria Objeto gerado
ORDINÁRIA Gazette(is_extra_edition=False, power="executive", ...)
SUPLEMENTAR Gazette(is_extra_edition=True, power="executive", ...)
ORDINÁRIA - CAMARA Gazette(is_extra_edition=False, power="executive_legislative", ...)
SUPLEMENTAR - CAMARA Gazette(is_extra_edition=True, power="executive_legislative", ...)

@trevineju
Copy link
Member Author

Vou puxar essa issue. Acho que já vale a pena criar um spider base pra esse sistema Gespam Web.

Isso seria ótimo, você conseguiu achar outros casos? Temos integrado spider bases a partir de 2 casos.

Pode me dar uma orientação sobre como seria essa captura?

Pode classificar como "legislative" mesmo. Temos alguns casos que fazem isso já, por exemplo a base adiarios_v1. E o esquema de validação permite o campo power ser "legislative" também.

Não é o foco de integração do projeto no momento, mas nesses casos em que os documentos estão misturados, vale a pena já coletar.

Então, tá show a tabela, só muda as duas últimas linhas.

Categoria Objeto gerado
ORDINÁRIA - CAMARA Gazette(is_extra_edition=False, power="legislative", ...)
SUPLEMENTAR - CAMARA Gazette(is_extra_edition=True, power="legislative", ...)

@jjpaulo2
Copy link
Contributor

Você conseguiu achar outros casos?

Ainda não, mas vou dar uma olhadinha. Pq já podemos integrar vários de uma vez só.

Então, tá show a tabela, só muda as duas últimas linhas.

Blz. Tudo bem fazer o scrapping de todas as categorias mesmo, então?

@trevineju
Copy link
Member Author

Ainda não, mas vou dar uma olhadinha. Pq já podemos integrar vários de uma vez só.

Puxei aqui que @ayharano achou vários casos usando um formato de pesquisa no google. Dá uma tentada nisso!

Blz. Tudo bem fazer o scrapping de todas as categorias mesmo, então?

Pode dale

@trevineju trevineju moved this from pendente to fazendo in [Querido Diário] Municípios Sep 23, 2024
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
maintenance Demanda de manutenção priority Issue endereça algo prioritário production Esse problema afeta o que está em produção spider Adiciona robô raspador para município(s)
Projects
Status: fazendo
Development

No branches or pull requests

2 participants