Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

O que fazer com diários oficiais compactados (.rar, .zip, etc)? #1306

Open
trevineju opened this issue Oct 23, 2024 · 2 comments
Open

O que fazer com diários oficiais compactados (.rar, .zip, etc)? #1306

trevineju opened this issue Oct 23, 2024 · 2 comments
Labels
question Solicitação de informações ou dúvidas

Comments

@trevineju
Copy link
Member

trevineju commented Oct 23, 2024

Abro a issue para possibilitar discussão do que deve ser feito quando os documentos estão compactados.
Por enquanto, o caso conhecido é de Campos dos Goytacazes-RJ (issue #637) que, até o momento, não foi integrado.

Existe alguma forma interessante de baixar o arquivo compactado e descompactá-lo em tempo de execução? até pq precisamos que os campos de item sejam preenchidos para cada documento...

Ou seria melhor uma solução que baixe o .rar "normalmente" e termos uma rotina posterior para lidar com isso (descompactar e salvar cada arquivo no banco)?

Ideias?

@trevineju trevineju added the question Solicitação de informações ou dúvidas label Oct 23, 2024
@trevineju trevineju moved this from novo to --- in [Querido Diário] Municípios Oct 23, 2024
@jjpaulo2
Copy link
Contributor

jjpaulo2 commented Oct 24, 2024

Nesse caso só uma pipeline já não ajudaria @trevineju?

Podemos criar uma pipeline que roda após a QueridoDiarioFilesPipeline com o único intuito de descomprimir os arquivos baixados da pipeline anterior, caso seja aplicável.

@trevineju
Copy link
Member Author

Nesse caso só uma pipeline já não ajudaria @trevineju?

Poderia ser o caminho, sim, mas precisamos dos metadados dos arquivos para preencher os campos do banco de dados, em particular os metadados de Gazette. Dependeria de ter essas informações no nome de cada arquivo descomprimido:

  • date: é obrigatório no banco de dados do QD.
  • edition_number: é opcional, então beleza se ficar sem, apesar de ser preferível com.
  • is_extra_edition: é opcional, então beleza se ficar sem, apesar de ser preferível com.
  • power: podemos assumir que atributo power usado no raspador seja o válido aqui também.
  • file_urls: seria a URL do arquivo compactado para todos.

Então o problema fica mais em conseguir coletar a data...

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
question Solicitação de informações ou dúvidas
Projects
Development

No branches or pull requests

2 participants