O que fazer com diários oficiais compactados (.rar, .zip, etc)? #1306

trevineju · 2024-10-23T22:07:59Z

Abro a issue para possibilitar discussão do que deve ser feito quando os documentos estão compactados.
Por enquanto, o caso conhecido é de Campos dos Goytacazes-RJ (issue #637) que, até o momento, não foi integrado.

Existe alguma forma interessante de baixar o arquivo compactado e descompactá-lo em tempo de execução? até pq precisamos que os campos de item sejam preenchidos para cada documento...

Ou seria melhor uma solução que baixe o .rar "normalmente" e termos uma rotina posterior para lidar com isso (descompactar e salvar cada arquivo no banco)?

Ideias?

jjpaulo2 · 2024-10-24T20:00:15Z

Nesse caso só uma pipeline já não ajudaria @trevineju?

Podemos criar uma pipeline que roda após a QueridoDiarioFilesPipeline com o único intuito de descomprimir os arquivos baixados da pipeline anterior, caso seja aplicável.

trevineju · 2024-10-30T18:15:31Z

Nesse caso só uma pipeline já não ajudaria @trevineju?

Poderia ser o caminho, sim, mas precisamos dos metadados dos arquivos para preencher os campos do banco de dados, em particular os metadados de Gazette. Dependeria de ter essas informações no nome de cada arquivo descomprimido:

date: é obrigatório no banco de dados do QD.
edition_number: é opcional, então beleza se ficar sem, apesar de ser preferível com.
is_extra_edition: é opcional, então beleza se ficar sem, apesar de ser preferível com.
power: podemos assumir que atributo power usado no raspador seja o válido aqui também.
file_urls: seria a URL do arquivo compactado para todos.

Então o problema fica mais em conseguir coletar a data...

github-project-automation bot added this to [Querido Diário] Municípios Oct 23, 2024

github-project-automation bot moved this to novo in [Querido Diário] Municípios Oct 23, 2024

trevineju added the question Solicitação de informações ou dúvidas label Oct 23, 2024

trevineju moved this from novo to --- in [Querido Diário] Municípios Oct 23, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

O que fazer com diários oficiais compactados (.rar, .zip, etc)? #1306

O que fazer com diários oficiais compactados (.rar, .zip, etc)? #1306

trevineju commented Oct 23, 2024 •

edited

Loading

jjpaulo2 commented Oct 24, 2024 •

edited

Loading

trevineju commented Oct 30, 2024

O que fazer com diários oficiais compactados (.rar, .zip, etc)? #1306

O que fazer com diários oficiais compactados (.rar, .zip, etc)? #1306

Comments

trevineju commented Oct 23, 2024 • edited Loading

jjpaulo2 commented Oct 24, 2024 • edited Loading

trevineju commented Oct 30, 2024

trevineju commented Oct 23, 2024 •

edited

Loading

jjpaulo2 commented Oct 24, 2024 •

edited

Loading