You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
Abro a issue para possibilitar discussão do que deve ser feito quando os documentos estão compactados.
Por enquanto, o caso conhecido é de Campos dos Goytacazes-RJ (issue #637) que, até o momento, não foi integrado.
Existe alguma forma interessante de baixar o arquivo compactado e descompactá-lo em tempo de execução? até pq precisamos que os campos de item sejam preenchidos para cada documento...
Ou seria melhor uma solução que baixe o .rar "normalmente" e termos uma rotina posterior para lidar com isso (descompactar e salvar cada arquivo no banco)?
Ideias?
The text was updated successfully, but these errors were encountered:
Nesse caso só uma pipeline já não ajudaria @trevineju?
Podemos criar uma pipeline que roda após a QueridoDiarioFilesPipeline com o único intuito de descomprimir os arquivos baixados da pipeline anterior, caso seja aplicável.
Nesse caso só uma pipeline já não ajudaria @trevineju?
Poderia ser o caminho, sim, mas precisamos dos metadados dos arquivos para preencher os campos do banco de dados, em particular os metadados de Gazette. Dependeria de ter essas informações no nome de cada arquivo descomprimido:
date: é obrigatório no banco de dados do QD.
edition_number: é opcional, então beleza se ficar sem, apesar de ser preferível com.
is_extra_edition: é opcional, então beleza se ficar sem, apesar de ser preferível com.
power: podemos assumir que atributo power usado no raspador seja o válido aqui também.
file_urls: seria a URL do arquivo compactado para todos.
Então o problema fica mais em conseguir coletar a data...
Abro a issue para possibilitar discussão do que deve ser feito quando os documentos estão compactados.
Por enquanto, o caso conhecido é de Campos dos Goytacazes-RJ (issue #637) que, até o momento, não foi integrado.
Existe alguma forma interessante de baixar o arquivo compactado e descompactá-lo em tempo de execução? até pq precisamos que os campos de item sejam preenchidos para cada documento...
Ou seria melhor uma solução que baixe o .rar "normalmente" e termos uma rotina posterior para lidar com isso (descompactar e salvar cada arquivo no banco)?
Ideias?
The text was updated successfully, but these errors were encountered: