Request timeout no endpoint deputados/{id}/discursos #354

felipelmc · 2024-09-16T14:59:31Z

Caros, estou extraindo os discursos de deputados federais usando a API de dados abertos mas o endpoint de discursos retorna request timeout para todas as minhas requisições. Fiz uma série de testes no "Try out" da página, além de requests via Python, mas o resultado é sempre o mesmo.

O código que estou usando para fazer a extração dos dados está aqui: https://github.com/felipelmc/PoliSpeechBR/blob/main/extract_speeches.ipynb

EquipeDadosAbertosCD · 2024-09-17T14:30:26Z

Olá, Felipe!

Acredito que pode ter havido um problema temporário em um proxy intermediário da nossa rede. Não consegui reproduzir o problema, usando os mesmos ou diferentes parâmetros de tempo. Por favor avise se você ainda estiver tendo o problema: caso prefira, pode escrever para [email protected] , e informe se possível o IP e o user agent usados pela sua aplicação para que consigamos procurar dados nos sistemas de monitoramento da nossa infraestrutura.

Quanto ao código, eu lhe sugeriria incluir um delay de 200ms, com uma chamada a sleep(), entre as requisições. Sem isso, você provavelmente vai receber erros 429 ("too many requests") com frequência. Você também pode economizar requisições se aumentar o número de itens retornados a cada requisição (com itens=50, por exemplo) e, em vez de buscar novas páginas por um loop que verifica se a resposta veio vazia, você pode simplesmente buscar novas páginas enquanto houver uma URL com rel=next na seção links das respostas.

Obrigado pelo interesse no Dados Abertos e grande abraço!

Fabricio Rocha
Equipe Dados Abertos - Câmara

felipelmc · 2024-09-17T20:40:32Z

Muito obrigado pela pronta resposta, Fabricio! Infelizmente continuo tendo o mesmo problema. Vou escrever para o e-mail indicado.

No mais, obrigado pelas sugestões em relação ao código! Não tinha me atentado para essa maneira de buscar novas páginas.

Grande abraço!

paulopha · 2024-09-18T12:57:12Z

Bom dia Pessoal !
Mesmo problema por aqui.

Estou em um processo que busca ingestionar os dados de forma diaria.
Nessa situação sei que o erro começou a surgir no dia a partir do dia 30-08.

Conseguem ajudar ?

EquipeDadosAbertosCD · 2024-09-18T17:31:17Z

Olá, pessoal.

Vocês podem por favor testar se a situação foi normalizada?

Obrigado e abraços!

Fabricio Rocha
Equipe Dados Abertos - Câmara

felipelmc · 2024-09-18T17:38:49Z

Oi, Fabricio! Fiz alguns testes no próprio site e programaticamente e parece estar funcionando perfeitamente. Muito obrigado!

paulopha · 2024-09-18T17:53:54Z

Boa Tarde Fabricio!

Problema ainda persiste por aqui.

curl -X 'GET' \
  'https://dadosabertos.camara.leg.br/api/v2/deputados/220588/discursos?dataInicio=2024-08-16&ordenarPor=dataHoraInicio&ordem=ASC&itens=50' \
  -H 'accept: application/json'

Consegue auxiliar ?

felipelmc · 2024-09-18T17:57:08Z

De fato, @paulopha, testei esse id aqui e também não funcionou

EquipeDadosAbertosCD · 2024-09-18T19:33:09Z

Salve, pessoal.

Estamos detectando que o limite de acessos à base de discursos estão sendo atingidos muito rapidamente. É possível que alguma aplicação esteja bombardeando da API de requisições.

Sugerimos que entre cada requisição seja inserido um atraso de 200ms, para evitar a sobrecarga no servidor e assim permitir que todos os usuários sejam atendidos. Vamos verificar também se podemos aumentar a velocidade de resposta deste endpoint, mas isso não é algo que podemos resolver de imediato.

Enquanto isso, peço desculpas e a compreensão de todos, e agradeço por alertarem sobre o problema.

Fabricio Rocha
Equipe Dados Abertos - Câmara

paulopha · 2024-09-19T11:49:39Z

Bom dia Fabricio.

Como tal falha impossibilida a obtenção de informação, e não sabemos quem são os clientes alem de nos mesmos que podem estar a agredir o endpoint.

Sabe me dizer se existe outra forma, paleativa, de obtenção dos dados em questão ?

EquipeDadosAbertosCD · 2024-09-19T12:22:02Z

Salve, @paulopha .

Ainda não há. Temos um plano antigo de fornecer os discursos como arquivos TXT referenciados pelos Arquivos do Dados Abertos, mas ainda não conseguimos implementar por diversas razões.

Vamos nos concentrar em resolver o problema da API nesta quinta-feira.

Fabricio Rocha
Equipe Dados Abertos - Câmara

paulopha · 2024-09-25T14:15:07Z

Bom dia pessoal ?

Temos algum retorno com relação a situação ?

Muito Obrigado !

leticialino · 2024-09-30T05:38:15Z

Olá, pessoal!

Mesmo problema por aqui. Temos alguma atualização? Obrigada!

EquipeDadosAbertosCD · 2024-10-07T14:36:04Z

Olá, pessoal.

Ficamos até semana passada tomando uma surra es-pe-ta-cu-lar desse problema. Mas chegamos a algumas soluções que, se não resolveram, pelo menos diminuíram sensivelmente a ocorrência.

Peço-lhes que verifiquem como o endpoint está respondendo agora. Mas peço parcimônia. O problema foi relacionado à necessidade de um processamento meio complicado e longo dos textos.

Não ocorria antes. Mas uma ou mais aplicação(ções) que não temos como identificar iniciou(aram) um consumo absurdo do endpoint de algumas semanas para cá. A cerca de 660 requisições por segundo, não tem API que dê jeito. Para comparação, o endpoint /deputados, na última semana, teve como pico de consumo 1,16 requisições por segundo. O segundo endpoint mais requisitado nesse período foi /proposicao/{id}/autores, com 69 requisições por segundo. Ou seja: o de discursos foi bombardeado com quase 10x isso.

APIs são recursos limitados. Não tem outro jeito.

Obrigado e abraços!

Fabricio Rocha
Equipe Dados Abertos - Câmara

felipelmc · 2024-10-08T11:27:59Z

Olá, Fabrício!

Muito obrigado por terem se dedicado a esse problema. Ontem mesmo executei o código para extrair os discursos via API e funcionou perfeitamente - não obtive um erro sequer.

Parabéns pelo trabalho!

Forte abraço,
Felipe

leticialino · 2024-10-25T19:52:14Z

Olá Fabrício!

Agradeço os esforços e o retorno da equipe! Consegui extrair os discursos pela API, entretanto, me restou uma dúvida: esses discursos ainda são referente a eventos diversos? ou apenas aos realizados em plenário?

Agradeço novamente pela ajuda,
Letícia

EquipeDadosAbertosCD added the bug label Sep 19, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Request timeout no endpoint deputados/{id}/discursos #354

Request timeout no endpoint deputados/{id}/discursos #354

felipelmc commented Sep 16, 2024

EquipeDadosAbertosCD commented Sep 17, 2024 •

edited

Loading

felipelmc commented Sep 17, 2024

paulopha commented Sep 18, 2024

EquipeDadosAbertosCD commented Sep 18, 2024

felipelmc commented Sep 18, 2024

paulopha commented Sep 18, 2024

felipelmc commented Sep 18, 2024

EquipeDadosAbertosCD commented Sep 18, 2024

paulopha commented Sep 19, 2024

EquipeDadosAbertosCD commented Sep 19, 2024

paulopha commented Sep 25, 2024

leticialino commented Sep 30, 2024

EquipeDadosAbertosCD commented Oct 7, 2024

felipelmc commented Oct 8, 2024

leticialino commented Oct 25, 2024 •

edited

Loading

Request timeout no endpoint deputados/{id}/discursos #354

Request timeout no endpoint deputados/{id}/discursos #354

Comments

felipelmc commented Sep 16, 2024

EquipeDadosAbertosCD commented Sep 17, 2024 • edited Loading

felipelmc commented Sep 17, 2024

paulopha commented Sep 18, 2024

EquipeDadosAbertosCD commented Sep 18, 2024

felipelmc commented Sep 18, 2024

paulopha commented Sep 18, 2024

felipelmc commented Sep 18, 2024

EquipeDadosAbertosCD commented Sep 18, 2024

paulopha commented Sep 19, 2024

EquipeDadosAbertosCD commented Sep 19, 2024

paulopha commented Sep 25, 2024

leticialino commented Sep 30, 2024

EquipeDadosAbertosCD commented Oct 7, 2024

felipelmc commented Oct 8, 2024

leticialino commented Oct 25, 2024 • edited Loading

EquipeDadosAbertosCD commented Sep 17, 2024 •

edited

Loading

leticialino commented Oct 25, 2024 •

edited

Loading