Base do Diário Oficial Municipal de São Paulo (DOMSP)
Essa página fornece links para baixar a base do DOMSP, desde 2003. Isso pode ser útil caso você queira, por exemplo, realizar algum tipo de processamento em larga escala, ou desenvolver seu próprio site de visualização dela.
É importante ressaltar que esses arquivos podem possuir vários gigabytes de tamanho. O grande tamanho da base torna difícil que ela seja usada sem algum tipo de processamento automático por computador.
Formatos da base
A base está disponibilizada em dois formatos: bruto e CSV. O primeiro contém todos os arquivos disponibilizados pela prefeitura, sem alteração nenhuma. Esses arquivos foram então descompactados de seus ZIPs; inferidas as datas de publicação a partir dos nomes dos ZIPs; separados os TXTs dos DOCs, PDFs etc; inferidas e padronizadas as codificações dos TXTs; inferidos os metadados a partir das retrancas; agrupados os TXTs e seus metadados em um CSV por dia de publicação; que foram finalmente compactados em um 7z.
Resumindo: as bases em CSV não contêm todos os arquivos (contém apenas os TXTs que conseguiram ser processados), porém devem ser muito mais fáceis de serem utilizadas do que as bases brutas. Caso você queira utilizar todos os arquivos (como os DOCs e PDFs) ou os TXTs iniciais, terá que baixar e desbravar a base em formato bruto. Boa sorte. ;)
Aqui estão os scripts que fizemos para o tratamento da base [Python], talvez ajudem.
Licença
As bases estão sob licença Creative Commons por Atribuição 4.0.
Baixar
Descrição | Data | Tamanho | Link |
---|---|---|---|
Base não tratada, com todos os arquivos originais. | 2003-2013 | ~12Gb | |
Base tratada e convertida para CSVs. | 2003-2013 | ~0,7Gb | |
Base tratada e convertida para CSVs. Alguns metadados corrigidos. | 2003-2013 | --- | EM BREVE |
Base não tratada, com todos os arquivos originais. No caso ideal esse arquivo será atualizado diariamente. | 2014 | ~2Gb | 7z |
Base tratada e convertida para CSVs. No caso ideal esse arquivo será atualizado diariamente. | 2014 | ~50Mb | 7z |
Base não tratada, com todos os arquivos originais. No caso ideal esse arquivo será atualizado diariamente. | 2015 | ~ | 7z |
Base tratada e convertida para CSVs. No caso ideal esse arquivo será atualizado diariamente. | 2015 | ~ | 7z |
Base não tratada, com todos os arquivos originais. No caso ideal esse arquivo será atualizado diariamente. | 2016 | ~ | 7z |
Base tratada e convertida para CSVs. No caso ideal esse arquivo será atualizado diariamente. | 2016 | ~ | 7z |
Base não tratada, com todos os arquivos originais. No caso ideal esse arquivo será atualizado diariamente. | 2017 | ~ | 7z |
Base tratada e convertida para CSVs. No caso ideal esse arquivo será atualizado diariamente. | 2017 | ~ | 7z |
* Os torrents parecem não estar funcionando mais...
A integridade dos arquivos baixados pode ser verificada pelas suas hashes. No caso dos torrents eles já realizam essas verificações.