Base do Diário Oficial Municipal de São Paulo (DOMSP)

Essa página fornece links para baixar a base do DOMSP, desde 2003. Isso pode ser útil caso você queira, por exemplo, realizar algum tipo de processamento em larga escala, ou desenvolver seu próprio site de visualização dela.

É importante ressaltar que esses arquivos podem possuir vários gigabytes de tamanho. O grande tamanho da base torna difícil que ela seja usada sem algum tipo de processamento automático por computador.

Formatos da base

A base está disponibilizada em dois formatos: bruto e CSV. O primeiro contém todos os arquivos disponibilizados pela prefeitura, sem alteração nenhuma. Esses arquivos foram então descompactados de seus ZIPs; inferidas as datas de publicação a partir dos nomes dos ZIPs; separados os TXTs dos DOCs, PDFs etc; inferidas e padronizadas as codificações dos TXTs; inferidos os metadados a partir das retrancas; agrupados os TXTs e seus metadados em um CSV por dia de publicação; que foram finalmente compactados em um 7z.

Resumindo: as bases em CSV não contêm todos os arquivos (contém apenas os TXTs que conseguiram ser processados), porém devem ser muito mais fáceis de serem utilizadas do que as bases brutas. Caso você queira utilizar todos os arquivos (como os DOCs e PDFs) ou os TXTs iniciais, terá que baixar e desbravar a base em formato bruto. Boa sorte. ;)

Aqui estão os scripts que fizemos para o tratamento da base [Python], talvez ajudem.

Licença

As bases estão sob licença Creative Commons por Atribuição 4.0.

Baixar

Descrição Data Tamanho Link
Base não tratada, com todos os arquivos originais. 2003-2013 ~12Gb torrent* ou 7z
Base tratada e convertida para CSVs.2003-2013 ~0,7Gb torrent* ou 7z
Base tratada e convertida para CSVs. Alguns metadados corrigidos.2003-2013 ---EM BREVE
Base não tratada, com todos os arquivos originais. No caso ideal esse arquivo será atualizado diariamente.2014~2Gb7z
Base tratada e convertida para CSVs. No caso ideal esse arquivo será atualizado diariamente.2014~50Mb7z
Base não tratada, com todos os arquivos originais. No caso ideal esse arquivo será atualizado diariamente.2015~7z
Base tratada e convertida para CSVs. No caso ideal esse arquivo será atualizado diariamente.2015~7z
Base não tratada, com todos os arquivos originais. No caso ideal esse arquivo será atualizado diariamente.2016~7z
Base tratada e convertida para CSVs. No caso ideal esse arquivo será atualizado diariamente.2016~7z
Base não tratada, com todos os arquivos originais. No caso ideal esse arquivo será atualizado diariamente.2017~7z
Base tratada e convertida para CSVs. No caso ideal esse arquivo será atualizado diariamente.2017~7z

* Os torrents parecem não estar funcionando mais...

A integridade dos arquivos baixados pode ser verificada pelas suas hashes. No caso dos torrents eles já realizam essas verificações.

four star open Web datacreative commons por atribuição