Já falei aqui de um projeto de site com as capas e índices das revistas de eletrônica publicadas no Brasil. Embora eu tenha criado o repositório com os índices lá no meu GitHub, o povo não se empolgou e é praticamente só eu que atualizo aquilo lá, muito de vez em quando. O site seria parecido com o Guia dos Quadrinhos, com a capa, índice da revista, Thumbnails das capas, essas coisas. Criar os índices demanda tempo, mas criar uma imagem para cada capa demoraria muito mais. O ideal seria automatizar essa parte e já dei um primeiro passo para isso.
Graças a São Picco (padroeiro das revistas de eletrônica brasileiras) a maior parte destas revistas já foram escaneadas e estão disponíveis em PDF. Então escrevi algumas linhas em Python usando o módulo pdf2image, apontei para um diretório com alguns PDFs e o resultado é o da foto acima, com as imagens. Alguns PDFs não são convertidos direito, gerando só uma imagem em branco. Preciso verificar esse bug, mas o script já ajuda muito. O código é esse aqui:
import os from pdf2image import convert_from_path pdf_dir = "F:\Revistas de Eletronica\Monitor de Radio e TV" #troque pelo diretorio onde estao os pdfs os.chdir(pdf_dir) for pdf_file in os.listdir(pdf_dir): if pdf_file.endswith(".pdf"): pages = convert_from_path(pdf_file, 150,None,1,1) #segundo parametro eh a qualidade da imagem pdf_file = pdf_file[:-4] pages[0].save("%s.jpg" % (pdf_file), "JPEG")
O projeto segue em ritmo lento e algum dia, talvez, fique pronto. Quando sobrar um tempo vou ver se automatizo a geração das páginas também.
Veja se esses pdfs que ficaram em branco não estão com senha, talvez seja esse o problema.
ResponderExcluir