Convertendo a primeira página de um PDF para JPG

Revistas de eletrônica

Já falei aqui de um projeto de site com as capas e índices das revistas de eletrônica publicadas no Brasil. Embora eu tenha criado o repositório com os índices lá no meu GitHub, o povo não se empolgou e é praticamente só eu que atualizo aquilo lá, muito de vez em quando. O site seria parecido com o Guia dos Quadrinhos, com a capa, índice da revista, Thumbnails das capas, essas coisas. Criar os índices demanda tempo, mas criar uma imagem para cada capa demoraria muito mais. O ideal seria automatizar essa parte e já dei um primeiro passo para isso.

Graças a São Picco (padroeiro das revistas de eletrônica brasileiras) a maior parte destas revistas já foram escaneadas e estão disponíveis em PDF. Então escrevi algumas linhas em Python usando o módulo pdf2image, apontei para um diretório com alguns PDFs e o resultado é o da foto acima, com as imagens. Alguns PDFs não são convertidos direito, gerando só uma imagem em branco. Preciso verificar esse bug, mas o script já ajuda muito. O código é esse aqui:


import os
from pdf2image import convert_from_path

pdf_dir = "F:\Revistas de Eletronica\Monitor de Radio e TV" #troque pelo diretorio onde estao os pdfs

os.chdir(pdf_dir)

for pdf_file in os.listdir(pdf_dir):

    if pdf_file.endswith(".pdf"):

        pages = convert_from_path(pdf_file, 150,None,1,1) #segundo parametro eh a qualidade da imagem
        pdf_file = pdf_file[:-4]

        pages[0].save("%s.jpg" % (pdf_file), "JPEG")

O projeto segue em ritmo lento e algum dia, talvez, fique pronto. Quando sobrar um tempo vou ver se automatizo a geração das páginas também.

Um comentário:

  1. Veja se esses pdfs que ficaram em branco não estão com senha, talvez seja esse o problema.

    ResponderExcluir

1. Alguns comentários são moderados automaticamente. Caso isso ocorra pode levar algum tempo até que eu veja e o libere.
2. Comentários fora do assunto do post podem ser apagados.
3. Não, eu não posso consertar os seus aparelhos!