[Pdfplumber] Transformando PDF em dataset

Elcio Gustavo
3 min readSep 22, 2020

Mostrando uma prévia aplicação da biblioteca pdfplumber com pandas no sistema python, que nos permite transformar arquivos que estejam em formato de texto em um dataset com estruturas tabular, podendo também ser exportado como (csv.) para trabalhos em outras plataformas de self-service BI ou até mesmo utilizá-lo para análises de EDA (Exploratory Data Analysis) com o próprio python.

Nas rotinas de trabalho é normal estarmos sempre expostos em algum momento a trabalhar com a manipulação de dados, podendo ser desde uma planilha a um arquivo PDF. E cada um desses arquivos pode ter sua limitação para realizar alguma edição por conta da sua estrutura de dados, e esses dois tipos de arquivos que comumente podem estar presentes em sua caixa de entrada no e-mail, podem possuir formatos estruturados ou não estruturados. Definindo o conceito de cada grupo de forma resumida temos os seguintes pontos:

  • Dados estruturados: Possuem estrutura rígida e são previamente planejados, com formato bem definido e relação entre os dados, organizados em blocos semânticos. (Ex.: Banco de dados)
  • Dados não estruturados: Sem estrutura ou com estrutura mínima, consistem em cerca de mais de 80% dos dados corporativos (Textos, PDF, áudios, imagens, vídeo e redes sociais)

Porém de uma maneira simples e com aplicações básicas o python com a biblioteca pdfplumber pode nos auxiliar no tratamento de alguns arquivos não estruturados trazendo soluções para edição, automatização e transformação de arquivos para diferentes formatos e extensões.

E colocando a mão na massa e exemplificando o uso da ferramenta, através do Googlecolaboratory (Colab) notebook online para uso de python, importaremos a biblioteca pdfplumber para extrair informações de um arquivo em pdf. para transformá-lo em um dataset, o arquivo utilizado foi extraído da base de dados abertos do governo sobre o ENEM 2019 e a logística por trás da organização do evento.

Link fonte do arquivo -https://bit.ly/2FFUt0E

Primeiramente é necessário realizar a instalação da biblioteca no ambiente do notebook com !pip install pdfplumber em seguida importar as bibliotecas conforme abaixo:

Após estruturar o formato do arquivo para dataset, podemos deixá-lo no formato tabular com pandas:

Com o dataset montado e tabulado é possível extrair o arquivo nesse formato, com diferentes tipos de extensões (csv, xls, json, html…) utilizando apenas o comando do pandas “to_csv( )” conforme abaixo:

Link de acesso notebook código completo- https://bit.ly/3iSgXtz

Nesse exemplo simples temos apenas uma abordagem básica com a utilização do python com a biblioteca pdfplumber que pode ajudar muito no dia a dia do escritório. Essa é apenas uma das diversas aplicações que podemos realizar com essa ferramenta riquíssima, além de facilitar a sua rotina irá destravar a sua barreira de não conseguir trabalhar com alguns dados não estruturados, que as vezes não são utilizadas por serem mais complexas de serem tratadas.

Sign up to discover human stories that deepen your understanding of the world.

Free

Distraction-free reading. No ads.

Organize your knowledge with lists and highlights.

Tell your story. Find your audience.

Membership

Read member-only stories

Support writers you read most

Earn money for your writing

Listen to audio narrations

Read offline with the Medium app

Elcio Gustavo
Elcio Gustavo

Written by Elcio Gustavo

Engenheiro de produção & Data Scientist (Student)

No responses yet

What are your thoughts?