[Pdfplumber] Transformando PDF em dataset
Mostrando uma prévia aplicação da biblioteca pdfplumber com pandas no sistema python, que nos permite transformar arquivos que estejam em formato de texto em um dataset com estruturas tabular, podendo também ser exportado como (csv.) para trabalhos em outras plataformas de self-service BI ou até mesmo utilizá-lo para análises de EDA (Exploratory Data Analysis) com o próprio python.
Nas rotinas de trabalho é normal estarmos sempre expostos em algum momento a trabalhar com a manipulação de dados, podendo ser desde uma planilha a um arquivo PDF. E cada um desses arquivos pode ter sua limitação para realizar alguma edição por conta da sua estrutura de dados, e esses dois tipos de arquivos que comumente podem estar presentes em sua caixa de entrada no e-mail, podem possuir formatos estruturados ou não estruturados. Definindo o conceito de cada grupo de forma resumida temos os seguintes pontos:
- Dados estruturados: Possuem estrutura rígida e são previamente planejados, com formato bem definido e relação entre os dados, organizados em blocos semânticos. (Ex.: Banco de dados)
- Dados não estruturados: Sem estrutura ou com estrutura mínima, consistem em cerca de mais de 80% dos dados corporativos (Textos, PDF, áudios, imagens, vídeo e redes sociais)
Porém de uma maneira simples e com aplicações básicas o python com a biblioteca pdfplumber pode nos auxiliar no tratamento de alguns arquivos não estruturados trazendo soluções para edição, automatização e transformação de arquivos para diferentes formatos e extensões.
E colocando a mão na massa e exemplificando o uso da ferramenta, através do Googlecolaboratory (Colab) notebook online para uso de python, importaremos a biblioteca pdfplumber para extrair informações de um arquivo em pdf. para transformá-lo em um dataset, o arquivo utilizado foi extraído da base de dados abertos do governo sobre o ENEM 2019 e a logística por trás da organização do evento.
Primeiramente é necessário realizar a instalação da biblioteca no ambiente do notebook com !pip install pdfplumber em seguida importar as bibliotecas conforme abaixo:
Após estruturar o formato do arquivo para dataset, podemos deixá-lo no formato tabular com pandas:
Com o dataset montado e tabulado é possível extrair o arquivo nesse formato, com diferentes tipos de extensões (csv, xls, json, html…) utilizando apenas o comando do pandas “to_csv( )” conforme abaixo:
Nesse exemplo simples temos apenas uma abordagem básica com a utilização do python com a biblioteca pdfplumber que pode ajudar muito no dia a dia do escritório. Essa é apenas uma das diversas aplicações que podemos realizar com essa ferramenta riquíssima, além de facilitar a sua rotina irá destravar a sua barreira de não conseguir trabalhar com alguns dados não estruturados, que as vezes não são utilizadas por serem mais complexas de serem tratadas.