PDF facturen transformeren naar JSON met behulp van ChatGPT

De digitalisering van het verwerken van facturen is een cruciaal aspect van de moderne bedrijfsvoering. In elke fase in het totale Supply Chain proces, wordt immers gewerkt met facturatie. Het proces van het converteren van factuurdocumenten van het ene formaat naar het andere, vaak van PDF naar JSON, is een enorme uitdaging vanwege de inherente variabiliteit in factuurstructuur, taal en jargon. In dit artikel bespreek ik hoe we deze uitdagingen hebben aangepakt met behulp van ChatGPT.

Tip: Benieuwd naar meer GPT oplossingen? Lees dan ook: Super snel transport documenten verwerken met behulp van ChatGPT

Uitdagingen en aanpak

Factuurdocumenten vertonen, in tegenstelling tot gestandaardiseerde formulieren, vaak een reeks variaties op het gebied van opmaak, taal en structuur. Deze complexiteit vormt een aanzienlijke hindernis voor traditionele tekstverwerkingshulpmiddelen. Om deze uitdagingen te overwinnen, hebben we een aanpak in drie stappen gevolgd:

PDF naar tekstconversie met AWS Textract:

In eerste instantie converteren we de PDF-factuur naar een tekstweergave met behulp van AWS Textract. 

Hoewel GPT-4 de mogelijkheid heeft om direct te transformeren, vereenvoudigt voorverwerking met AWS Textract de tekst, waardoor deze toegankelijker wordt voor GPT-4.

Creëren van een tussenweergave: 

De inkoopregeltabel van de factuur wordt vervolgens omgezet in een door komma’s gescheiden waardenformaat. 

Deze ‘tussenweergave’ integreert ook andere tekstregels en key-waarden uit de factuur.

GPT-4 gebruiken voor definitieve transformatie:

 Met een gespecialiseerde prompt instrueren we ChatGPT om deze tussenrepresentatie naar JSON-formaat te converteren.

Evaluatie

Om de nauwkeurigheid en effectiviteit van onze aanpak te beoordelen, hebben we de getransformeerde JSON-uitvoer vergeleken met de originele PDF-facturen. Onze bevindingen waren overwegend positief:

      1. Nauwkeurigheid: De geëxtraheerde gegevens uit de JSON-uitvoer kwamen met hoge precisie overeen met de originele facturen, zelfs als ze werden gepresenteerd met niet-gestandaardiseerde PDF-structuren of onbekende talen.

      1. Gebruiksvriendelijke transformatie: Met de juiste prompt is het converteren van de tussenweergave naar het gewenste formaat triviaal.

    Praktijkvoorbeeld:

    Dit ziet er in de praktijk als volgt uit:

    Vergelijking met AWS Analyse Expense

    Een andere populaire optie voor het extraheren van factuurgegevens is de AnalyseExpense-functie van AWS Textract. Hoewel AnalyseExpense ook nauwkeurige resultaten oplevert, vereist het verdere verwerking om de geëxtraheerde gegevens naar het gewenste formaat te converteren. 

    Meerwaarde ChatGPT:

    De meerwaarde van dit proces met ChatGPT uit te voeren komt in deze stap vooraal aan het licht. Het vermogen van GPT-4 om de uiteindelijke JSON-uitvoer te genereren, elimineert deze extra stap namelijk direct, waardoor tijd en moeite worden bespaard. Ook kunnen wij het resultaat eenvoudig omzetten naar een ander formaat zoals EDI of UN/CEFACT. 

    Conclusie

    Onze experimenten met GPT-4 hebben het opmerkelijke potentieel ervan aangetoond bij het met opmerkelijke nauwkeurigheid en efficiëntie transformeren van facturen van PDF naar JSON. Deze mogelijkheid om met ongestructureerde gegevens om te gaan, in combinatie met het gebruiksgemak, maakt GPT-4 een waardevol hulpmiddel voor bedrijven die hun workflow voor factuurverwerking willen stroomlijnen.

    Benieuwd naar de mogelijkheden van GPT oplossingen in uw order en factureringsprocessen?

    Wij nodigen u van harte uit om met ons innovatie team in contact te komen en samen de grenzen van de (AI-) mogelijkheden te verkennen.