Date: prev next · Thread: first prev next last
2022 Archives by date, by thread · List index


come su grep esiste "-A NUM", esiste anche su pdfgrep

Valerio



On 1/14/22 5:30 PM, gianpaolo_marcolongo wrote:
Ciao a tutti.

Avendo linux ho provato pdfgrep ma non funziona nel senso che estrae la
riga con la voce segnata.

Costruito un pdf così

nrofattura, data,imponibile,iva

con sotto le singole voci numeri, date, ecc.

il comando pdfgrep -i iva *.pdf --*NB vuole *.pdf e non il singolo file*
- viene estratta una riga che contiene le stringhe
nrofattura,data,imponibile, iva che ovviamente non serve a nulla. Per
funzionare dovrei avere una colonna con la stringa uguale ripetuta su
ogni riga, cosa che non è possibile se la fattura non è costruita ad hoc
ovvero una riga costruita così

nrofattura x data gg/mm/aaaa imponibile nnnnn iva ii%

direi che sia abbastanza improbabile.

Diciamo che pdfgrep va benissimo se ho un testo in formato pdf e voglio
estrarre una singola voce con annesso numero di riga.

Marcolongo


Il 14/01/22 13:21, Fabio Mura ha scritto:
Ciao, se usi linux potresti provare ad utilizzare pdfgrep che è in grado di
estrarre del testo da un pdf e poi lo reindirizzi ad esempio in un file
txt. Io l'ho usato per rinominare dei file pdf in maniera ricorsiva
prendendo del testo dall'interno che era posizionato sempre nella stessa
riga.
La cosa funziona ma ci vuole un pò di lavoro
esempio (con una fattura pdf) dico a pdfgrep di intercettare nel pdf la
riga con la parola "imposta" e tirare fuori il testo della
riga  reindirizzandolo in un file txt

*pdfgrep -in imposta *.pdf > test.txt*
quello che poi trovo nel file txt è questo (estratto dal modello fattura
allegato)

*1:
      Imposta IVA                   220,00*

ok ho il testo, a questo punto devo decidere quanto sbattermi per estrarre
i dati che mi interessano e organizzarmi per poi avere una tabella, se ne
vale la pena in termini di tempo risparmiato






Il giorno ven 14 gen 2022 alle ore 11:31 Valerio Messina <efa@iol.it> ha
scritto:

On 1/14/22 9:45 AM, Edoardo Ingrassia wrote:
Ho un numero molto elevato di
fatture in formato PDF (tutte di uguale formato). Vorrei prendere solo
alcuni dati di queste fatture, cioè numero fattura, la data,
l'imponibile e l'IVA pagata. Questi dati devono essere riportati tutti
su un foglio di calc. Faccio un esempio, il foglio dovrebbe avere 4
colonne dove c'è nella prima numero fattura, nella seconda la data,
poi l'imponibile e poi l'IVA. Fino ad adesso ho inserito tutto a mano
e volevo sapere se esiste una soluzione "automatizzata" dato che è
tutto in formato elettronico
LibreOffice non è lo strumento giusto per fare quella cosa.

Io userei la libreria poppler e le poppler-utils, trovi comandi che
convertono i PDF in testo o HTML in modo automatizzato, poi con uno
script di bash, estrai i campi di interesse e produci facilmente un file
CSV che poi importi in OpenOffice.

Richiede un minimo di smanettamento.

Se usi Windows visto che la libreria non è pre-installata, esiste un
port già pre-compilato, lo trovi linkato su Wikipedia:
https://en.wikipedia.org/wiki/Poppler_%28software%29

--
Valerio

--
Come cancellarsi: E-mail users+unsubscribe@it.libreoffice.org
Problemi?
https://it.libreoffice.org/supporto/mailing-lists/come-cancellarsi/
Linee guida per postare + altro:
https://wiki.documentfoundation.org/Local_Mailing_Lists/it
Archivio della lista: https://listarchives.libreoffice.org/it/users/
Privacy Policy: https://www.documentfoundation.org/privacy





--
Valerio

--
Come cancellarsi: E-mail users+unsubscribe@it.libreoffice.org
Problemi? https://it.libreoffice.org/supporto/mailing-lists/come-cancellarsi/
Linee guida per postare + altro: https://wiki.documentfoundation.org/Local_Mailing_Lists/it
Archivio della lista: https://listarchives.libreoffice.org/it/users/
Privacy Policy: https://www.documentfoundation.org/privacy

Context


Privacy Policy | Impressum (Legal Info) | Copyright information: Unless otherwise specified, all text and images on this website are licensed under the Creative Commons Attribution-Share Alike 3.0 License. This does not include the source code of LibreOffice, which is licensed under the Mozilla Public License (MPLv2). "LibreOffice" and "The Document Foundation" are registered trademarks of their corresponding registered owners or are in actual use as trademarks in one or more countries. Their respective logos and icons are also subject to international copyright laws. Use thereof is explained in our trademark policy.