Come copiare e incollare un testo da un PDF: i passaggi da effettuare per poter trasferire parti scritte da tale documento a un altro.
Avete problemi a copiare e incollare testo da file PDF? Se la risposta è sì, vi forniamo una guida semplice da attuare, al fine di riuscire in questa impresa che, in alcuni casi, risulta alquanto ardua. Pertanto, dovrete impiegare un software open source per estrarre testo da PDF, specialmente quelli contenenti immagini scannerizzate. Scopriamo, dunque, insieme come OCR può essere utilizzato per identificare, copiare e trasferire il testo in altre destinazioni.
Copiare e incollare testo da un PDF
Se avete problemi ad estrarre testo da documenti PDF, sappiate che esistono diverse soluzioni per riuscire a copiarlo e incollarlo e utilizzarlo su altri tipi di documento, ad esempio su un foglio Word.
Se, tentando di aprire un PDF, non riuscite a selezionare o trasferire il testo altrove (tramite CTRL+C, CTRL+V), ciò, di solito, indica che il documento è formato, solamente, da immagini.
Provate a cercare una parola qualsiasi presente nel file, quindi usate la combinazione CTRL+F. Se, inserendo la stessa parola nel campo di ricerca, non compare alcun risultato, avrete la conferma che il testo selezionabile nel PDF è totalmente assente.
Identificare il testo tramite OCRmyPDF
Esistono diverse soluzioni per bypassare la difficoltà di copiare e incollare testo da un file in PDF il cui contenuto è stato scannerizzato e non creato ex novo da PC. Una delle più efficaci e semplici, che non richiede esborso di denaro, è OCRmyPDF, un’applicazione open source.
OCRmyPDF è progettato per integrare un livello di testo ai PDF che contengono solo immagini, avvalendosi della tecnologia OCR (riconoscimento ottico dei caratteri).
Tale strumento, potente e versatile, ha come funzione principale quella di convertire un PDF standard in un formato PDF/A nel quale si possono effettuare ricerche e, di conseguenza, di copiare e incollare il testo.
Come funziona il programma open source per copiare e incollare testo da PDF
OCRmyPDF posiziona con accuratezza il testo riconosciuto sotto l’immagine originale, facilitando le operazioni di copia-incolla. Mantiene – inoltre – la risoluzione originale delle immagini nel documento e, se necessario, può correggere l’orientamento delle immagini (deskewing) prima di procedere con l’OCR.
Inoltre, OCRmyPDF mette a disposizione la funzione per ottimizzare le immagini nei PDF, facendo ottenere, spesso, file di dimensioni inferiori rispetto a quelli originali.
Dal punto di vista delle prestazioni, l’applicazione distribuisce in modo efficiente il carico di elaborazione del PDF, dividendo i compiti tra tutti i core della CPU disponibili.
Ciò permette a OCRmyPDF di ridurre i tempi di elaborazione per documenti particolarmente voluminosi, composti da molte pagine (si è constatato che funziona egregiamente anche con documenti di migliaia di pagine).
Il software opera esclusivamente tramite linea di comando, ma nonostante ciò, è utilizzabile anche da utenti meno esperti.
Comandi per installare OCRmyPDF sui diversi sistemi operativi
Di di seguito, troverete un elenco di comandi per installare OCRmyPDF su diverse distribuzioni Linux tramite i rispettivi gestori di pacchetti:
Debian, Ubuntu: apt install ocrmypdf
Windows Subsystem for Linux: apt install ocrmypdf
Fedora: dnf install ocrmypdf
macOS (Homebrew): brew install ocrmypdf
macOS (nix): nix-env -i ocrmypdf
LinuxBrew: brew install ocrmypdf
FreeBSD: pkg install py-ocrmypdf
Conda: conda install ocrmypdf
Ubuntu Snap: snap install ocrmypdf.