Pasa a Word el texto de una foto o PDF con estos programas OCR

David Onieva Actualizado el 31 de marzo, 2023 • 17:06

Seguro que en más de una ocasión os habéis encontrado ante el problema de necesitar digitalizar notas o textos escritos a mano para editarlos en el PC. Lo mismo sucede cuando nos encontramos con determinados textos que queremos editar, pero están en formato de imagen. En estos casos, lo que tendremos que hacer es echar mano de software de reconocimiento óptico de caracteres, también conocidos como programas OCR.

Estos son programas se encargan de analizar el texto que tenemos escrito a mano, en un documento escaneado o que se encuentra dentro de las imágenes o PDF, y lo convierten en texto editable.

Las hay más sencillas y complejas, todo dependerá de las funciones adicionales que integren. Hay que tener en cuenta que muchas veces no son 100% efectivas, por lo que comenten algunos errores de interpretación. Es por ello que podemos encontrar algunas de estas propuestas que incluso ponen a nuestra disposición un corrector ortográfico. Es por todo ello que a continuación os vamos a mostrar algunas de estas soluciones que seguro os serán de gran ayuda.

Qué son y cómo funcionan los programas OCR

Los programas OCR (Optical Character Recognition) son softwares de reconocimiento óptico de texto, los cuales se encargan de sacar texto contenido dentro de una imagen para transformarlos en una cadena de caracteres, de forma que puedan ser guardados en un formato legible por los programas de edición de texto.

Si disponemos de una imagen, ya se una fotografía o un documento escaneado, el texto que se incluye pasa a formar parte de esa imagen como cualquier otro elemento dentro de esta. En el caso de que necesitemos extraer ese texto para poder editarlo, será necesario echar mano de un programa OCR. Estos se encargarán de reconocer el texto y transformarlos en una cadena de caracteres, pudiendo se Unicode o ASCII. Posteriormente, deberán copiar esta cadena a un programa de edición que serán los encargados de poder trabajar con ella, con el consiguiente ahorro de tiempo al no tener que teclearlo.

Estos programas no solo son capaces de reconocer caracteres de manera individual, sino que también son capaces de reconocer el estilo y el formato en el que está escritor el texto. Por ello, es importante destacar que muchos de estos programas OCR, incluyen entre sus características la tecnología necesaria para leer y extraer información que viene incluida en los archivos de sonido. Por ejemplo, existen músicos que optan por usar OCR para poder leer los caracteres de una partitura, por lo que las posibilidades de estos programas son muy amplias.

Programas OCR gratis

Aunque en el pasado el reconocimiento óptico de caracteres era una tecnología avanzada, y bastante cara, hoy en día podemos hacer uso de ella de forma totalmente gratuita gracias a una gran cantidad de programas públicos como los que vamos a ver aquí.

SimpleOCR

Este es el caso de SimpleOCR, una propuesta de este tipo gratuita que podréis usar en vuestro equipo de sobremesa. Es una de las soluciones de este tipo más conocidas y que lleva una buena cantidad de años entre nosotros. El programa utiliza una función propia que intenta hacer el mejor reconocimiento de caracteres, incluso si la escritura es un tanto defectuosa.

SimpleOCR

Hay que decir que el programa reconoce unas 120.000 palabras, cifra que podremos ir aumentando nosotros mismos añadiendo otras nuevas. Además, se caracteriza por ser una herramienta rápida en el proceso y puede tratar incluso con documentos por lotes, lo que nos ahorrará tiempo.

SodaPDF

Siguiendo en la línea de las aplicaciones de este tipo, también nos encontramos con SodaPDF. Este es un software OCR que se encarga de extraer el texto de cualquier archivo en formato PDF y convertirlo en editable. Para ello, todo lo que debemos hacer es arrastrar el correspondiente fichero a la interfaz del programa para que comience el proceso de conversión, algo en lo que emplea solo unos segundos.

OCR aplicaciones

Si no queremos descargar software en nuestro PC, también podemos recurrir a la versión online, la cual podemos usar desde el navegador.

FreeOCR

Otra de las propuestas gratuitas de las que os vamos a hablar en estas líneas, es FreeOCR, un software para Windows que apenas consume recursos. Se ha diseñado para que podamos identificar los textos contenidos en imágenes y archivos en formato PDF, y se caracteriza por lo rápido que lleva a cabo el proceso.

FreeOCR

Eso sí, la tecnología interna que usa presenta muchos errores a la hora de reconocer la escritura a mano, por lo que reconoce mejor los caracteres de una máquina. Sin embargo, esta representa una buena propuesta si necesitamos un programa a coste cero para reconocer los textos de cualquier foto o PDF y convertirlo en editable.

Tesseract

Tesseract empezó a funcionar en 1995 como un proyecto libre. Sin embargo, desde entonces, conseguido crecer hasta convertirse en una de las mejores herramientas de reconocimiento óptico digital de caracteres. Este software es totalmente gratuito y de código abierto, por lo que es común verlo incluido dentro de muchos de los programas gratis, y de las webs OCR.

De normal, esta aplicación puede resultar un poco complicada de utilizar. Carece de interfaz, por lo que debemos usarla desde terminal, o desde una ventana de CMD. Sin embargo, sus resultados precisos hacen que merezca la pena invertir tiempo en familiarizarnos con esta interfaz.

tesseract

Podemos encontrar una guía de instalación y uso, así como su descarga, desde su página principal de GitHub. Esta aplicación está disponible para Windows, Linux y macOS.

GImageReader

Hemos dicho que el principal problema de Tesseract es que se debe utilizar desde un terminal. Aquí es donde entra en juego GImageReader. Este es un frontend, o interfaz, que utiliza esta librería y nos permite aprovecharnos de sus virtudes de forma mucho más sencilla e intuitiva, es decir, desde una ventana. Todas sus opciones de configuración y ajuste las vamos a tener al alcance de nuestro ratón.

OCR GImageReader

GImageReader está disponible para Windows y Linux, y podemos descargar el software desde el siguiente enlace.

Free OCR to Word

Aunque dejamos un poco de lado los programas de código abierto, otra opción que también debemos tener en cuenta es Free OCR to Word. Este software nos permite reconocer caracteres de distintos formatos de archivos, como JPG, JPEG, PSD, PNG, GIF, TIFF y BMP, entre otros. También nos permitirá importarlos a un documento Word de manera que, al hacerlo, podamos tenerlos ya totalmente editables y evitar la tarea de tener que reescribir los documentos.

Free OCR to Word

Podemos descargar esta aplicación gratuita desde su página web principal.

OnlineOCR

Vamos a continuar con esta selección de programas para obtener en texto de un PDF o imagen con esta otra interesante propuesta. Lo primero que debemos hacer para aprovechar los beneficios que la misma nos presenta, es acceder a su sitio web oficial, en concreto a este enlace. Una vez aquí, lo que hacemos es cargar el contenido con el que deseamos trabajar. Como podemos ver en la interfaz de usuario que nos encontramos, en esta propuesta tenemos la posibilidad de trabajar con archivos PDS, e imágenes de los formatos más habituales.

OnlineOCR

Esto lo logramos a través del botón Archivo, para después seleccionar el idioma en el que se encuentra el texto que deseamos extraer. Al mismo tiempo tenemos que indicar, en la siguiente lista desplegable, el documento de salida que necesitamos obtener en este caso. Puede ser un DOCX de Word, un XLSX de Excel, o sencillamente un texto plano en un archivo txt. Una vez definidos los parámetros que os hemos comentado, para finalizar basta con que pulsemos en el botón Convertir.

Boxoft Free OCR

Estamos ante un software completamente gratuito con el que podremos extraer texto de todo tipo de imágenes. El programa se va encargar de analizar textos de varias columnas y es capaz de admitir varios idiomas entre los que se encuentra el español, inglés, francés, alemán, etc. Con él podremos escanear nuestros documentos en papel y luego el contenido ORC de los archivos escaneados en texto editable de forma inmediata. Cuenta con dos ventanas, una al lado de la otra, para poder editar texto OCR de manera intuitiva dentro de la misma interfaz (cortar, copiar, pegar, seleccionar, etc). Una vez terminado el texto OCR se puede guardar como archivo TXT o ZIP.

Boxoft Free OCR

Podemos descargar Boxoft Free OCR gratis desde este enlace.

Free OCR Software (a9t9)

Una interesante opción de código abierto que funciona tanto vía web como a través de aplicación propia es Free OCR Software. El sistema de reconocimiento de caracteres que utiliza es bastante completo y permite reconocer un gran número de idiomas. Nos permite subir manualmente las imágenes o archivos PDF de los que queremos reconocer el texto o bien utilizar un enlace web donde se encuentre el archivo.

OCS space

A diferencia de otras webs, esta web nos permite descargar el archivo resultante en formato PDF. Pero, además, también nos permite copiar el texto plano desde el cuadro de texto donde se muestra tras analizar el archivo. Podemos utilizar esta plataforma para reconocer caracteres de forma totalmente gratuita a través del siguiente enlace.

Microsoft OneNote

En ocasiones no hace falta recurrir a aplicaciones de terceros para realizar determinadas funciones, funciones que están disponibles en Windows o que directamente nos las ofrece Microsoft de forma gratuita a través de alguna de sus aplicaciones. Un ejemplo de esto lo encontramos en la aplicación de notas OneNote de Microsoft. Esta aplicación, ideal para organizar el trabajo, estudios o quehaceres del hogar, también incluye una función que nos permite reconocer el texto de imágenes.

Para reconocer el texto de una imagen a través de OneNote, tan solo debemos añadir la imagen a la nota donde queramos y, posteriormente, pulsar sobre el botón derecho para seleccionar la opción Copiar texto de la imagen del menú contextual. En ese momento, el texto de la imagen estará disponible en el portapapeles y vamos a poder copiarlo en cualquier aplicación para editarlo o guardarlo como un documento editable.

Microsoft OneNote está disponible de forma gratuita para su descarga a través de la Microsoft Store si la hemos desinstalado de nuestro equipo ya que se incluye de forma nativa en todos los equipos con Windows 10 y Windows 11. Si la hemos borrado de nuestro equipo para liberar espacio, podemos volver a descargar a través del siguiente enlace. La aplicación no limita el acceso a funciones adicionales a través de la suscripción a Microsoft 365 que nos da acceso a todas las aplicaciones de Office.

Descargar QR-Code

OneNote

Developer: Microsoft Corporation

Programas profesionales de OCR

Si las opciones anteriores nos dan problemas y tienen muchos errores, entonces es mejor optar por alguna de estas alternativas profesionales, ya que son mucho más precisas a la hora de reconocer texto.

ABBYY FineReader

ABBYY FineReader es una aplicación OCR que nos va a permitir reconocer automáticamente todos los caracteres de una imagen o de un documento PDF. Al hacerlo, nos permitirá extraerlos y copiarlos para trabajar con ellos como si fueran texto plano. Esta es una de las herramientas más veteranas y efectivas dentro de este tipo de software, ofreciendo una tasa de acierto muy elevada y compatibilidad con más de 190 idiomas de texto.

FineReader

Además de tener su propia ventana, se integra con Microsoft Word de manera que, si escaneamos un documento, automáticamente podamos tenerlo en forma de texto en el procesador de textos de Microsoft.

Aunque es, probablemente, el mejor programa OCR que podemos encontrar, estamos ante un software de pago, y no precisamente barato, ya que su licencia más básica ronda los 200 euros. Por lo tanto, si estamos buscando un programa que nos permite convertir nuestros escaneos a texto, y podemos asumir cierto rango de errores, podemos probar cualquiera de las otras alternativas gratuitas.

Readiris 17

Readiris es más bien un software para editar y maquetar todo tipo de documentos, sobre todo en formato PDF. Sin embargo, este programa incluye, entre sus muchas funciones, una tecnología OCR que nos va a permitir reconocer múltiples caracteres y pasarlos a formato de texto editable. El motor de reconocimiento óptico de este programa es muy potente y cuenta con unos niveles de precisión muy elevados.

Readiris 17

Eso sí, debemos tener en cuenta que estamos ante un software de pago. Podemos descargar una versión de prueba de este software aquí.

Nanonets

La solución Nanonets pone a nuestra disposición para reconocer el texto de imágenes utiliza la inteligencia artificial para reconocer los caracteres de un documento en formato imagen de cualquier tipo de documento, ya sea un formulado, una tarjeta de identificación o visita, nóminas, factura o de cualquier otro tipo de documento.

La aplicación nos permite crear flujos de trabajo para extraer únicamente la determinada información dependiendo del tipo de documento con el que estemos tratando, información que, automáticamente se puede almacenar en bases de datos y servicios de almacenamiento en la nube.

Nanonets

Nanonets es ideal para empresas que habitualmente trabajan con una gran cantidad de documentos que buscan una aplicación para automatizar las tareas de gestión archivo. Podemos probar esta aplicación de forma gratuita durante 7 días desde su página web. Después, debemos pasar por caja y pagar los 499 euros que cuesta una licencia.

Adobe Acrobat Pro

Otra solución profesional para reconocer caracteres en imágenes y documentos se encuentra en la aplicación Acrobat Pro de Adobe. Además de ser una de las mejores aplicaciones para crear todo tipo de documentos en formato PDF, Acrobat incluye una función de reconocimiento de caracteres.

interfaz acrobat

Sin embargo, ya diferencia de Nanonets no nos permite automatizar la extracción y posterior gestión de los datos obtenidos. Al igual que todas las aplicaciones de Adobe, para poder utilizar Acrobat Pro es necesario pagar una suscripción a Adobe Creative Cloud, suscripción que tiene un precio de 18,14 euros para la versión Pro y de 15,72 euros para la versión Standard, que no incluye esta función. Podemos probar la aplicación de forma totalmente gratuita durante 14 días.

PDFelements

Otra interesante aplicación que tenemos a nuestra disposición para reconocer texto en documentos es la alternativa más completa de Adobe Acrobat, PDFelements. PDFelements pone a nuestra disposición un gran número de opciones para hacer prácticamente cualquier función que no se nos pase por la cabeza, incluyendo la posibilidad de reconocer caracteres tanto de imágenes como de archivos en formato PDF.

PDFelement editar PDF

A diferencia de Adobe Acrobat que requiere de una suscripción, PDFelement está disponible en tres planes: suscripción trimestral, suscripción anual o comprar una licencia perpetua de la aplicación, cuyo precio es de 119 euros. Este es prácticamente, el mismo precio que vamos a pagar por un año completo de Adobe Acrobat. Podemos descargar una versión gratuita de PDFelement desde su página web, aunque esta versión no incluye la opción OCR que si tenemos a nuestra disposición en la versión de pago.

Pasar de imagen a texto usando servicios web

Y si no queremos recurrir a los programas que hemos visto en el punto anterior, de esta forma vamos a poder hacer esto mismo, de forma gratuita, desde nuestro navegador web.

Google Drive

Hay algunas de las grandes firmas actuales dedicadas al software que también nos quieren ayudar en estos temas. Sirva como ejemplo de todo ello, Google, que dispone de algunas herramientas que pueden convertir la escritura a mano en texto. Para ello podemos echar mano de Google Drive usando un método muy sencillo a la vez que eficaz.

Para ello no tendremos más que subir a Google Drive el archivo que queremos convertir. Puede ser una imagen o un PDF. El único límite es que no ocupe más de 2 MB. Cuando ya tengamos el archivo en la nube, hacemos clic sobre él con el botón derecho y elegiremos la opción de Abrir con > Documentos de Google. Al momento se abrirá dicha imagen dentro de un nuevo documento. Y, además de la imagen, en la parte inferior podremos ver todo el texto que incluía dicha imagen, o dicho archivo PDF.

Documentos de Google - OCR

OneNote

Al igual que podemos hacer a través de la aplicación para escritorio, OneNote también nos permite extraer el texto de una imagen a través de la versión web. En concreto esto es algo que podremos llevar a cabo desde su plataforma para la toma de notas, OneNote. Esta es una herramienta de la firma que cuenta con su propia función OCR, además de uso muy sencillo, como vamos a comprobar ahora. Como sabréis, esta es una herramienta que se centra en la creación de notas personales en las que podemos integrar todo tipo elementos.

Pues bien, para hacer uso de la función de OCR, lo que tenemos que hacer en este caso es agregar la imagen con la que deseamos tratar a una de estas notas. Esto lo hacemos desde el menú “Insertar” del programa para añadir la fotografía en cuestión. Así, una vez ya la tengamos subida a la plataforma, no tenemos más que pinchar con el botón derecho del ratón sobre la misma y seleccionar la opción de “Copiar texto de la imagen”.

OCR aplicaciones

Entonces el propio programa ya se encargará de extraer ese texto de la imagen y dejarlo en el portapapeles para que lo podamos editar. Recordamos que OneNote forma parte de la suite de Office, por lo que vendrá instalada junto con el resto de los programas de la suite ofimática.

Online OCR

Algo similar encontramos con Online OCR, aunque en este caso se trata de una aplicación web que usamos desde el navegador. Aquí, lo primero que hacemos tras subir el PDF o la imagen con el texto, es elegir el idioma con el que vamos a trabajar. Son muchos los soportados por este programa, por lo que ahí no habrá problema. Además, el proceso se lleva a cabo en pocos segundos con un índice de acierto en los caracteres muy bueno. También debemos saber que esta aplicación web la podremos usar sin registrarnos y sin pagar nada, aunque también es verdad que tenemos a nuestra disposición otras soluciones más eficaces en este sentido.

Online OCR

Convertio

También nos podemos decantar por la opción que nos propone Convertio, otra plataforma OCR para el reconocimiento óptico de caracteres. Aquí no tendremos más que seleccionar los ficheros a tratar desde el disco duro o algún servicio de almacenamiento en la nube. Una vez lo hayamos añadido, ya podremos seleccionar el idioma del texto, por defecto ya viene en español, o las páginas a tratar.

Convertio

De igual modo podremos seleccionar el formato de salida de entre los muchos que soporta esta aplicación en concreto. Además, cuenta con una extensión para Chrome para poder tener esta función siempre a mano.

Free OCR API

Este es otro de los programas web gratis que nos van a permitir pasar de foto a Word. Una alternativa más, que además también es de código abierto. Esta opción cuenta también con una precisión muy alta y, además, puede ejecutarse directamente desde el navegador sin necesidad de instalar ningún software adicional.

Free OCR API

Podemos utilizar esta herramienta desde nuestro navegador en la siguiente página web. Y, si lo preferimos, podemos descargar un cliente gratuito desde la Microsoft Store (para Windows 10) y una extensión para Google Chrome.

i2OCR

Se trata de una aplicación online de reconocimiento óptico de caracteres (OCR) gratuito mediante el cual podemos extraer texto de imágenes y documentos escaneados para que puedan ser editados, formateado, indexado, buscado o traducido. Es compatible con más de 100 idiomas y realiza los análisis de los documentos en varias columnas. La aplicación admite los principales formatos de imagen de entrada como JPG, PNG, BMP, TIF, PBM, PGM y PPM, mientras que el texto extraído se puede descargar en formato Word, PDF, PDF/A y HMTL. Nos permite cargar las imágenes de entrada desde una URL o directamente desde nuestro disco duro, encargándose de analizar el diseño del documento para extraer texto en varias columnas.

i2OCR

Podemos usar i2OCR gratis y sin registro accediendo a su página web.

ocr2edit.com

Esta aplicación web es otra interesante opción que nos permite extraer texto de un archivo de imagen, siendo compatible con formatos como JPG, PNG, TIF o WEBP, entre otros. La aplicación es compatible con documentos escaneados, capturas de pantalla o fotos desde donde poder extraer el texto que contiene. Podemos usar el software para trabajar con texto, buscar palabras claves, copiar y pegar citas y almacenar documentos de forma digital.

OCR2EDIT

Para usarlo tanto sólo será necesario carga la imagen en la página, pudiendo añadirla desde nuestro ordenador, nuestra cuenta de Dropbox o Google Drive, así como mediante enlace URL. El resultado obtenido lo podremos descargar como archivo con formato TXT. Podemos usar ocr2edit gratis accediendo a su página web.

¿Cuál es la mejor opción?

Si hablamos de aplicaciones gratuitas una de las mejores opciones la encontramos en SimpleOCR, una aplicación que, además, nos permite pasar el contenido extraído de una imagen directamente a Word haciendo que el proceso sea muy rápido y sencillo. La solución de Microsoft OneNote tampoco podemos dejarla de lado, aunque la curva de aprendizaje para sacar el máximo partido es algo compleja.

Respecto a las aplicaciones de pago, tanto Adobe Acrobat Pro como PDFelements son las mejores opciones de pago, aplicaciones cuya función principal es la de crear y editar archivos en formato PDF, por lo que ambas soluciones incluyen completas soluciones para extraer el texto de cualquier imagen rápidamente y sin apenas errores.

Si hablamos de webs para realizar esta función, la solución de Google a través de Drive y OneNote, una vez más, siguen siendo las opciones más recomendadas, principalmente porque detrás se encuentran empresas como Google y Microsoft lo que no se aseguran de que nuestros datos siempre estarán a buen recaudo.