Post Destacado

¿Buscas trabajo y no has certificado en Excel? 🤔

Hoy quiero hablarte sobre un tema que puede cambiar tu vida profesional: la certificación oficial de Excel MO-200. Puede que te estés preguntando, ¿por qué debería importarme obtener esta certificación? Pues, sigue leyendo y descubrirás las ventajas que puede ofrecerte. ¿Qué es la Certificación MO-200? La certificación MO-200, también conocida como "Microsoft Office Specialist: Excel Associate (Excel and Excel 2019)", es una credencial oficial otorgada por Microsoft . Este examen valida tus habilidades en Excel, asegurando que eres capaz de manejar eficientemente una amplia gama de tareas dentro de esta poderosa herramienta. Básicamente, todo el mundo agrega en sus CV la frase " Dominio de Excel ", pero casi nadie se preocupa por demostrarlo oficialmente. Esta es tu oportunidad para ser el candidato preferido en tu próxima búsqueda. ¿Por Qué Deberías Considerarla? 1. Mejora tu Currículum:    Tener una certificación oficial en tu currículum te diferencia de otros can

Obtén datos de tus PDF con PowerQuery

 

Los archivos en formato PDF son fantásticos. Su principal ventaja es la de mantener su formato y estructura en cualquier dispositivo, incluyendo ordenadores de cualquier sistema operativo, navegadores web y smartphones. De esa manera, podemos compartir contenido sin mayores recaudos acerca de cómo lo verá nuestro destinatario, y despreocupándonos de cualquier cambio (no intencionado) que pueda ocurrir. También, nos dan la certeza que lo que vemos en pantalla, será lo que tendremos en el papel al enviarlo a la impresora.

Sin embargo, esta fortaleza puede ser también un gran problema, si necesitamos acceder a datos desde Excel, que se encuentran contenidos en un archivo PDF. Hoy te presentaré la primera de tres alternativas que puedes considerar para acceder a esta información de manera rápida.

Alternativa 1: PowerQuery (Excel)

PowerQuery es una potente herramienta incluida en Excel, a la que podemos acceder a través de la pestaña Datos. También se conoce como Obtener y transformar, porque es precisamente esto lo que nos permite hacer: obtener datos de las más diversas fuentes, y transformarlos en información útil para procesarla en Excel.

Entre los muchos archivos y fuentes de datos admitidas, podremos encontrar la capacidad de importar PDF dirigiéndonos a Datos > Obtener y Transformar > Obtener datos > Desde un archivo > De PDF

Una vez seleccionado, se abrirá una típica ventana del explorador de archivos (Importar datos), donde podremos seleccionar el archivo PDF que necesitemos procesar en Excel. Tras seleccionar el archivo, y un breve momento de reconocimiento y exploración, PowerQuery te dirigirá a una ventana como la siguiente:

El panel de la izquierda contiene el listado de distintas hojas del archivo PDF (que, en este caso, ha llamado Page001, pero podríamos tener más), y datos estructurados en tablas (Table001). Estos son los datos que Excel de algún modo ha detectado a través fundamentalmente de herramientas de reconocimiento de texto. Al hacer clic en cada una de las páginas y tablas listadas, obtendrás una vista previa de la misma en el panel de la derecha.

En mi caso, he ocultado algunos datos que no son relevantes al ejemplo. Las celdas que contienen null en su interior, implica que se encuentran vacías por dentro (null significa vacío). Si, por el contrario, vemos una celda en blanco, esto significa que hay un carácter no visible (como un espacio), pero que en sí misma no se considera del todo vacía. Esto puede ocurrir porque estemos intentando importar verdaderamente una tabla con campos vacíos, o porque Excel, al intentar trasladar un formato de PDF (que puede estructurarse de cualquier modo) a un formato de celdas (filas y columnas), deba dejar algunas celdas en blanco en el proceso.

No quiero que te decepciones en este proceso, y que podamos visualizar claramente la ganancia: lo que ha hecho Excel es interpretar la información del PDF, y cargarla como un texto plano para que podamos utilizarla. Todo dependerá de cómo se estructuraba originalmente el PDF (si era más o menos parecido a una tabla), y en función de ello tendremos menor o mayor pérdida de información. Y como mencionamos, la ganancia: en tan solo unos pocos segundos, podemos capturar cualquier cantidad de información desde un archivo, cuyo copiado manual nos hubiera demorado cantidades inmensamente superiores de tiempo. Todo esto teniendo en cuenta que este procedimiento es mucho menos propenso a errores, de modo que también existirá una ganancia en este sentido.

Puedes elegir importar únicamente una página o tabla, o hacerlo con varias a la vez, seleccionando la casilla “Seleccionar varios elementos”:

Para finalizar y finalmente cargar estos datos a Excel, tendremos que (lo has adivinado), presionar en Cargar. Verás un desplegable sobre el que encontrarás algunas opciones, pero en este caso, tanto el Cargar (predeterminado), como cargar en una tabla, son las opciones más apropiadas.

Lo que podrás personalizar al elegir del desplegable, es fundamentalmente la ubicación en la que se incorporará la tabla importada.

Tanto si has escogido su ubicación, como si deseas agregarlo directamente en una nueva hoja, el proceso de importación habrá terminado ahí: se creará una tabla de Excel tradicional, en cuyo interior (y en texto plano), tendrás la información deseada, lista para continuar su pre-procesamiento (ordenar, limpiar, reestructurar, entre otros), y luego utilizarla para tus proyectos.

En el próximo artículo, exploraremos otras alternativas que pueden funcionar mejor para archivos PDF menos estructurados, o versiones anteriores de Excel.