
Habitualmente el hecho de tener que extraer datos de una web implica acceder al código fuente de la página, tratar con su codificación, o usar APIs concretas, aunque esto no siempre resulta todo lo efectivo que nos gustaría, ya que normalmente así logramos hacernos con toda la página web, lo que no siempre es interesante.
Y es que al final terminamos perdiendo una buena cantidad de tiempo localizando los datos que realmente necesitamos para eliminar el resto. Es por ello que en estas líneas os vamos a mostrar una manera más cómoda y sencilla de llevar todo esto a cabo y así lograr extraer esos datos de un modo más estructurado de los sitios web.
Para todo ello lo que vamos a hacer es usar una potente extensión para el navegador Google Chrome llamada Scraper Parsers que se centra en estas tareas a las que hacemos mención. Así, esta extensión en concreto nos permite seleccionar los elementos de datos que se deseamos extraer de una web, y además nos proporciona un texto estructurado, ya que visualiza los datos en un gráfico interactivo y nos permite descargarlo en formatos XLSX, XLS, XML o CSV.
De este modo con esta aplicación tenemos la posibilidad de definir los elementos de datos que deseamos extraer simplemente seleccionando un segmento pasando el puntero del ratón y etiquetándolo a continuación. Tras ello la herramienta recopila esos datos de las múltiples páginas similares del sitio web, por lo que la versión gratuita nos permite extraer hasta 1000 páginas por web, más que suficiente para la mayoría de los usuarios domésticos.
Extrae datos de páginas web de manera más efectiva con esta extensión de Chrome
Por tanto, para extraer los datos estructurados que os mencionamos, tenemos que visitar la página web desde donde desea extraerlos, esperamos un minuto en la misma, y luego hacemos clic en el nuevo icono que se ha creado de Scraper Parsers de la barra de menú. Esto abre la ventana para definir los segmentos que deseamos extraer, por lo que todo lo que tenemos que hacer es pasar el cursor por encima del segmento que nos interese, y automáticamente lo recuperaremos y lo añadiremos a la etiqueta seleccionada.
A continuación ya podemos introducir un nombre para esa etiqueta, todo con el fin de facilitar la clasificación de los datos que vamos a recuperar del sitio web. Del mismo modo podemos añadir varias etiquetas para diferentes secciones y, tras seleccionar las partes deseadas de la página web, hacer clic en el botón “Start” para que dé comienzo la extracción como tal.
Una vez haya finalizado este proceso, la propia extensión nos muestra un botón para poder ver los resultados obtenidos y nos lleva a una nueva pestaña en la que se muestran estos con opciones para visualizar cada etiqueta. Desde aquí ya podremos descargar los datos estructurados como archivos XLSX, XLS, XML y CSV y usarlos, por ejemplo, en una Hoja de Excel.