Tutoriales paso a paso para ayudarlo a comenzar con el web scraping

Descargar Octoparse

Herramienta Octoparse XPath

Thursday, April 16, 2020

Modificar XPath en Octoparse es una habilidad esencial para adquirir un raspado de datos flexible y preciso. Octoparse XPath Tool puede ayudarlo a escribir la expresión XPath correcta y examinar el resultado. Con solo un poco de esfuerzo, puede mejorar enormemente su productividad.

En este tutorial, presentaré cómo utilizar la herramienta Octoparse XPath. Antes de leer este artículo, primero deberá obtener algunos conceptos básicos de HTML y XPath.

(Más tutoriales sobre HTML  y XPath  )

 

 

Hay dos formas de acceder a la herramienta Octoparse XPath. 

Opción 1:

  • Seleccione el campo de datos que desea personalizar
  • Haga clic en "Personalizar campo de datos"
  • Haga clic en "Personalizar XPath"
  • Haga clic en "Probar la herramienta XPath"

XPath_Tool_gif_1.gif

 

Opcion 2:

  • Seleccione "Herramientas" en la barra de navegación lateral
  • Haga clic en "Herramienta XPath"

XPath_Tool_gif_2.gif

 

La herramienta Octoparse XPath consta de 4 partes principales:

 

XPath_Tool_png_1.png

     

       1.El navegador

(Opción 1) Cuando inicie la herramienta XPath directamente desde la interfaz de configuración de tareas, la página actual se cargará automáticamente en el navegador incorporado de la herramienta XPath.
(Opción 2) Al abrir la herramienta XPath desde la barra lateral, la herramienta XPath cargará la página de inicio de Octoparse (www. Octoparse.com). Luego puede ingresar la URL de destino en el navegador y hacer clic en "Abrir"; El contenido de la página web se cargará en el navegador incorporado.

 

      2.El HTML/Coincidencias

El código fuente correspondiente se proporciona en la pestaña "HTML", pero siempre puede utilizar navegadores como Chrome o Firefox para ver el código fuente estructurado de manera legible.
Una vez que haya generado una XPath, puede encontrar cualquier contenido que coincida haciendo clic en la pestaña "Coincidencias".

 

 

      3.La configuración XPath/Referencia/Demo

En la pestaña "Generar automáticamente", hay casillas de verificación para varias opciones. Puede marcar estas casillas y completar algunos parámetros para generar la expresión XPath haciendo clic en el botón "Generar". También puede hacer clic en botones como "Subelemento", "Principal" y similares para generar la expresión XPath. También puede hacer clic en la pestaña "Referencia" y leer nuestros tutoriales en XPath, o hacer clic en la pestaña "Demo" para ver ejemplos de XPath en W3Schools.

 

      4. El resultado XPath

La expresión XPath se generará automáticamente en el resultado XPath después de que marque las casillas de opción y complete algunos parámetros en la pestaña "Generar automáticamente". Puede hacer clic en el botón "Hacer coincidir" para ver si el XPath actual encuentra los elementos que desea en la página web.

 

 

Una breve introducción a cada opción en la pestaña "Generar automáticamente".

  • Item Tag Name:
    "Item Tag Name" significa el texto azul cielo como SPAN, A, DIV en el código fuente que describe los nombres de etiqueta en el navegador Firefox (texto morado en Chrome).

          Marque la casilla "Item Tag Name" cuando desee incluir un nombre de etiqueta específico en su expresión XPath. Octoparse generará XPath que encuentra que todos los elementos comienzan con el nombre de la etiqueta que completó.

 

Firefox:

XPath_Tool_png_2.png

Chrome:

XPath_Tool_png_3.png

 

Por ejemplo, haga clic en "Item Tag Name " y seleccione "Item Position" como "1", escriba "span" para el nombre de etiqueta y haga clic en el botón "Generate", obtendrá la expresión XPath "// SPAN [1] ", con el que se pueden ubicar los elementos con el nombre de etiqueta" span ".

  • Item Position:
    "Posición del elemento" se refiere a la posición del elemento entre todos los hermanos. El valor predeterminado es 1, es decir, el primer elemento entre los hermanos. Si desea seleccionar el tercer elemento, configure el parámetro como "3" y, por supuesto, puede seleccionar cualquier elemento que desee.
  • Item ID, Item Name, Item Style Class:

    En algunos casos, un elemento de etiqueta incluye los atributos, como un atributo "id", un atributo "name" o un atributo "class".

En Octoparse XPath Tool, "Item ID" se refiere al atributo "id", "Item Name" al atributo"name" y "Item Style Class" al atributo "class".

Para ubicar los elementos con cualquiera de los tres atributos, simplemente marque la casilla y complete el valor correcto.

Por ejemplo, seleccione "Item Style Class", escriba "section-result-opening-hours" y haga clic en "Generar", la herramienta generará la expresión XPath "//*[@class='section-result-opening-hours']", con el que se pueden ubicar todos los elementos que tienen el atributo" class "section-result-opening-hours", como la información" Abrir hasta la 1:00 a.m. "en la captura de pantalla a continuación. 

.

 

 

XPath_Tool_png_4.png

  • Item Text:
    "Item Text" se refiere al contenido de un elemento de etiqueta. Puede usarlo si desea ubicar los elementos cuyo contenido es exactamente el mismo texto que completa.
    Por ejemplo, seleccione "Item Text" y escriba "Mariscos" y haga clic en "Generate", generará la expresión XPath "//*[text(), 'Seafood']", con el que solo los elementos cuyo contenido es el texto " Mariscos "podrían ubicarse.
    Cuando use la opción, debe asegurarse de que todo el texto que ingrese sea exactamente el mismo que el del código fuente, incluidos los espacios en blanco, la puntuación, el ángulo completo y el medio ángulo. Por lo tanto, para asegurarse de ingresar el texto correcto, puede ver el código fuente en el navegador como Chrome y copiar el texto dentro de los corchetes angulares haciendo doble clic en el código fuente original.

  • Item Text Contains:
    "Item Text Contains" se utiliza para encontrar el elemento de etiqueta que contiene el texto que desea.
    Por ejemplo, seleccione "Item Text Contains", escriba "hamburguesa" y haga clic en "Generate", obtendrá la expresión XPath "//*[contains(text(), 'burger')]", con la que cualquier elemento que contiene el texto "hamburguesa" podría ubicarse.

  • Item Text Start With:
    "Item Text Start With" se utiliza para ubicar los elementos cuyo contenido comienza con el texto que completa.
    Por ejemplo, seleccione "Item Text Start With", escriba "hamburguesa" y haga clic en "Generate", obtendrá la expresión XPath "//*[starts-with(text(), 'burger')]", con la cual cualquier elemento cuyo contenido comience con "hamburguesa" podría ubicarse.

  • Botón "Sub-elemento": se utiliza para seleccionar el nodo secundario de la expresión XPath actual generando "/" en el resultado XPath.
  • Botón "Parent": Se utiliza para seleccionar el nodo principal de la expresión XPath actual generando "/parent ::" en el Resultado XPath.
  • Botón "Previous": se utiliza para seleccionar el nodo anterior de la expresión XPath actual generando “/precedente-hermano ::” en el resultado XPath.
  • Botón "Next": se utiliza para seleccionar el siguiente nodo de la expresión XPath actual generando “/following-sibling ::” en el resultado XPath.

¡Descargue Octoparse para iniciar el web scraping o contáctenos para cualquier
pregunta sobre el extracción de datos!

Contáctenos Descargarse