undefined

Step-by-step tutorials for you to get started with web scraping

Download Octoparse

Localizar elementos con XPath

Wednesday, September 08, 2021

¿Qué es XPath? 
XPath es un lenguaje que te permite localizar elementos específicos de una página, se puede utilizar para navegar a través de elementos y atributos en un documento XML. Para XPath, un documento XML es como un árbol, que está compuesto por dos conceptos. Por un lado, la representación de distintos tipos de nodos; por el otro, las posibles relaciones que existen entre estos nodos.

Existen varios tipos de nodos, los más básicos se denominan:

  • Nodo Elemento.
  • Nodo Atributo.
  • Nodo Texto.
  • Nodo raíz.
  • Elemento raíz.
  • Valores atómicos.

El nodo raíz del árbol contiene al elemento raíz del documento. Todos los documentos XML tienen un nodo raíz que indica el inicio del documento, de donde dependen todos los demás nodos del documento.

 

¿Cómo escribir XPath?

Si eres nuevo en XPath, es posible que primero necesites aprender algunos conceptos básicos de HTML. XPath localiza elementos basados en las etiquetas y atributos. Entonces, antes de comenzar a escribir su propio XPath, primero deberá inspeccionar la estructura HTML de la página.

Ejemplo:

HTML

Más tutoriales sobre HTML  )

 

Te sugerimos que uses el complemento firebug (un complemento de Firefox). Firebug es muy útil para buscar el elemento de un documento HTML.

(Firebug ahora solo está disponible para versiones antiguas de Firebox. ( Obtén las versiones anteriores de Firebox aquí html ).
Abre una página web en Firefox, haz clic en el botón Firebug y haz clic en un elemento de la página para inspeccionar. Sacarás todo el XPath.

sacar xpath

Otro ejemplo, el valor "publish-time" en esta página se vería así: “//div[@class = “publish-time”]”

Este XPath básicamente dice, vaya al elemento (s) “<div>” cuyo atributo de class es “publish-time” . El símbolo @ se utiliza en XPath para apuntar a un atributo. Más tutoriales sobre cómo escribir XPath  )

 

¿Cuándo debo usar XPath?

En la mayoría de los casos, no necesitas escribir XPath por tu cuenta. Pero hay algunas situaciones en las que es posible que debas realizar alguna modificación para ubicar mejor los datos en la página web.

(Estos son nuestros tutoriales avanzados. Antes de usar XPath, te sugerimos que aprenda un poco y se familiarice más con Octoparse).

  • Extraer datos en una ubicación irregular
  • Datos adicionales o datos faltantes
  • Paginación sin botón "Siguiente" 
  • El botón "Siguiente" no se puede ubicar con precisión
  • Menú desplegable sin bucle de conmutación

 

¿Cómo funciona en Octoparse?

Expresiones XPath comunes utilizadas en Octoparse

En este tutorial, veremos algunos conceptos básicos y XPath comunes utilizados en Octoparse.

Expresión

El significado

.

Selecciona el nodo actual

//*

Seleccionar todos los elementos

.//

Selecciona elementos a partir del nodo actual

@

Selecciona atributos

.//div

elecciona todos los elementos <div> uno o más niveles en el contexto actual

//li[a]

Selecciona los elementos <li> que encierran un elemento <a>

//li[a or h2]

Selecciona los elementos li que encierran un elemento <a> o <h2>

.//div[@class='publish-time']

Selecciona solo los elementos <div> que tienen un atributo de clase que es "publish-time"

.//*[text()='Next']

Selecciona todo el texto que es "Next"

//a[contains(text(), ‘Next’)]

Selecciona los elementos <a> que contienen el texto "Next"

.//*[contains(@class, 'name')]

Selecciona todos los atributos de <class> que contienen la cadena "name"

following-sibling

Selecciona todos los hermanos después del nodo actual

//h1/following-sibling::p[1]

Seleccione el primer elemento <p> después de <h1>

La modificación de XPath en Octoparse funciona muy bien con más flexibilidad y precisión que la XPath generada automáticamente al hacer clic en los elementos durante la configuración de la tarea.

Octoparse te permite modificar XPath para que podamos localizar con precisión los datos que vamos a extraer. Si deseas obtener más información sobre XPath, aquí está el tutorial para su referencia: https://www.w3schools.com/xml/xpath_intro.asp

 

¿Dónde puedo modificar XPath en Octoparse?

Para modificar XPath en Octoparse:

Selecciona el campo de datos que necesitas ser modificado, selecciona personalizar el campo de datos

modificar xpath

Elige "Customize XPath:

personalizar xpath

 

Ingresa el nuevo XPath en el cuadro de texto XPath correspondiente

ingresar xpath

 

Para pasos como "Elemento de bucle" para la paginación o el menú desplegable de cambio, puedes encontrar fácilmente el cuadro de texto XPath en "Opciones avanzadas". Ingresa el nuevo XPath y haz clic en "Aceptar" para guardar tus cambios.

guardar cambios

 

Octoparse también proporciona ayuda adicional con la generación XPath tool : la herramienta XPath. Utiliza la herramienta XPath de Octoparse para generar fácilmente una sintaxis XPath funcional configurando los criterios adecuados. Puedes encontrar fácilmente la herramienta XPath en el cuadro "Herramientas".

xpath tool

 

XPath es muy poderoso y este tutorial es solo una introducción a los conceptos básicos.

Si deseas obtener más información al respecto, consulta estos recursos:

 

Download Octoparse to start web scraping or contact us for any
question about web scraping!

Contact Us Download
Usamos cookies para mejorar tu experiencia de navegación. Lee sobre cómo usamos las cookies y cómo puedes controlarlas haciendo clic en la configuración de cookies. Si continúas utilizando este sitio, acepta nuestro uso de cookies.
Aceptar Rechazar