undefined

Step-by-step tutorials for you to get started with web scraping

Download Octoparse

¿Cómo excluir elementos de "Anuncios" al crear una lista?

Tuesday, March 03, 2020

Cuando crea una lista de elementos para scrape un sitio web, a veces la lista puede incluir varios elementos de "Anuncios" (Example URL).

 

 

 

¿Qué debe hacer si solo desea scrape los elementos que no son anuncios?

Solo necesita modify the XPath del "Elemento de bucle" para que solo ubique los elementos que no son anuncios.

Si verificamos el código fuente de los elementos en el ejemplo anterior con firebug (una extensión de FireFox), verá la diferencia entre los elementos publicitarios y los no publicitarios.

 

 

 

 

Aparentemente, el atributo de clase es diferente. Entonces podemos utilizar esta diferencia para escribir XPath: //li[@class='regular-search-result']

 

Ingrese el XPath en Octoparse, verá que se excluyen los anuncios.

 

 ¡Consejos!

Si eres nuevo en XPath, es posible que primero necesites aprender algunos conceptos básicos de HTML y XPath. Aquí hay algunos tutoriales para su referencia: HTML basic | XPath basic

Download Octoparse to start web scraping or contact us for any
question about web scraping!

Contact Us Download
Usamos cookies para mejorar tu experiencia de navegación. Lee sobre cómo usamos las cookies y cómo puedes controlarlas haciendo clic en la configuración de cookies. Si continúas utilizando este sitio, acepta nuestro uso de cookies.
Aceptar Rechazar