Tutoriales paso a paso para ayudarlo a comenzar con el web scraping

Descargar Octoparse

¿Cómo excluir elementos de "Anuncios" al crear una lista?

Tuesday, March 03, 2020

Cuando crea una lista de elementos para scrape un sitio web, a veces la lista puede incluir varios elementos de "Anuncios" (Example URL).

 

 

 

¿Qué debe hacer si solo desea scrape los elementos que no son anuncios?

Solo necesita modify the XPath del "Elemento de bucle" para que solo ubique los elementos que no son anuncios.

Si verificamos el código fuente de los elementos en el ejemplo anterior con firebug (una extensión de FireFox), verá la diferencia entre los elementos publicitarios y los no publicitarios.

 

 

 

 

Aparentemente, el atributo de clase es diferente. Entonces podemos utilizar esta diferencia para escribir XPath: //li[@class='regular-search-result']

 

Ingrese el XPath en Octoparse, verá que se excluyen los anuncios.

 

 ¡Consejos!

Si eres nuevo en XPath, es posible que primero necesites aprender algunos conceptos básicos de HTML y XPath. Aquí hay algunos tutoriales para su referencia: HTML basic | XPath basic

¡Descargue Octoparse para iniciar el web scraping o contáctenos para cualquier
pregunta sobre el extracción de datos!

Contáctenos Descargarse
Utilizamos cookies con el fin de mejorar tu experiencia de navegación. Lee sobre cómo utilizamos cookies y cómo puedes administrarlas mediante hacer clic en configuración de cookies. Si continúas navegando en este sitio web, significa que aceptas nuestro uso de cookies.
Aceptar Rechazar