undefined

Step-by-step tutorials for you to get started with web scraping

Download Octoparse

Bloqueo de anuncios/Borrar caché

Thursday, February 27, 2020

En general, una tarea creada en Octoparse comienza con la apertura de la página web de destino. Para facilitar este paso, proporcionamos dos funciones para ayudar: bloqueo de anuncios y borrar caché. Utilizar estas funciones correctamente puede acelerar enormemente su proceso de raspado web.

Las características cubiertas en este tutorial son:

 

 

Bloqueo de anuncios

La velocidad de extracción de un rastreador se ve afectada por la velocidad de carga de la página. Si aparecen muchos anuncios inesperados en la página web, como pancartas y ventanas emergentes, la página se cargará lentamente y perderá su tiempo. El bloqueo de anuncios puede reducir sus solicitudes de página y, por lo tanto, optimizar el tiempo de carga.

 

Cómo bloquear anuncios

Hay dos formas en Octoparse para configurar el "Bloqueo de anuncios".

1. Seleccione el paso de "Ir a la página web", puede localizar fácilmente "Bloqueo de anuncios" en "Opciones avanzadas".

 

 

2. O haga clic en "Configuración", luego puede ver la opción "Bloquear anuncios".

  

¡Consejos!

El uso de la técnica de bloqueo de anuncios puede cambiar la estructura de algunas páginas web. Si es así, ajuste el XPath para reubicar los elementos.
Obtenga más información sobre cómo ubicar elementos con XPath 

Ahora Octoparse ha "recordado" la nueva cookie.

 

 

Limpiar cache

En algunos casos, por ejemplo, si necesita borrar las cookies recordadas por extraer datos detrás de un inicio de sesión, Octoparse también ofrece la opción de borrar la memoria caché para que pueda volver a cargar la página.

 

 

Cómo borrar el caché

1. Seleccione el paso "Ir a la página web", "Borrar caché" se puede encontrar fácilmente en "Configuración de caché".

 

2. Una vez abierta la página, si desea que Octoparse recuerde la nueva cookie, también es fácil.

  • Haga clic en "Usar cookie especificada"
  • Haga clic en "Cargar cookie desde la página web actual"

 

 

 

 ¡Consejos!

1. Como las cookies vienen en diferentes formas, su período de validez también es diferente. Algunos permanecen más tiempo, mientras que otros caducan tan pronto como se cierra el navegador. En Octoparse, las cookies guardadas ya no funcionarán si caducan. Luego debe "Borrar caché" y volver a cargar la cookie.

2. La configuración de caché es bastante importante, especialmente para los sitios web que requieren el inicio de sesión, obtenga más información sobre cómo extraer datos detrás de un inicio de sesión 

 

 

Artículos relacionados:

Localizar elementos con XPath  

Extraer datos detrás de un inicio de sesión 

Tutorial de caso | precios de scraping de eBay 

Download Octoparse to start web scraping or contact us for any
question about web scraping!

Contact Us Download
Usamos cookies para mejorar tu experiencia de navegación. Lee sobre cómo usamos las cookies y cómo puedes controlarlas haciendo clic en la configuración de cookies. Si continúas utilizando este sitio, acepta nuestro uso de cookies.
Aceptar Rechazar