undefined

Step-by-step tutorials for you to get started with web scraping

Download Octoparse

Octoparse Configuración de Anti-Bloqueo

Thursday, April 16, 2020

Algunos sitios web son muy sensibles al web scraping y toman medidas contra el scraping como el bloqueo de IP para evitar posibles actividades de scraping.

En este tutorial, le mostraré cómo configurar Octoparse Anti-Blocking en "Configuración" sobre el flujo de trabajo en una tarea antes de ejecutar esta tarea para reducir la posibilidad de ser bloqueado.

 

Utilice proxies IP (solo para extracción local)


Puede configurar proxies manualmente en Octoparse si desea acceder al sitio web con proxies externos (por ejemplo, de un país específico) o si prefiere usar sus propios proxies en lugar de usar nuestras funciones de rotación automática de IP de Cloud Extraction. Para obtener más información sobre cómo configurar proxies, consulte Configurar proxies.

  • Marque la casilla "Usar proxies IP" y haga clic en "Configuración".
  • Ingrese los proxies y la cantidad de segundos para cambiar los proxies.
  • Haga clic en "Aceptar" para guardar el cambio.

ip.gif

 

Octoparse cambiará automáticamente los proxies según lo establezca cuando la tarea se ejecute localmente.

Cambio automático de navegador (agente de usuario)


Su navegador envía lo que se conoce como agente de usuario para cualquier página web que visite. Esta es una cadena para decirle al sitio web de destino con qué tipo de dispositivo está accediendo a la página. Al scrape un sitio web de manera muy consistente con el mismo agente de usuario, es fácil ser detectado como una actividad de bot de scraping. Por lo tanto, con esta característica, se puede reducir la posibilidad de ser bloqueado.

Para configurar el navegador de cambio automático:

  • Marque la casilla "Cambio de navegador automático (agente de usuario)".
  • Haga clic en "Configuración" para configurar el tipo de agente de usuario.


No todas las UA funcionan para todos los sitios web, por lo que es posible que necesite algunas pruebas. Si desea que Octoparse visite el sitio web "a través de una PC" cuando raspe el sitio web, debe marcar la casilla "Seleccionar todo" y desmarcar la casilla "Firefox para dispositivos móviles 29.0"; si desea que Octoparse visite el sitio web "a través de dispositivos móviles", solo debe marcar la casilla "Firefox para dispositivos móviles 29.0".

  • Haga clic en Aceptar para guardar el cambio.
  • Marque la casilla "Intervalo personalizado" y seleccione el número de minutos para cambiar el agente de usuario o marque la casilla "Cambiar IP simultáneamente".

ua.gif

 

Octoparse cambiará automáticamente el agente de usuario según lo establezca cuando la tarea se ejecute localmente o en la nube.

Cookies de borrado automático


Al raspar un sitio web de manera muy consistente con la misma cookie, es fácil ser detectado como una actividad de scraping de bot. Por lo tanto, con esta característica, se puede reducir la posibilidad de ser bloqueado.

  • Marque la casilla "Borrar cookies automáticamente"
  • Marque la casilla "Intervalo personalizado" y seleccione el número de minutos para cambiar el agente de usuario o marque la casilla "Borrar cookies cuando las IP cambien".

cookie.gif

 

Octoparse borrará automáticamente las cookies a medida que las configure cuando la tarea se ejecute localmente o en la nube.

 

Después de configurar Octoparse Anti-Blocking, puede hacer clic en "Guardar" para guardar la configuración.

 mceclip1.png

 Autor: Melisa

Download Octoparse to start web scraping or contact us for any
question about web scraping!

Contact Us Download
Usamos cookies para mejorar tu experiencia de navegación. Lee sobre cómo usamos las cookies y cómo puedes controlarlas haciendo clic en la configuración de cookies. Si continúas utilizando este sitio, acepta nuestro uso de cookies.
Aceptar Rechazar