Aquí tienes una noticia emocionante: Octoparse 8.5 ahora se lanza con nuevas funciones que cambian el juego y mejoras importantes. Anteriormente, todos sabíamos que podemos contar con la ejecución en la nube cuando se trata de raspado rápido a escala, pero esta vez, queremos que la ejecución local sea igual de competitivo.
¿Qué hay de nuevo en Octoparse 8.5?
La velocidad de raspado, la facilidad de uso y el almacenamiento seguro de datos son elementos esenciales para una herramienta de raspado web y sus usuarios. Esto es en lo que Octoparse 8.5 está diseñado para enfocarse.
Para esta actualización, la mayor parte del trabajo se destina a la Ejecución Local/Raspado Local (en comparación con el Raspado en la Nube), la administración de tareas del tablero y algunas optimizaciones más pequeñas, como cambiar la IP de la nube para una tarea y la conversión de zona horaria.
Tips:
- Aunque se mencionan las actualizaciones principales en este artículo, hay más por explorar. Aquí hay una versión completa de las actualizaciones de Octoparse 8.5 más guías técnicas
- ¿Por qué nos centramos en el raspado local? El raspado de nubes es poderoso pero no siempre omnipotente. Hacer que el raspado local sea igual de flexible y potente puede complementar en gran medida el raspado en la nube y, en conjunto, harán de Octoparse una herramienta de raspado web mucho más poderosa y crearán una experiencia de raspado perfecta para los usuarios de Octoparse como tú.
¿Cómo puedo benecifiarme de este nuevo lanzamiento?
Si alguna de las siguientes voces resuena contigo, encontrarás que las actualizaciones de Octoparse 8.5 son extremadamente útiles.
- El raspado en la nube es genial y confío más en las ejecuciones locales para obtener los datos.
- ¡Necesito que el raspado local sea más rápido!
- Quiero que los datos de la ejecución local se envíen a mi base de datos automáticamente al igual que los datos de la ejecución en la nube.
- Necesito lotes individuales de datos para todas mis ejecuciones.
>> Revisa estas actualizaciones
- Me pierdo cuando no sé por qué mi tarea no funciona y no tengo idea de cómo solucionarlo.
- Me gustaría pausar la tarea por un tiempo solo para revisar las cosas y ver si los datos se extrajeron con precisión.
- Querría administrar mis tareas de manera más eficiente.
>> Revisa estas actualizaciones
El resto de este artículo te guiará y ayudará a familiarizarse con las nuevas características de 8.5 más rápido. ¡Vamos!
Live Logs para solucionar problemas de ejecuciones locales
Con Octoparse 8.5, ahora puedes
- Revisar los registros de las ejecuciones locales en tiempo real (para inspeccionar tareas)
- Pausar y reanudar una ejecución local cuando te sea necesario
Ya sea que seas principiante en Octoparse o si ya has utilizado por un tiempo, siempre es difícil averiguar por qué tu tarea no funciona como se esperaba. Y sin saber las causas, arreglarlo puede ser una pesadilla. Con el nuevo Octoparse 8.5, ahora se te proporcionará el Registro de errores que te indicará qué salió mal y dónde se atascó, de modo que solucionar el problema se vuelve mucho más fácil a medida que se detecta el problema.
Si tu tarea falla, marca “mostrar solo registros de errores“, los registros te dirán exactamente por qué el raspador se atasca y qué sale mal durante el proceso de raspado. Los registros de errores dan una respuesta directa sobre cómo arreglar tu raspador y hacer que funcione de nuevo.
Ahora ya sabes cuál es el problema. ¡Solo arréglalo y ya está!
Aquí hay algunos errores que puedes encontrar y algunos enfoques para solucionarlo.
- Cierto elemento no encontrado – ¡es hora de revisar el Xpath!
- No se pudo cargar la página web – verifica si hay algún problema con tu red o IP.
- Tiempo de espera de AJAX – aumenta el límite de tiempo de espera
Tips:Ya no se podrá acceder a los registros si cierras la ventana de ejecución local después de completar la tarea. Si necesitas volver a mirar los registros o los errores, no olvides exportar los registros.
Modo Aceleración para ejecuciones locales 3 veces más rápidas
Sí, el raspado en la nube es rápido y eficiente. Sin embargo, a medida que aparece el “Modo Aceleración” para el raspado local, ¡la velocidad ya no es el privilegio para el raspado en la nube! Octoparse 8.5 presenta el “Modo Aceleración” para la extracción local para una velocidad hasta 3 veces más rápida, ya que la tarea se divide en múltiples subtareas que se ejecutan simultáneamente. Como resultado, obtendrás tus datos mucho más rápido.
Bueno, hay algunas notas que hacer con el “Modo Aceleración“.
- El Modo Aceleración solo se aplica a las tareas que se crean con un bucle “dividible”, como una lista de URLs, una lista de elementos de texto o una lista fija de elementos de página.
- La cantidad exacta de tareas que puedes ejecutar en tu escritorio en Modo Aceleración depende en gran medida de la capacidad de tu dispositivo.
Si lo que usas es la extracción local, el “Modo Aceleración” puede llevar tu experiencia de web scraping al siguiente nivel. Hasta cierto punto, cierra la brecha entre la ejecución local y la ejecución en la nube al hacer que la ejecución local sea tan rápida y escalable como puede ser la ejecución en la nube.
Lee tutorial relacionado: ¿Cuál es la diferencia entre el Modo Estándar y el Modo Aceleración?
Copia de seguridad automática de datos locales en la nube
Con Octoparse 8.5, ahora puedes
- Acceder a datos históricos para cada ejecución en tu dispositivo local
- Copia de seguridad automática de datos de ejecución local en la nube
Con la versión anterior, Octoparse solo conserva el último conjunto de datos para cualquier ejecución local. A medida que el Historial de ejecución local se puso en marcha, ahora puedes acceder a cada lote de datos que has recopilado con la misma tarea. Por ejemplo, si ejecutas la tarea A cuatro veces a la semana, los cuatro lotes de datos se almacenarán individualmente y serán accesibles en tu cuenta.
Además, puedes activar la copia de seguridad automática para que Octoparse almacene tus datos en la nube después de que se complete cada ejecución. Esto es extremadamente útil si estás utilizando API para conectar datos a tu base de datos. De esta manera, podrás procesar no solo los datos extraídos en la nube, sino también los datos obtenidos localmente de tu lado.
Tips
Activar la copia de seguridad automática no activará la copia de seguridad de los datos de las ejecuciones anteriores en la nube, sino solo los datos extraídos para las ejecuciones posteriores. Si se completa una ejecución y aún no se ha realizado una copia de seguridad del lote de datos en la nube, aún puedes hacer una copia de seguridad de los datos en la nube de forma manual.
Gestionar tu tarea con acciones por lotes
Esta actualización en particular con el Dashboard tiene como objetivo reducir el trabajo repetitivo y facilitar la gestión de tareas, especialmente para aquellos que tienen una gran cantidad de tareas.
Con Octoparse 8.5, ahora puedes
- Administrar varias tareas a la vez mediante acciones por lotes, como duplicar tareas, detener ejecuciones en la nube, programar ejecuciones locales, etc.
- Ordenar/filtrar tus tareas de manera más eficiente usando los nuevos parámetros incluidos en los filtros. Incluso puedes guardar la configuración del filtro para el uso posterior.
Tips
Si bien las actualizaciones principales se incluyen en este artículo, hay más por explorar. Aquí hay una versión completa de las actualizaciones de Octoparse 8.5 más guías técnicas.
Resumen y más ayuda
Además de todo lo anterior, todavía hay mejoras por descubrir a medida que utilices con la nueva versión 8.5. Si tienes algún problema o comentario con Octoparse 8.5 y deseas hablar con nosotros, no dudes en contactarnos en support@octoparse.com.
Estamos trabajando en subir más tutoriales paso a paso (para las actualizaciones de Octoparse 8.5):
- Cambiar grupo de servidores de la nube para una tarea (Versión 8.5)
- Agregar la URL original (antes de redirigir) junto con los datos extraídos (Versión 8.5)
- ¿Cómo convertir la zona horaria del campo de hora actual? (Versión 8.5)
- ¿Cuál es la diferencia entre el Modo Estándar y el Modo Aceleración? (Versión 8.5)