logo
languageESdown
menu

Octoparse vs. Scrapinghub – ¿Cuál es el mejor scraper parser?

6 min

Portia, una de las plataformas de Scrapinghub, es una herramienta visual de web scraping. En este artículo, lo compararé con Octoparse para ver cómo se comparan estas dos herramientas.

Comparación de Características

Característica

Octoparse

Portia

Authoring environment

 

Aplicación de escritorio para Windows (disponible para MAC con máquina virtual)

Web based Aplicación

Seleccionar elements

Apuntar y hacer clic, XPath

Apuntar y hacer clic, selectores CSS, XPath

Paginación

 

Al hacer clic en los enlaces de paginación o ingresar manualmente el XPath (sitios web sin enlaces de “Página siguiente”)

Exclusively by exploration

Lógica del Scraper

Variables, bucles, condicionales, function calls (via RegEx, XPath)

Seleccionar y extraer solo

Pop-ups, desplazamiento infinito, contenido hover, menús desplegables, tabs

Yes

With external libraries

Iniciar sesión en cuentas

Yes

Yes

Entrar en search boxes

Yes

No

Javascript, Ajax and dynamic content

Yes

Yes, when subscribed to Splash

Debugging

No

Visual debugger and server snapshots

Transforming data

Regex expressions

Partial annotations

Velocidad

Ejecución paralela rápida

Ejecución paralela rápida

Hosting

Hosted on cloud of Octoparse servers if subscribed to Octoparse plans or on local machine with free version

Hosted on cloud of ScrapingHub servers

IP Rotación

Incluido en planes pagos o proxy IP manual en plan gratuito

Con plan Crawler

Scheduling runs

Con una cuenta premium de Octoparse

Con un plan de Scrapy Cloud

Cloud servicio

Yes

Con un plan de Scrapy Cloud

Exportación de datos

CSV, Excel, Txt, Databases, API

CSV, JSON, XML, API

Soporte

Soporte profesional, tutoriales, soporte comunitario

Soporte Comunitario

 

¿Qué puede hacer Octoparse por ti?

Con su simple point-and-click UI, extraer datos con Octoparse puede ser bastante fácil. Octoparse, un web scraper visual funciona imitando los comportamientos de navegación humanos y puede recibir instrucciones para interactuar con el sitio web de varias maneras, lo que permite scraping sitios web dinámicos y más complejos.

Algunas de las características más avanzadas que vale la pena mencionar incluyen scrape detrás de un inicio de sesión, seleccionar las diferentes opciones de un menú desplegable, extracción basada en búsquedas, así como lidiar con desplazamiento infinito, etc. Octoparse también es bastante bueno al tener unworkflow que muestra todos los diferentes pasos para cualquier tarea de extracción y lo encontré útil para resolver toda la lógica detrás de la extracción.

Además, RegEx tool incorporada y XPath tool son útiles si se desea personalizar los datos extraídos.

Octoparse admite extracciones de varios pasos y, finalmente, combina los datos en una sola output. Una tarea de extracción se puede configurar rápidamente con solo unos pocos pasos: abrir página web – seleccionar elementos – extraer datos – obtener datos – exportar datos.

 

Para obtener información más detallada, puede consultar los Octoparse Tutoriales.

 

¿Qué puede hacer Portia por ti?

Hacer un crawler en Portia es muy similar al de Octoparse. Al igual que Octoparse, Portia puede detectar automáticamente elementos similares en cualquier página. Portia encontrará elementos que están estructurados de la misma manera que la muestra que ha creado y este paso continuará hasta que le pida que se detenga, alcance el límite de su plan ScrapingHub o si el software termina de revisar cada página.

La forma en que Portia obtiene datos puede generar datos inesperados o no deseados. Para compensar este problema, Portia proporciona expresiones regulares para reducir su búsqueda. Pero aún así, los sitios grandes como Amazon son difíciles de navegar por esta manera. Consulte a continuación un ejemplo simple de cómo funciona el crawler Portia.

  

¿Cuál es la diferencia entre Octoparse y Portia?

Como se mencionó anteriormente, Portia solo puede obtener datos de páginas que tienen exactamente el mismo diseño, pero no es posible pasar entre los resultados de búsqueda y las páginas de descripción de producto más detalladas. Portia también no puede interactuar con menús desplegables, pop-up windows, infinite scrolling pages o paginación a menos que use bibliotecas externas. No puede lidiar con captcha, que es bastante común para la mayoría de las páginas web. Y no sabría de qué páginas obtiene Portia sus datos, ya que el scraper no se puede controlar con ninguna regular expressions. En cuanto a la transformación de los datos en la expresión regular o la modificación de XPath, no hay herramientas disponibles para que necesite dominar XPath y la expresión regular si desea explorar más en Portia.

Según mi prueba, no hay diferencia en la velocidad de extracción de Portia scraper que se ejecuta en Scrapinghub cloud y Octoparse crawler que se ejecuta en mi máquina local. Sin embargo, con el Octoparse cloud service que permite la extracción en la nube, ejecutar una extracción puede ser más rápido que en Portia.

 

Comparación de Costos

No hay duda de que Octoparse tiene ventajas abrumadoras. Tanto Portia como Octoparse ofrecen versiones gratuitas, pero sus estructuras de precios son bastante diferentes

El Precio de Portia

El precio de Portia depende de la cantidad de unidades de ScrapingHub cloud que compre y del uso de bibliotecas adicionales en ScrapingHub. La compra de unidades de ScrapingHub cloud
adicionales haría que su scraping sea más rápido. Además, si compra una cloud unidad, puede guardar sus datos durante 120 días en la nube.

El precio unitario de ScrapingHub es de $9 cada uno. Consulte a continuación para más detalles.

 

ScrapingHub Cloud

 

Si desea hacer un uso completo de Portia, debe suscribirse a otros servicios pagos de ScrapingHub, el servicio de IP rotation Crawlera y el navegador Splash compatible con JavaScript. Los planes pagados de Crawlera que van desde $25/mes a $500/mes están limitados por la cantidad de solicitudes mensuales y solicitudes concurrentes, mientras que los planes de Splash que van desde $25/mes a $100/ mes se basan en la velocidad diferente.

Crawlera Planes Mensuales 

 

 

Splash Planes Mensuales

 

Precios de Octoparse

A diferencia de Portia, que es similar a la infraestructura como servicio (IAAS), Octoparse ofrece paquetes de software como servicio (SAAS) más convencionales con planes gratuitos, básicos, estándar y profesionales. El precio varía de $19/mes a $249/mes con tres tipos diferentes de suscripciones, incluidas mensual, trimestral y anual. Puede ver un resumen de los planes de precios de Octoparse a continuación.

 

Octoparse Precio

  

Tanto Octoparse como ScrapingHub proporcionan una solución personalizada si necesita un plan de web scraping más personalizado. Ambos también brindan data service a pedido.

 

Conclusión

Si bien Portia necesita trabajar con otras plataformas de Scrapinghub en un nivel superior, Octoparse tiene la mayoría de las características agrupadas para una implementación más fácil. Para los usuarios de nivel de entrada, Octoparse ofrece el mismo nivel de potencia de web scraping y escala de Portia en un paquete mucho más fácil de usar. No es difícil iniciar Octoparse crawler o Portia scraper, pero te tomaría bastante tiempo si quieres explorar más.

Quería que esta comparación fuera lo más justa posible. Si encuentra algún problema con la información anterior o si es un usuario experimentado de Portia, contácteme aquí. ¡Gracias!

Posts populares

Explorar temas

Empiece a utilizar Octoparse enseguida

Descargar

Artículos relacionados