Blog > Colleccíon de datos > Poste

Comparación Octoparse vs. Content Grabber: ¿Cuál es mejor para el web spider?

Tuesday, June 09, 2020

Como hay diferentes web scrapers, apareció un problema: ¿cuál es el mejor scraper personalizado centrado en nuestras necesidades específicas y raspar todo? La mayoría de los web scrapers estándar son a menudo bastante genéricos y están diseñados principalmente para realizar una tarea común y simple (consulte la Revisión de Las 5 Herramientas de Web Scraping Más Importantes para obtener más información). Es decir, puede que no parezcan tan flexibles y universales como cabría esperar. Entonces, en esta publicación, compararé el web scraper Octoparse y Content Grabber para darle algunas ideas antes de elegir el servicio de web scraping que puede proporcionarle servicios de extracción de datos durante mucho tiempo.

 

 

Comparación de Características

Aquí hay una forma de la comparación de características entre Octoparse y Content Grabber:

Característica

Octoparse

Content Grabber

Regla General

Authoring environment

The windows-based software application (available for MAC with the virtual machine)

The windows-based software application (available for MAC with the virtual machine)

Smart Mode

Yes, getting extracted data just by entering the target URL

No

Cloud service

Yes

No

Scraper logic

Variables, loops, conditionals

Variables, loops, conditionals

Speed

Fast parallel execution

Fast parallel execution

Hosting

Hosted on a cloud of Octoparse servers if subscribed to Octoparse cloud or on the local machine

Local machine

Selecting elements

Point-and-click, XPath

Point-and-click, XPath

Transforming data

Regular expressions, string operations

Regular expressions

Speed

Fast parallel execution

Fast parallel execution

Knowledge of HTML and HTTP

Not required

Required

Knowledge of Regular expression and XPath

Not necessary, but would be better for further exploration

Not necessary, but would be better for further exploration

Extracción de Características

Javascript, Ajax and dynamic content extraction

Yes

Yes

Pop-ups, infinite scroll, hover contents, tabs, logging in

Yes

Yes

Pagination

Yes

Yes

Entering into search boxes

Yes

Yes

Capture text, links, files, meta tags, HTML and much more

Yes

Yes

Copy and paste commands, drag and drop commands

Yes

Yes

Pre-configured crawlers for commonly scraped websites

Yes

No

PDF and Excel extraction

No

Yes by using 3rd party document converters

Image and videos extraction

No, only able to extract the image or file URLs

Yes

IP Rotation

Included in paid plans or manual IP proxy

Yes by using 3rd party  proxy rotation service Nohodo

CAPTCHA

Yes, on the local machine

Yes, with a 3rd party CAPTCHA recognition service account

Website crawler function

Yes

Yes

Run-time configuration

With a premium Octoparse account

With a premium import.io account

Remove duplicate data

Yes

Yes

Track changes on a website

Yes (Incremental extraction)

Yes

RegEx tool and XPath tool

Yes

No

Command-line

No

Yes

Exportación de Datos

Data export

CSV, Excel, TXT, Databases

CSV, Excel, JSON, PDF, Databases

API

Yes

Yes

Support

Debugging

Yes, with limited functionality

Yes

Support

Free professional support, tutorials, community support

Paid service

 

 

Entonces, ¿Qué podrían hacer Octoparse y Content Grabber por usted?

Octoparse ofrece la mayor parte del poder de web scraping y la escala de Content Grabber en un easier-to-use package. Content Grabber está diseñado para funcionar en un nivel superior en el que la mayoría de las características de Octoparse están agrupadas.

Tanto Octoparse como Content Grabber representan el nuevo scraper visual web en el mercado. Ambos tienen simple-and-click UI donde los usuarios navegan por el sitio web y hacen clic en los elementos de datos en el orden de recopilación.

Al igual que un bot, podrían seguir los enlaces para acceder a las páginas web más profundas haciendo clic en los elementos y extrayendo los datos en las otras páginas. Ambos ofrecen opciones de API, rotación de IP y servicios para programar extractores que se ejecutan en tiempo real. Además, pueden obtener datos en formato CSV y transformarlos modificando manualmente la expresión regular.

 

Además, se les puede indicar que hagan más que simplemente extraer datos. Tienen una variedad de opciones para elegir, lo que permite obtener datos de sitios web interactivos. Puede indicarles que scrape datos de sitios muy complejos y dinámicos porque pueden:

  • Iniciar sesión en cuentas
  • Seleccione opciones de menús desplegables, ventanas emergentes, hovers
  • Buscar con una barra de búsqueda
  • Vaya a una nueva página simplemente haciendo clic en el botón "Siguiente"
  • Obtenga datos de páginas de desplazamiento infinito y otras páginas web dinámicas
  • ...

 

 

Esto significa que estos dos web scrapers pueden ser tan flexibles y universales como cabría esperar. Podrían tratar con:

  • Tablas difíciles, como tablas combinadas, tablas con un número indefinido de columnas, valores faltantes, etc.
  • Blocks layouts difíciles, especialmente aquellos en los que no existe Una asociación directa de HTML entre los datos presentados en una pantalla, como extraer todos los productos omitiendo publicidades, raspando solo productos con descuent.
  • Lista de prueba, cuando la estructura HTML DOM es simple..
  • Invalid HTML: caracteres sin escape, non-HTML tags, unclosed tags, unmatched quotes, missed spaces, invalid tag nesting.
  • Scrape detrás de un inicio de sesión. Ambos scrapers pueden enviar un formulario de inicio de sesión a través de POST, HTTP 302 Redirect outwork y rendimiento de almacenamiento de cookies..
  • CAPTCHA solving.

 

Both data extraction tools actually have a lot of functionality to extract all kinds of websites if you could fully explore their functionality. And as a fan of Content Grabber, I will recommend Content Grabber for a few situations:  

  • Tight integration with existing python codebase and infrastructure via API
  • Advanced debugging tool
  • Third-party Captcha solution

We are working on solving the second issue to make Octoparse more humane. 

However, if you are starting out, we encourage you to try Octoparse which will get you up and running much faster and for free or with a much cheaper cost.

 

Ambas herramientas de extracción de datos en realidad tienen mucha funcionalidad para extraer todo tipo de sitios web si pudiera explorar completamente su funcionalidad. Y como fanático de Content Grabber, recomendaré Content Grabber para algunas situaciones:

  • Integración estrecha con existing python codebase y la infraestructura a través de API
  • Herramienta de debugging avanzada
  • Solución de Captcha de Third-party

Estamos trabajando para resolver el segundo problema para hacer que Octoparse sea más humano.

Sin embargo, si está comenzando, le recomendamos que pruebe Octoparse, que lo pondrá en funcionamiento mucho más rápido y de forma gratuita o con un costo mucho más barato.

 

 

Comparación de Costos

A primera vista, la principal diferencia entre los dos servicios parece ser su precio. Octoparse empaqueta la funcionalidad en planes tradicionales de software como servicio (SaaS), incluidos planes gratuitos, estándar ($89) y profesionales ($189)

Content Grabber es un servicio pago. Hay dos métodos de compra para los usuarios de Content Grabber: comprar una licencia y una suscripción mensual. La versión de licencia (tres ediciones) le otorga una licencia perpetua, con un precio de $449 a $2495. La suscripción mensual se cobrará por adelantado cada mes. También hay tres ediciones con precios desde $69 a $299.

 

Brand

Octoparse

Content Grabber

Basic

Standard

Professional

Server

Professional

Premium

Monthly plan ($)

Free

89

189

69

149

299

Yearly plan/License($)

Free

900

1896

449

995

2495

 

La gran diferencia entre los planes premium Octoparse y Content Grabber es que no hay una licencia limitada y usuarios para Octoparse. Es decir, mas de un usuario podría usar Octoparse en diferentes computadoras con la misma cuenta premium. Content Grabber tiene licencia por usuario por computadora. Esto significa que necesita una licencia para cada computadora donde está instalado Content Grabber, y si más de un usuario accede a la computadora, necesita una licencia para cada usuario que use el software en la computadora. Además, una licencia no cubre tanto su computadora de escritorio como su computadora portátil, ni tanto la computadora de su oficina como la computadora de su hogar.

 

Más detalles:

Octoparse Precio

 

Content Grabber Pricing

 

 

Podría ver que el plan gratuito de Octoparse otorga una funcionalidad potente sin definir cuántas páginas web podría extraer para una tarea. La versión superior ofrece principalmente más tareas y una velocidad más rápida por más dinero y rotación de IP. Además, solo los planes premium le permiten programar los crawlers y ejecutarlos regularmente.

Para Content Grabber, las versiones son diferentes de las diferentes funcionalidades: función de exportación, API, agentes autónomos, etc. La carga también es diferente para el mantenimiento y el soporte.

Si no desea aprender a usar una herramienta y solo desea sus datos a pedido, tanto Octoparse como Content Grabber le brindan el data service. Simplemente comuníquese con las ventas de ambas compañías y ellos extraerán los datos del sitio web que desee. 

 

Ejemplo de Web Scraping

El siguiente video le mostrará cómo hacer que un crawler/agent en el web scraper Octoparse y Content Grabber. Estos dos proyectos se utilizan para scrape la US Yellowpages. Simplemente haga clic en el enlace para obtener más detalles.

Octoparse Proyecto: https://www.youtube.com/watch?v=hSVjxElKIUc

Content Grabber Proyecto: https://www.youtube.com/watch?v=vr-IggETB5Q

 

Conclusión: Octoparse y Content Grabber

Al igual que la comparación anterior, Octoparse vs Content Grabber es algo así como una comparación de manzanas con naranjas. Content Grabber está diseñado para funcionar en un nivel superior en el que la mayoría de las características de Scrapinghub están agrupadas. Si recién está comenzando, lo alentamos a que pruebe Octoparse, que lo ayudará a obtener una versión gratuita o a un costo mucho menor.

Como nota final, si hay algún problema con la información anterior, contácteme aquí.

 

 

 

Más recursos para revisiones de web scraping:

¿Comparación entre Octoparse y Import.io: ¿Cuál es el mejor para el web scraping?

 Las 30 Mejores Herramientas de Visualización de Datos en 2020

Big Data: 70 Increíbles Fuentes de Datos Gratuitas que Debes Conocer para 2020

 

¡Descargue Octoparse para iniciar el web scraping o contáctenos para cualquier pregunta sobre el extracción de datos!

Contáctenos Descargarse