Comparación Octoparse vs. Content Grabber: ¿Cuál es mejor para el web spider?

¿Cuál es el mejor scraper personalizado centrado en nuestras necesidades específicas y scrape todo? En esta publicación, compararé el web scraper Octoparse y Content Grabber para darle algunas ideas antes de elegir el servicio de web scraping que le servirá durante mucho tiempo para la extracción de datos.

Paulina Tobella

2020-06-09T00:00:00+00:00

6 min

Compartir en redes sociales

Como hay diferentes web scrapers, apareció un problema: ¿cuál es el mejor scraper personalizado centrado en nuestras necesidades específicas y raspar todo? La mayoría de los web scrapers estándar son a menudo bastante genéricos y están diseñados principalmente para realizar una tarea común y simple (consulte la Revisión de Las 5 Herramientas de Web Scraping Más Importantes para obtener más información). Es decir, puede que no parezcan tan flexibles y universales como cabría esperar. Entonces, en esta publicación, compararé el web scraper Octoparse y Content Grabber para darle algunas ideas antes de elegir el servicio de web scraping que puede proporcionarle servicios de extracción de datos durante mucho tiempo.

Comparación de Características

Aquí hay una forma de la comparación de características entre Octoparse y Content Grabber:

Característica	Octoparse	Content Grabber
Regla General
Authoring environment	The windows-based software application (available for MAC with the virtual machine)	The windows-based software application (available for MAC with the virtual machine)
Smart Mode	Yes, getting extracted data just by entering the target URL	No
Cloud service	Yes	No
Scraper logic	Variables, loops, conditionals	Variables, loops, conditionals
Speed	Fast parallel execution	Fast parallel execution
Hosting	Hosted on a cloud of Octoparse servers if subscribed to Octoparse cloud or on the local machine	Local machine
Selecting elements	Point-and-click, XPath	Point-and-click, XPath
Transforming data	Regular expressions, string operations	Regular expressions
Speed	Fast parallel execution	Fast parallel execution
Knowledge of HTML and HTTP	Not required	Required
Knowledge of Regular expression and XPath	Not necessary, but would be better for further exploration	Not necessary, but would be better for further exploration
Extracción de Características
Javascript, Ajax and dynamic content extraction	Yes	Yes
Pop-ups, infinite scroll, hover contents, tabs, logging in	Yes	Yes
Pagination	Yes	Yes
Entering into search boxes	Yes	Yes
Capture text, links, files, meta tags, HTML and much more	Yes	Yes
Copy and paste commands, drag and drop commands	Yes	Yes
Pre-configured crawlers for commonly scraped websites	Yes	No
PDF and Excel extraction	No	Yes by using 3rd party document converters
Image and videos extraction	No, only able to extract the image or file URLs	Yes
IP Rotation	Included in paid plans or manual IP proxy	Yes by using 3rd party proxy rotation service Nohodo
CAPTCHA	Yes, on the local machine	Yes, with a 3rd party CAPTCHA recognition service account
Website crawler function	Yes	Yes
Run-time configuration	With a premium Octoparse account	With a premium import.io account
Remove duplicate data	Yes	Yes
Track changes on a website	Yes (Incremental extraction)	Yes
RegEx tool and XPath tool	Yes	No
Command-line	No	Yes
Exportación de Datos
Data export	CSV, Excel, TXT, Databases	CSV, Excel, JSON, PDF, Databases
API	Yes	Yes
Support
Debugging	Yes, with limited functionality	Yes
Support	Free professional support, tutorials, community support	Paid service

Entonces, ¿Qué podrían hacer Octoparse y Content Grabber por usted?

Octoparse ofrece la mayor parte del poder de web scraping y la escala de Content Grabber en un easier-to-use package. Content Grabber está diseñado para funcionar en un nivel superior en el que la mayoría de las características de Octoparse están agrupadas.

Tanto Octoparse como Content Grabber representan el nuevo scraper visual web en el mercado. Ambos tienen simple-and-click UI donde los usuarios navegan por el sitio web y hacen clic en los elementos de datos en el orden de recopilación.

Al igual que un bot, podrían seguir los enlaces para acceder a las páginas web más profundas haciendo clic en los elementos y extrayendo los datos en las otras páginas. Ambos ofrecen opciones de API, rotación de IP y servicios para programar extractores que se ejecutan en tiempo real. Además, pueden obtener datos en formato CSV y transformarlos modificando manualmente la expresión regular.

Además, se les puede indicar que hagan más que simplemente extraer datos. Tienen una variedad de opciones para elegir, lo que permite obtener datos de sitios web interactivos. Puede indicarles que scrape datos de sitios muy complejos y dinámicos porque pueden:

Iniciar sesión en cuentas
Seleccione opciones de menús desplegables, ventanas emergentes, hovers
Buscar con una barra de búsqueda
Vaya a una nueva página simplemente haciendo clic en el botón “Siguiente”
Obtenga datos de páginas de desplazamiento infinito y otras páginas web dinámicas
…

Esto significa que estos dos web scrapers pueden ser tan flexibles y universales como cabría esperar. Podrían tratar con:

Tablas difíciles, como tablas combinadas, tablas con un número indefinido de columnas, valores faltantes, etc..
Blocks layouts difíciles, especialmente aquellos en los que no existe Una asociación directa de HTML entre los datos presentados en una pantalla, como extraer todos los productos omitiendo publicidades, raspando solo productos con descuent.
Lista de prueba, cuando la estructura HTML DOM es simple..
Scrape detrás de un inicio de sesión. Ambos scrapers pueden enviar un formulario de inicio de sesión a través de POST, HTTP 302 Redirect outwork y rendimiento de almacenamiento de cookies..

Ambas herramientas de extracción de datos en realidad tienen mucha funcionalidad para extraer todo tipo de sitios web si pudiera explorar completamente su funcionalidad. Y como fanático de Content Grabber, recomendaré Content Grabber para algunas situaciones:

Integración estrecha con existing python codebase y la infraestructura a través de API
Herramienta de debugging avanzada
Solución de Captcha de Third-party

Estamos trabajando para resolver el segundo problema para hacer que Octoparse sea más humano.

Sin embargo, si está comenzando, le recomendamos que pruebe Octoparse, que lo pondrá en funcionamiento mucho más rápido y de forma gratuita o con un costo mucho más barato.

Comparación de Costos

A primera vista, la principal diferencia entre los dos servicios parece ser su precio. Octoparse empaqueta la funcionalidad en planes tradicionales de software como servicio (SaaS), incluidos planes gratuitos, estándar ($89) y profesionales ($189)

Content Grabber es un servicio pago. Hay dos métodos de compra para los usuarios de Content Grabber: comprar una licencia y una suscripción mensual. La versión de licencia (tres ediciones) le otorga una licencia perpetua, con un precio de $449 a $2495. La suscripción mensual se cobrará por adelantado cada mes. También hay tres ediciones con precios desde $69 a $299.

Brand	Octoparse	Content Grabber
Basic	Standard	Professional	Server	Professional	Premium
Monthly plan ($)	Free	89	189	69	149	299
Yearly plan/License($)	Free	900	1896	449	995	2495

La gran diferencia entre los planes premium Octoparse y Content Grabber es que no hay una licencia limitada y usuarios para Octoparse. Es decir, mas de un usuario podría usar Octoparse en diferentes computadoras con la misma cuenta premium. Content Grabber tiene licencia por usuario por computadora. Esto significa que necesita una licencia para cada computadora donde está instalado Content Grabber, y si más de un usuario accede a la computadora, necesita una licencia para cada usuario que use el software en la computadora. Además, una licencia no cubre tanto su computadora de escritorio como su computadora portátil, ni tanto la computadora de su oficina como la computadora de su hogar.

Podría ver que el plan gratuito de Octoparse otorga una funcionalidad potente sin definir cuántas páginas web podría extraer para una tarea. La versión superior ofrece principalmente más tareas y una velocidad más rápida por más dinero y rotación de IP. Además, solo los planes premium le permiten programar los crawlers y ejecutarlos regularmente.

Para Content Grabber, las versiones son diferentes de las diferentes funcionalidades: función de exportación, API, agentes autónomos, etc. La carga también es diferente para el mantenimiento y el soporte.

Si no desea aprender a usar una herramienta y solo desea sus datos a pedido, tanto Octoparse como Content Grabber le brindan el data service. Simplemente comuníquese con las ventas de ambas compañías y ellos extraerán los datos del sitio web que desee.

Conclusión

Al igual que la comparación anterior, Octoparse vs Content Grabber es algo así como una comparación de manzanas con naranjas. Content Grabber está diseñado para funcionar en un nivel superior en el que la mayoría de las características de Scrapinghub están agrupadas. Si recién está comenzando, lo alentamos a que pruebe Octoparse, que lo ayudará a obtener una versión gratuita o a un costo mucho menor.

Como nota final, si hay algún problema con la información anterior, contácteme

Paulina Tobella

Experta en SEO y web scraping, con amplia experiencia en el diseño y optimización de sitios web y conocimientos avanzados en web scraping.