Blog > Web Scraping > Poste

Comparación entre Octoparse y Import.io: ¿Cuál es el mejor para el web scraping?

Monday, May 18, 2020

El software de web scraping, también conocido como herramienta de extracción de datos, es el software para recopilar los datos del sitio web. Por lo general, no es fácil para nosotros elegir una herramienta de web scraping ya que hay tantas herramientas de raspado web disponibles ahora (consulte Los 30 Mejores Software Gratuitos de Web Scraping en 2020). Es por eso que decidí poner la herramienta de web scraping Octoparse con import.io para ver cómo se comparan las dos herramientas. Aquí está todo lo que necesita saber al decidir qué herramienta de web scraping le conviene más.

 

 

Comparación de Características

Aquí hay una comparación general entre las características de Octoparse e Import.io:

 

 

Feature

Octoparse

Import.io

Environment

Aplicación de escritorio para Windows (disponible para MAC con máquina virtual)

Aplicación basada en web, compatible con Chrome, Firefox, Safari

Seleccionar elementos

Point-and-click, XPath

Point-and-click, XPath

Paginación

Al hacer clic en los enlaces de paginación o ingresar manualmente el XPath (sitios web sin enlaces de "Página siguiente")

Ingresando una lista de páginas

Lógica de Scraper 

Variables, bucles, condicionales

Seleccionar y extraer solo

Drop downs, pestañas,flotando, pop-ups

Yes

No

Páginas de desplazamiento infinito

Yes

No

Entrar en cuadros de búsqueda

Yes

No

Captcha

Yes con maquina local

No

Iniciar sesión en cuentas

Yes

Yes

Javascript

Yes

Yes

Transformando datos

Regex, javascript expressions

Regular expression

Velocidad

Ejecución paralela rápida

Ejecución paralela rápida

Hosting

Alojado en la nube de servidores Octoparse si está suscrito a la nube Octoparse o en una máquina local con versión básica

Alojado en la nube de servidores Import.io

IP Rotación

Incluido en planes pagos o proxy manual de IP (versión gratuita)

Yes

Scheduling runs

Con una cuenta premium de Octoparse

Con a premium import.io plan

Data export

CSV, Excel, Txt, Databases

CSV, JSON, API, Google Sheets

Smart Mode

Yes

No

Cloud service

Yes

Yes

Up-to-date data

Yes (Incremental extraction)

Yes

Extracción de imágenes y archivos

No, solo es capaz de extraer la imagen o las URL del archivo

Yes

Coding

No

No

Support

Soporte profesional gratuito, tutoriales, soporte comunitario

Soporte comunitario o profesional para usuarios pagos, capacitación para el éxito del cliente

 

 

Entonces, ¿Qué podrían hacer los web scrapers por usted?

Tanto la interfaz está construida de acuerdo con el principio de apuntar y hacer clic, es fácil para usted extraer datos sin codificación. Ambos scrapers pueden manejar páginas Javascript y AJAX y pueden scrape detrás de un inicio de sesión. Al igual que un bot, podrían seguir los enlaces para ir a las páginas web más profundas haciendo clic en los elementos y extraer los datos en las otras páginas. Además, pueden modificar manualmente la expresión regular o XPath para obtener los datos en formato CSV y convertir los datos

Todos proporcionan servicios en la nube, que pueden ofrecer opciones de API, rotación de IP y servicios para programar extractores que se ejecutan en tiempo real. Con eso, es fácil obtener datos actualizados regularmente sin tener que mantener su computadora encendida.

 

 

¿Qué podría hacer Octoparse para ti?

La mayor diferencia entre Octoparse y sus alternativas de raspado web es que Octoparse puede obtener datos de sitios web interactivos. Imita totalmente el comportamiento humano al navegar por un sitio web.

Puede indicar a Octoparse que scrape datos de sitios muy complejos y dinámicos, ya que puede:

  • Inicie sesión en las cuentas para scrape detrás de un inicio de sesión
  • Seleccione opciones de menús desplegables (individuales y múltiples), pestañas, ventanas emergentes
  • Ingrese palabras clave y busque con una barra de búsqueda
  • Vaya a una nueva página simplemente haciendo clic en el botón "Siguiente"
  • Obtenga datos de páginas de desplazamiento infinito
  • Capaz de ingresar Captcha en la máquina local
  • Flujo de trabajo visual para comprender las lógicas del raspador (variables, bucles y condicionales) y podría cambiarse fácilmente con la interfaz de apuntar y hacer clic
  • Modo inteligente para manejar el sitio web simple con solo ingresar la URL de destino
  • Extraiga HTML y atributos internos y externos y personalice los valores para una mayor extracción
  • La herramienta RegEx avanzada y la herramienta XPath para modificar la expresión regular o XPath, lo que significa que no necesita saber cómo se escriben la expresión regular y XPath (vea las capturas de pantalla a continuación)

 

 

¡Y más! Excepto por el primero, estas son todas las cosas que import.io no puede manejar.

 

 

 

Herramienta Octoparse RegEx

 

Herramienta Octoparse XPath

 

 

Aquí hay una lista completa de las funciones de Octoparses scraping:

 

Rotación Automática de IP

API

Loops, variables and conditionals logics

Extraer texto, HTML y atributos

Ejecuciones Programadas

Cloud servers to store data

Extraer URL de archivos e imágenes

Search through forms and inputs

Get data from drop-downs, tabs, pop-ups and hovers

Integración de Databases 

Pagination y navigation

Scrape content from infinitely scrolling pages

RegEx y XPath Herramienta

Obtener data de tables a y aps

Conectar that loads with AJAX and JavaScript

 

The downside of usi

 

La desventaja de usar Octoparse como una alternativa a import.io es que necesita instalar la aplicación en su propia computadora. Y debido a que el software está escrito en .Net, solo es compatible con el sistema Windows.(Octoparse 8.1 estará disponible pronto, es compatible con la versión Mac) También le molestaría si Internet es inestable y el raspador se detuvo inesperadamente, debe volver a ejecutar el crawler desde cero. La otra es que puede llevar más tiempo aprender Octoparse, ya que es fácil cometer errores si no comprende las lógicas del flujo de trabajo. Pero afortunadamente, hay muchos tutoriales y un gran soporte si te quedas atascado.

 

Además, Octoparse no puede extraer las imágenes y los archivos directamente; necesita extraer sus URL y descargarlos con otras aplicaciones. Y la función de API es bastante limitada.

 

¿Qué import.io podría hacer por ti?

En primer lugar, import.io es una plataforma basada en la nube, lo que significa que no necesita ejecutar el scraper en su máquina y los datos podrían mantenerse en la nube. Por lo tanto, puede acceder a sus datos desde cualquier computadora conectada a Internet. Además, no necesita preocuparse por el mantenimiento y la escalabilidad del proceso de scraping.

 

Unlike Octoparse advanced mode, import.io tries to guess what you want from the page, and would build an extractor for you just a few seconds. Other features include:

  • Connect one data source with another and thus producing new, valuable, real-time data sets
  • Integrate with Google Sheet and Tableau
  • Able to extract images and files
  • API integration

 

A diferencia del modo avanzado de Octoparse, import.io intenta adivinar lo que desea de la página y crearía un extractor para usted solo unos segundos. Otras características incluyen:

Conecte una fuente de datos con otra y, por lo tanto, produzca conjuntos de datos nuevos, valiosos y en tiempo real

  • Integrar con Google Sheet y Tableau
  • Capaz de extraer imágenes y archivos
  • Integración API

 

 

Aquí hay una lista completa de las funciones de scraping de Import:

Automática  IP Rotación

Servidores en Cloud para almacenar datos

Contenido que se carga con AJAX y JavaScript

Extraer archivos e imágenes

Ejecuciones Programadas

XPath y Regular Expressions Selectores

Paginación

Obtenga datos de tablas y mapas

Integración API, Tableau y Google Sheet

 

La desventaja de usar import.io es que no se usa tanto como Octoparse para tratar sitios web. Como se mencionó anteriormente, no podría manejar sitios web con menús desplegables, ventanas emergentes y captcha. Tampoco puede scrape con infinitas páginas de desplazamiento, que son bastante comunes para la mayoría de las páginas web. Tampoco hay lógicas de scraper como condiciones para una mayor extracción para localizar específicamente la página web o los elementos.

Y para la paginación, no es fácil, ya que necesita ingresar una lista de páginas. En cuanto a la transformación de los datos en expresión regular y XPath, no hay herramientas integradas para usted y debe ingresar la expresión usted mismo, lo que significa que necesita dominar XPath y la expresión regular si desea explorar más en import.io.

 

 

Comparación de Costos

No hay duda de que Octoparse tiene ventajas abrumadoras. ¡Ofrece una versión gratuita con potentes funciones! Para resumir, eso es:

Marca

Octoparse

Import.io

Básica

Standard

Professional

Essential

Professional

Enterprise

Plan mensual($)

Gratis

89

189

299

-

-

Plan anual($)

Gratis

900

1896

-

1999

4999

 


Veamos las capturas de pantalla a continuación para obtener más detalles.

 

Octoparse Precio

 

 

Import.io Precio

 

 

Los planes de Octoparse están limitados por:

  • la cantidad de scrapers
  • la cantidad de rastreadores que podría ejecutar simultáneamente en su máquina
  • la velocidad a la que puede recopilar datos (diferentes servidores en la nube)

Hay páginas ilimitadas para cada rastreador y licencia de computadora ilimitada para cada versión, incluida la gratuita.

(Nota: Cuando ingresa URL en la lista de URL, sugeriría MENOS DE 20,000 URL. Todas las versiones están limitadas por el número que Octoparse necesita para garantizar que la CPU ejecute el rastreador al mismo tiempo. Pero puede copiar el rastreador para extraer otras URLs)


Los planes de Import.io están limitados por:

  • la cantidad de consultas por mes o año
  • la fecha de vencimiento de las consultas
    funciones limitadas como descarga de imágenes y archivos, API, informes actualizados
    apoyo
  • Es triste descubrir que import.io ya no ofrece una versión gratuita.

 

La mayoría de las personas crean uno o dos crawlers por sitio web en Octoparse. Una es extraer las URL de páginas web separadas y la otra es usar listas de URL para extraer en masa los datos con las URL extraídas. Se recomienda encarecidamente cuando se utiliza el servicio en la nube (consulte ¿Qué es "división de tareas" en Cloud Extraction? (Acelerar Cloud Extraction) de la nube para obtener más información

Por otro lado, Import.io cuenta un extractor como una consulta y no proporciona listas de URL para extraer en masa las páginas web. Por lo tanto, necesita pasar por encima de estas páginas web separadas en un extractor (lo que generalmente significa que faltan datos) en import.io, o necesita actualizar su versión para más consultas.

 

Tanto para Octoparse como para Import.io, debe suscribirse a un plan premium para la función de programación: la capacidad de recopilar datos de un sitio web de forma continua en un horario (en tiempo real, diario, semanal, mensual).

Si no desea aprender a usar una herramienta y solo quiere sus datos a pedido, tanto Octoparse como Import.io le brindan el data service. Simplemente comuníquese con las ventas de ambas compañías y ellos extraerán los datos del sitio web que desee, entregándolos en formato CSV/Excel o API.

 

 

Conclusión

No es difícil comenzar un proyecto con Octoparse o import.io. Y todos se manejan bien con sitios web estáticos y dinámicos. XPath y expresión regular son necesarios si desea explorar más, aunque afirman que no se necesitan conocimientos de programación. Además, ambos tienen sus límites.


También haré algunos ejemplos para mostrarle cómo funcionan estos dos scrapers. Y si hay algún problema con la información anterior, contácteme aquí.

 

Related sources:

Comparación entre Octoparse y Content Grabber: ¿Cuál es mejor para el web scraping?

Web Scraping Service vs. Automatic Web Scraper: ¿Cuál es la mejor opción para web scraping?

¡Descargue Octoparse para iniciar el web scraping o contáctenos para cualquier pregunta sobre el extracción de datos!

Contáctenos Descargarse