Tutoriales paso a paso para ayudarlo a comenzar con el web scraping

Descargar Octoparse

Lección 3: Obtener datos - Scraping texto web (Arañar textos de web)

Wednesday, March 11, 2020

Ahora que ha descargado Octoparse   y conoce la interfaz de usuario ,está listo para comenzar su propio proyecto de web scraping.
Extraer datos de texto es la habilidad básica que se debe adquirir, ya que la mayoría de los datos se representan como texto visual en la web, como artículos de noticias, información de productos, blog, etc. En esta lección, explicaré cómo capturar datos de texto simples de una página web con solo apuntar y hacer clic.Las habilidades básicas de extracción de texto se pueden combinar con otras tecnologías (como la paginación), y la construcción de la lista sienta las bases para la extracción de datos en varias páginas web.

Entonces, comencemos con la captura de texto de una sola página web. 

1) Inicie una nueva tarea e ingrese la URL de la página web de destino [Descargue el archivo de tarea en esta lección]

Después iniciado sesión, haga clic en el botón " + Tarea" del Modo avanzado para crear una nueva tarea. Luego ingrese una o más URL.

 

¡Consejos!

 

1. ¿Qué es una tarea?

Una tarea significa un rastreador para extraer datos de un sitio web con consultas ilimitadas de página / URL. Los rastreadores en Octoparse están determinados por las tareas configuradas. Las tareas de raspado le dirían a Octoparse: qué sitio web abrir y qué datos rastrear, etc.

 

2. ¿Por qué debo usar el modo avanzado?

El modo avanzado es increíblemente potente que ofrece flexibilidad extendida para acomodar el web scraping de todos los diferentes tipos . Le permite personalizar la acción individual necesaria para realizar la extracción, incluida la búsqueda de palabras clave, la autenticación de inicio de sesión, los menús desplegables de apertura, etc.

Aquí tomamos un blog de nuestras como ejemplo. Supongamos que nuestro objetivo es extraer la información del blog de la página.

Copie y pegue la URL en el cuadro de texto "URL de extracción". Luego haga clic en "Guardar URL" y Octoparse abrirá la página web en el navegador incorporado.

URL: https://www.octoparse.com/blog/top-5-web-scraping-tools-comparison/

 

 

2) Haga clic en los datos de destino para capturar

Ahora, comience a capturar los datos que necesita haciendo clic directamente en los diversos datos.

Cuando los datos se seleccionan correctamente, la selección se resaltará en verde.

 

 

Haga clic en el título del artículo, la fecha o el contenido para capturar.

 

 
Observe que los datos en los que hizo clic ahora se muestran en el Panel de acciones. Puede editar los nombres de campo haciendo clic o salir hasta más tarde. Seleccione "Extraer datos" para completar la acción de extracción de texto.

 

 

¡Consejos!

1.  Active el botón "Flujo de trabajo" para obtener una vista previa del flujo de trabajo que diseña.

 

2. Ahora en Octoparse 7.X, el nombre de la tarea se genera automáticamente en la parte superior de la interfaz de configuración. Para cambiarlo, simplemente haga clic en el cuadro de texto y escriba el nombre deseado. No olvide guardar sus cambios haciendo clic en .

 

3) Guarde y ejecute la tarea para capturar datos

Haga clic en "Guardar y ejecutar" desde el Panel de acciones o haga clic en "Iniciar extracción" para comenzar a ejecutar la tarea completada.

 

 

Aquí están los datos que obtuvimos al ejecutar la tarea.  

 

 

 

 Lección 4: Capturar una lista de elementos

 

¡Descargue Octoparse para iniciar el web scraping o contáctenos para cualquier
pregunta sobre el extracción de datos!

Contáctenos Descargarse