Tutoriales paso a paso para ayudarlo a comenzar con el web scraping

Descargar Octoparse

Lección 4: Obtener datos - Capturar una lista de elementos

Wednesday, March 11, 2020

En la lección anterior, aprendemos cómo capturar texto simple(ea cómo capturar texto de una página en la lección 3 ). Ahora estudiamos una técnica de web scraping más avanzada: capturar una lista de elementos.

 

Los contenidos en las páginas web generalmente están organizados en ciertos patrones. Y uno de los patrones que parecen más comunes es una lista. Aquí hay algunos ejemplos de cuándo los contenidos se muestran como una lista.
 
 
Dado que la lista es tan común, Octoparse hace la extracción de la lista sea rápida y fácil, ya que detecta automáticamente todos los elementos posibles de la lista. Ahora veamos cómo se hace con un ejemplo.

 

 1. Construya la lista definiendo un patrón

 

  Seleccionando 2 elementos de la lista, dígale a Octoparse qué elementos incluir en la lista

 

 

· Haga clic en las 2 secciones de productos consecutivamente. Observe que las otras secciones del producto en la página se seleccionan automáticamente y se resaltan en verde con todos los subelementos resaltados en rojo.

 

· Haga clic en "Extraer texto de los elementos seleccionados". Se generará automáticamente un "Elemento de bucle" y se agregará al flujo de trabajo. Generalmente, Octoparse extrae automáticamente del elemento, si esto no es exactamente lo que está buscando, puede eliminarlo y agregar los campos de datos que necesita en el siguiente paso.

 

 

 

¡Consejos!

 

1. Para construir adecuadamente una lista de elementos requeridos, es fundamental que las dos opciones tengan la misma estructura, es decir, el contenido resaltado debe tener la misma "apariencia".

Web scraping with Octoparse

Web scraping with Octoparse

 

Siempre puede expandir el área de selección haciendo clic en las etiquetas (por ejemplo, DIV, A, LI, etc.) en la parte inferior de "Consejos de acción".

 

2.Si todavía faltan ciertos elementos de la lista después de los primeros dos clics, siga haciendo clic en más productos de la misma lista hasta que todos los elementos deseados se seleccionen y se resalten en verde.


2. Capture subelementos dentro del elemento seleccionado

 

2.1 Desde el elemento resaltado en verde (generalmente el primero en la lista), haga clic para capturar los subelementos deseados.  Esto es para establecer una plantilla de extracción para los otros elementos en la lista. Configure el paso de extracción para el primer elemento, luego Octoparse aplicará la plantilla a los elementos restantes en la lista.

· Haga clic para capturar cualquier subelemento dentro de la sección resaltada

 

· Cuando termine de seleccionar, haga clic en "Extraer texto de los elementos seleccionados"

 

 

2.2. Capture todos los subelementos automáticamente

 

Además de los pasos en 2.1, hay una forma alternativa de capturar subelementos en Octopares 7x. En el momento en que agrega elementos a la lista, Octoparse detecta automáticamente todos los subelementos dentro de las secciones seleccionadas y los resalta en rojo. Ahora, puede hacer clic en "Seleccionar todos los subelementos" en "Consejos de acción" para seleccionar todos los subelementos detectados a la vez.

 

 

 

Ahora, todos los subelementos están seleccionados y se muestran en el panel "Consejos de acción"

 

· Haga clic en la "X" junto a los campos de datos para eliminar las columnas innecesarias.

 

· Una vez hecho, seleccione "Extraer datos".

 

Observe que los campos de datos extraídos se agregan al panel "Campo de datos" al lado del diseñador de flujo de trabajo para una mayor personalización si es necesario.

 

 

Lección 5: Haga clic en una lista y raspar datos de cada página de elementos

 

 

¡Descargue Octoparse para iniciar el web scraping o contáctenos para cualquier
pregunta sobre el extracción de datos!

Contáctenos Descargarse