Step-by-step tutorials for you to get started with web scraping
Download OctoparseLección 4: Obtener datos - Capturar una lista de elementos
Wednesday, March 11, 2020En la lección anterior, aprendemos cómo capturar texto simple(ea cómo capturar texto de una página en la lección 3 ). Ahora estudiamos una técnica de web scraping más avanzada: capturar una lista de elementos.
![]() |
![]() |

1. Construya la lista definiendo un patrón
Seleccionando 2 elementos de la lista, dígale a Octoparse qué elementos incluir en la lista
· Haga clic en las 2 secciones de productos consecutivamente. Observe que las otras secciones del producto en la página se seleccionan automáticamente y se resaltan en verde con todos los subelementos resaltados en rojo.
· Haga clic en "Extraer texto de los elementos seleccionados". Se generará automáticamente un "Elemento de bucle" y se agregará al flujo de trabajo. Generalmente, Octoparse extrae automáticamente del elemento, si esto no es exactamente lo que está buscando, puede eliminarlo y agregar los campos de datos que necesita en el siguiente paso.
¡Consejos!
1. Para construir adecuadamente una lista de elementos requeridos, es fundamental que las dos opciones tengan la misma estructura, es decir, el contenido resaltado debe tener la misma "apariencia".
Siempre puede expandir el área de selección haciendo clic en las etiquetas (por ejemplo, DIV, A, LI, etc.) en la parte inferior de "Consejos de acción".
2.Si todavía faltan ciertos elementos de la lista después de los primeros dos clics, siga haciendo clic en más productos de la misma lista hasta que todos los elementos deseados se seleccionen y se resalten en verde. |
2. Capture subelementos dentro del elemento seleccionado
2.1 Desde el elemento resaltado en verde (generalmente el primero en la lista), haga clic para capturar los subelementos deseados. Esto es para establecer una plantilla de extracción para los otros elementos en la lista. Configure el paso de extracción para el primer elemento, luego Octoparse aplicará la plantilla a los elementos restantes en la lista.
.
· Haga clic para capturar cualquier subelemento dentro de la sección resaltada
· Cuando termine de seleccionar, haga clic en "Extraer texto de los elementos seleccionados"
2.2. Capture todos los subelementos automáticamente
Además de los pasos en 2.1, hay una forma alternativa de capturar subelementos en Octopares 7x. En el momento en que agrega elementos a la lista, Octoparse detecta automáticamente todos los subelementos dentro de las secciones seleccionadas y los resalta en rojo. Ahora, puede hacer clic en "Seleccionar todos los subelementos" en "Consejos de acción" para seleccionar todos los subelementos detectados a la vez.
Ahora, todos los subelementos están seleccionados y se muestran en el panel "Consejos de acción"
· Haga clic en la "X" junto a los campos de datos para eliminar las columnas innecesarias.
· Una vez hecho, seleccione "Extraer datos".
Observe que los campos de datos extraídos se agregan al panel "Campo de datos" al lado del diseñador de flujo de trabajo para una mayor personalización si es necesario.
Lección 5: Haga clic en una lista y raspar datos de cada página de elementos
Download Octoparse to start web scraping or contact us for any
question about web scraping!