Tutoriales paso a paso para ayudarlo a comenzar con el web scraping

Descargar Octoparse

Cómo verificar los datos extraídos en Octoparse

Wednesday, May 06, 2020

En este artículo, presentaremos algunas formas comunes de limpiar datos usando "Reformatear" y "Activar".

Aquí está el enlace que se utilizará para comenzar:

https://www.walmart.com/search/?cat_id=0&query=computer

 

 

1. Reformatear

1) Extraer calificación de HTML con "Coincidir con expresión regular"

Al extraer información del producto, siempre necesitamos "Calificación" para cada producto. Sin embargo, muchas clasificaciones aparecerían como estrellas en lugar de números. No se preocupe, puede usar "Reformatear" para extraer el número de calificación de los íconos.

  • Haga clic en el ícono completo de calificación
  • Seleccione "Extract Outer HTML of the selected element" en el "Panel de Acciones"
  • Cambie el nombre del campo como "Rating"

 

1_.gif

 

Consejos:

HTML es el lenguaje de marcado estándar para crear páginas web. Cuando extraemos el HTML interno de un elemento en la página, obtendremos el marcado HTML contenido dentro del elemento.

 

El HTML Externo es una propiedad de elemento que incluye las etiquetas de apertura y cierre, así como el contenido. Por lo tanto, capturar el HTML externo técnicamente puede proporcionar más información que el HTML interno. Si la información necesaria no se puede encontrar en el HTML interno, aún es posible ubicarla en el HTML externo.

Extraer datos del código fuente

 

Luego comenzamos a formatear los datos.

  • Haga clic en el iconomodify.pngmodify.png llamado "Customize data fields"
  • Haga clic en "Refinar datos extraídos"
  • Haga clic en "Agregar paso"
  • Seleccione "Match with Regular Expression"

2.gif

 

 

Aquí podemos ver el HTML externo de este icono, y podemos encontrar que el número de clasificación se ubica después de "aria-label = '" y antes de "Stars".

rating.png

 

 

Ahora podríamos usar el RegEx toolexternal-link-symbol-1.png para extraer "Rating".

  • Haga clic en "Try Regex Tool"
  • Marque "Starts with" y escriba "aria-label ="
  • Marque "Ends with" y escriba "Stars"
  • Haga clic en "Generate" y luego clic "Match" para ver si extraemos la calificación correcta
  • Haga clic en "Apply" y luego en "OK" para guardar

3.gif

Ahora tiene el número de calificación que necesita.

 

2) Reformatear datos con "Replace"

A veces es posible que necesitemos eliminar cierta información en los datos que acabamos de extraer. "Reemplazar" sería una buena opción en este momento. Por ejemplo, supongamos que necesitamos eliminar todas las comas en el campo "Title" porque necesitamos exportar el archivo como un archivo CSV. Si la información en el archivo CSV tiene una coma, el archivo separaría los datos antes y después de la coma porque es un delimitador.

 

Por ejemplo, el título original es "HP 15 Laptop 15.6", Intel Core i3, 4GB SDRAM, 1TB HDD, Natural Silver, 15-bs031wm"y lo transformaremos en "HP 15 Laptop 15.6 "Intel Core i3 4GB SDRAM 1TB HDD Plata Natural 15-bs031wm"

  • Haga clic en el iconomodify.pngmodify.png llamado "Personalizar campo de datos"
  • Haga clic en "Refinar datos extraídos"
  • Haga clic en "Agregar paso"
  • Seleccione "Reemplazar"

4.gif

 

Luego comenzamos a reemplazar todas las comas.

  • Escriba "," en el cuadro de texto "Replace"
  • Deje el cuadro de texto "With" con vacío
  • Haga clic en "OK" y "OK" para continuar

     

 

5.gif

Ahora no hay coma en el título. También puede reemplazar cualquier palabra con otras palabras según lo necesite.

 

 

3) Reformatear datos con "Replace with Regular Expression"

Cuando necesite reemplazar textos basados en sus ubicaciones, "Replace with Regular Expression" sería una opción más precisa que "Replace". Por ejemplo, debemos dejar el nombre y el código del modelo en el campo "título" y eliminar toda otra información. El nombre se ubica antes de la primera coma y el código del modelo se ubica después de la última coma.

 

Por ejemplo, los datos originales son "HP 15 Laptop 15.6", Intel Core i3, 4GB SDRAM, 1TB HDD, Natural Silver, 15-bs031wm" y necesitamos transformarlo en "HP 15 Laptop 15.6", 15-bs031wm"

  • Haga clic en el icono modify.png llamado "Customize data field"
  • Haga clic en "Refine extracted data"
  • Haga clic en "Add step"
  • Seleccione "Replace with Regular Expression"

6.gif

 

Entonces comenzamos a reemplazar la información.

  • Haga clic en "Probar herramienta Regex"

  • Marque "Starts with" y escriba ","

  • Marque "Ends with" y escriba ","

 

En este caso, podríamos hacer coincidir todos los textos entre dos comas, que es "Intel Core i3". Pero debemos dejar una coma entre el título y el código del modelo. Por lo tanto, debemos verificar el "Incluir Inicio" cerca del primer cuadro de texto, y luego podríamos ubicar los textos ", Intel Core i3".

  • Marque "Incluir Inicio" cerca del primer cuadro de texto
  • Haga clic en "Generate" y luego en "Match" para ver si extraemos la calificación correcta
  • Haga clic en "Apply" y luego en "OK" para guardar

7.gif

 

¡Consejos!

La diferencia entre "Hacer coincidir con expresión regular" y "Reemplazar con expresión regular" es: "Hacer coincidir con expresión regular" mantendrá los textos ubicados por Expresión regular mientras que "Reemplazar con expresión regular" cambiará los textos ubicados por Expresión regular.

Puede consultar más detalles sobre la Reformat function en Re-format data extracted.

 

 

2. Disparador

A veces necesitamos extraer números entre un rango específico o el tiempo en un cierto marco de tiempo. En este caso, "disparador" sería su solución.

Aquí están las condiciones de los desencadenantes.

trigger.PNG

 

 

Por ejemplo, aquí necesitamos scrape todos los productos cuyo precio es mayor a 200. En otras palabras, abandonaríamos todos los artículos cuyo precio sea igual o menor a 200.

Comienza con un "Agregar disparador".

 

mceclip0.png

 

  • Haga clic en "Trigger" y luego haga clic en "Add Trigger"
  • Seleccione "Price", "menor que" y escriba "200"

Aquí, seleccione el campo en el que desea establecer una condición y ajuste la fórmula según lo necesite. Recuerde que la condición debe establecerse para encontrar todos los datos que desea abandonar.

  • Deje la lista desplegable "Do" con "Abandonar esta línea de datos"

 

mceclip0.png

  • Haga clic en "OK" y luego haga clic en "OK" para guardar

trigger.gif

 

 

Aquí está la salida de muestra. Como puede ver, todos los precios extraídos son superiores a 200.

mceclip1.png

 

 

¡Descargue Octoparse para iniciar el web scraping o contáctenos para cualquier
pregunta sobre el extracción de datos!

Contáctenos Descargarse
Utilizamos cookies con el fin de mejorar tu experiencia de navegación. Lee sobre cómo utilizamos cookies y cómo puedes administrarlas mediante hacer clic en configuración de cookies. Si continúas navegando en este sitio web, significa que aceptas nuestro uso de cookies.
Aceptar Rechazar