Tutoriales paso a paso para ayudarlo a comenzar con el web scraping

Descargar Octoparse

Agregar campos de datos predefinidos

Thursday, April 16, 2020

Octoparse ofrece algunos campos de datos predefinidos que son realmente útiles y convenientes para los usuarios.

 

¿Dónde agregar los campos de datos predefinidos?

Vaya al paso "Extraer datos" y puede encontrar el botón "Agregar campo predefinido" en el panel derecho.

mceclip0.png

mceclip1.png

 

 

¿Qué campos de datos predefinidos puedo agregar?

Hay cuatro tipos de campos de datos que puede agregar:

1. Agregar la hora actual

mceclip2.png

 

Este campo de datos significa el tiempo de extracción de la línea de datos scraping.

Por ejemplo, si tiene una tarea programada que se ejecuta todos los días y desea saber la fecha en que se raspan las líneas de datos, simplemente puede agregarla archivada.

 

 ¡Consejos!

1. Puede reformatear la fecha con Reformat extracted data/time  para cambiar el formato del campo de hora actual.

2. Agregar la hora actual en la extracción en la nube puede ayudar a mantener todos los duplicados: ¿Puedo mantener los duplicados extraídos en la nube? 

3. El tiempo en la extracción en la nube se basa en el tiempo UTC.

 

 

 

2. Agregar un campo fijo


Esta opción le permite crear un valor fijo para cada línea de datos.

Si está raspando de Amazon.com y Amazon.fr, por ejemplo, y desea agregar un campo "Sitio web" para indicar qué dominio se raspan los datos, puede crear el campo de datos utilizando esta opción.

Fixed_value.gif

 

 

3. Agregar un campo en blanco


Esta opción le ayuda a crear un campo en blanco para extraer cualquier campo que desee en la página. Para convertir un campo en blanco en uno útil, es imprescindible revisar el XPath.

 

Consejos

Cómo revisar el XPath paso a paso, verifique aquí:

Localizar elementos con XPath

 

 

4. Agregar información de la página actual

  • Título de la página: Scrape el contenido de la etiqueta del título.

 

mceclip7.png

 

 

Es una breve descripción de una página web y aparece en la parte superior de una ventana del navegador.

mceclip3.png 

 

  • Meta descripción: Scrape el contenido de la etiqueta de meta descripción

    mceclip6.png

    La etiqueta contiene un resumen del contenido de la página.

  • Meta palabra clave: scrape el contenido de la etiqueta de palabra clave meta

    mceclip8.png

    Cuando los usuarios necesitan mejorar su SEO, es muy útil scrape el título de la página, la meta descripción y las meta palabras clave.

 

¡Descargue Octoparse para iniciar el web scraping o contáctenos para cualquier
pregunta sobre el extracción de datos!

Contáctenos Descargarse