Resource
Tutoriales paso a paso para ayudarlo a comenzar con el web scraping
Descargar OctoparseOctoparse ofrece algunos campos de datos predefinidos que son realmente útiles y convenientes para los usuarios.
Vaya al paso "Extraer datos" y puede encontrar el botón "Agregar campo predefinido" en el panel derecho.
Hay cuatro tipos de campos de datos que puede agregar:
Este campo de datos significa el tiempo de extracción de la línea de datos scraping.
Por ejemplo, si tiene una tarea programada que se ejecuta todos los días y desea saber la fecha en que se raspan las líneas de datos, simplemente puede agregarla archivada.
¡Consejos! 1. Puede reformatear la fecha con Reformat extracted data/time 2. Agregar la hora actual en la extracción en la nube puede ayudar a mantener todos los duplicados: ¿Puedo mantener los duplicados extraídos en la nube? 3. El tiempo en la extracción en la nube se basa en el tiempo UTC. |
Esta opción le permite crear un valor fijo para cada línea de datos.
Si está raspando de Amazon.com y Amazon.fr, por ejemplo, y desea agregar un campo "Sitio web" para indicar qué dominio se raspan los datos, puede crear el campo de datos utilizando esta opción.
Esta opción le ayuda a crear un campo en blanco para extraer cualquier campo que desee en la página. Para convertir un campo en blanco en uno útil, es imprescindible revisar el XPath.
Consejos Cómo revisar el XPath paso a paso, verifique aquí: |
Es útil cuando desea verificar los campos de datos faltantes en una página: ¿Qué hacer con esos campos en blanco que obtuvo en el resultado extraído?
Es una breve descripción de una página web y aparece en la parte superior de una ventana del navegador.
La etiqueta contiene un resumen del contenido de la página.
Cuando los usuarios necesitan mejorar su SEO, es muy útil scrape el título de la página, la meta descripción y las meta palabras clave.
¡Descargue Octoparse para iniciar el web scraping o contáctenos para cualquier
pregunta sobre el extracción de datos!
Company
Producto
Recurso
Company
Product
Recurso