Tutoriales paso a paso para ayudarlo a comenzar con el web scraping

Descargar Octoparse

Scrape los resultados de búsqueda de Google Scholar

Thursday, March 19, 2020

En este tutorial, le mostraremos cómo raspar los resultados de búsqueda de Google Scholar. Además, la plantilla de Google Académico lista para usar se ha insertado en nuestra última versión, puede consultarla aquí: Task Templatesexternal-link-symbol-1.png.

Display-task-templates-02.PNG

 

 

 

Si desea crear el web scraper desde cero, puede utilizar la URL en este tutorial:

https://scholar.google.com/ncr

Recolectaremos datos como el título, el autor, la descripción y otra información relacionada de cada página de resultados de búsqueda con Octoparse.

 

Estos son los pasos principales de este tutorial:

 

  1. "Ir a la página web" - abra la página web de destino
  2. Cree un "Loop Item" - ingrese en bucle las palabras clave de búsqueda
  3. Crear un ciclo de paginación - Scrape los datos de varias páginas de listado
  4. Crear un "Loop Item" - bucle extraer cada elemento
  5. Extraer datos - seleccione los datos que necesita raspar
  6. Ejecutar extracción - ejecute su tarea y obtenga datos

 

 

1) "Ir a la páginaExtraer datos - seleccione los datos que necesita raspar web" - abra la página web de destino

  • Haga clic en "+ Tarea" para comenzar una nueva tarea con el Modo avanzado
  • Pegue la siguiente URL en el cuadro "Sitio web"
  • Haga clic en "Guardar URL" para continuar

1.gif

 

2) Cree un "Loop Item" - ingrese en bucle las palabras clave de búsqueda

Podemos personalizar nuestra "lista de texto" para crear una acción de búsqueda de bucle. Octoparse ingresará automáticamente cada palabra clave en la lista en el cuadro de búsqueda, una línea a la vez.

  • Coloque una acción de "loop item" en el diseñador de flujo de trabajo
  • Vaya al modo de bucle y seleccione "Lista de texto"
  • Haga clic en "a" para ingresar a la lista de palabras clave con una palabra clave por línea. Aquí ingresaremos "minería de datos" y "big data"
  • Haga clic en "OK" y "OK" cuando termine de ingresar. Luego puede ver sus palabras clave en el "Elemento de bucle"
  • Haga clic en el cuadro de búsqueda en la página en el navegador integrado y seleccione "Introducir texto" en "Action Tips"

Cuando hace clic en el campo de entrada en el navegador incorporado, Octoparse puede detectar que selecciona un cuadro de búsqueda, la acción "Introducir texto" aparecerá automáticamente en "Consejos de acción".

  • Ingrese la primera palabra clave "minería de datos" en el panel "Action Tips"
  • Haga clic en "OK", y luego se generará la acción "Ingresar texto" en el flujo de trabajo
  • Arrastre la acción "Introducir texto" al "Elemento de bucle"
  • Haga clic en la acción "Introducir texto"

Vaya a "Texto de bucle" y seleccione "Usar el elemento de texto en bucle para completar el cuadro de texto" y haga clic en "Aceptar" para guardar. Luego, configure "esperar antes de la ejecución" como "2 segundos" en función de las condiciones locales de Internet .

  • Haga clic en el botón de búsqueda de la página web y seleccione el botón "Hacer clic" en el panel "Consejos de acción", y notará que la acción "Hacer clic en elemento" se agrega al flujo de trabajo.
  • Marque "abrir el enlace en una pestaña nueva" para "Hacer clic en elemento" y haga clic en "Guardar"

2.gif

 

 

3) Crear un ciclo de paginación - Scrape los datos de varias páginas de listado

  • Desplácese hasta la parte inferior de la página.
  • Haga clic en el botón "Siguiente" 
  • Haga clic en "Bucle, haga clic en la página siguiente" en el panel "Consejos de acción"

3.gif

 

4) Crear un "Loop Item" - bucle extraer cada elemento


Ahora estamos en la segunda página. Al crear un "Elemento de bucle", siempre debemos comenzar con el primer elemento en la primera página. Por lo tanto, será mejor que regresemos a la primera página.

  • Haga clic en "Ir a la página web" en el flujo de trabajo
  • Haga clic en "Elemento de bucle"
  • Haga clic en "Ingresar texto"
  • Haga clic en "Haga clic en elemento"
  • Seleccione el ciclo de paginación en el flujo de trabajo.

Al hacer esto, podemos ayudar a Octoparse a decidir el orden de ejecución y generar el elemento de bucle en la posición adecuada en el flujo de trabajo.

  • Haga clic en el primer elemento en el navegador incorporado

Necesitamos asegurarnos de que todo el bloque del primer elemento esté cubierto de azul cuando maldices sobre tu mouse. Solo de esta manera, podríamos ver que todo el bloque de elementos se resalta en verde después de hacer clic, cubriendo toda otra información como título, autor, fecha ...

  • Haga clic en el segundo elemento.


También necesitamos seleccionar todo el bloque del segundo elemento. Octoparse reconocerá automáticamente los otros elementos y los resaltará en verde.

  • Haga clic en "Seleccionar todo" en el panel "Consejos de acción"
  • Haga clic en "Extraer texto del elemento seleccionado" en el panel "Consejos de acción".

 

 

 ¡Consejos!

Normalmente podemos hacer clic en "Seleccionar todos los subelementos" en el panel "Consejos de acción", pero en ciertas circunstancias (como este caso), Octoparse no puede hacer eso. Por lo tanto, crearemos un bucle al principio y seleccionaremos los datos de cada bloque para extraerlos manualmente en el siguiente paso.

 

4.gif

5) Extraer datos - seleccione los datos que necesita raspar

  • Haga clic en el campo de datos
  • Haga clic en "Eliminar campo de datos"
  • Haga clic en "Sí"
  • Haga clic en los datos que necesita en el bloque de elementos que está resaltado en rojo.
  • Haga clic en "Extraer texto del elemento seleccionado" y cambie el nombre de la columna "Nombre del campo" si es necesario.

Cambie el nombre de los campos seleccionando de la lista predefinida o ingresando por su cuenta.

  • Haga clic en "Aceptar" para guardar el resultado.

5.gif

 

 

¡Consejos!

Google aplica técnicas sensibles anti-bot. Si Google detecta demasiadas solicitudes de una sola dirección IP en un período de tiempo específico, CAPTCHA aparecerá y detendrá todo el rastreo. Por lo tanto, podríamos configurar "wait before execution" como segundos "Random" para algunos pasos para simular comportamientos de navegación humana. En este caso, es posible que Google no identifique al rastreador como un robot, y podríamos obtener información con fluidez.

 

 

6) Ejecutar extracción - ejecute su tarea y obtenga datos

  • Haga clic en "iniciar extracción"
  • Seleccione "Extracción local" para ejecutar la tarea en su computadora

6.gif

 

Aquí está la muestra de salida:

output.png

 

 

 

¡Descargue Octoparse para iniciar el web scraping o contáctenos para cualquier
pregunta sobre el extracción de datos!

Contáctenos Descargarse