Todas las colecciones
Tutorial de Casos
Motor de Búsqueda
Scrape los resultados de búsqueda de Google Scholar
Scrape los resultados de búsqueda de Google Scholar
Actualizado hace más de una semana

En este tutorial, te mostraremos cómo extraer resultados de búsqueda de Google Scholar.

Además, la plantilla de Google Scholar ya está disponible en nuestra última versión, puedes consultar: Plantillas de Tarea. ¡Solo necesitas ingresar la palabra clave para obtener los datos extraídos en unos minutos!

mceclip0.png

Si quieres crear el rastreador desde cero, tomamos esta URL como ejemplo en este tutorial:

Recogeremos datos como el título, el autor, la descripción y otra información relacionada de cada página de resultados de búsqueda con Octoparse.

Estos son los pasos principales de este tutorial: [Descargar archivo de tareas aquí ]

1. "Ir a la Página Web" - abrir la página web de destino

  • Introduce la URL de ejemplo y haz clic en "Iniciar"

mceclip1.png

2. Crear un "Elemento de Bucle"- introducir las palabras clave de búsqueda en bucle

Podemos personalizar nuestra "lista de texto" para crear una acción de búsqueda en bucle. Octoparse ingresará automáticamente todas las palabras clave de la lista en el cuadro de búsqueda, una línea cada vez.

  • Agrega un "Elemento de bucle" en el flujo de trabajo haciendo clic en

    mceclip0x2.png
2.1.gif
  • Haz doble clic en el "Elemento de Bucle" para ir al panel de configuración

  • Ve al modo de bucle y selecciona "Lista de texto"

  • Haz clic en

    mceclip1x2.png

    para ingresar a la lista de palabras clave con una palabra clave por cada línea. Aquí ingresaremos "data mining" y "big data"

  • Haz clic en "Aceptar" para confirmar

2.2.gif
  • Haz clic en el cuadro de búsqueda en la página web.

  • Selecciona "Ingresar texto" en el panel "Tips".

  • Haz clic en "Confirmar"

2.3.gif
  • Arrastra la acción "Ingresar Texto" al "Elemento de Bucle".

  • Haz doble clic en la acción "Introducir Texto".

  • Selecciona "Usar texto en el bucle para ingresar el cuadro de texto"

  • Haz clic en Aceptar"

2.4.gif

Tips!

Podemos verificar si los pasos están configurados correctamente haciendo clic en "Elemento de bucle" y luego en "Ingresar texto" en el flujo de trabajo para ver si el texto se ingresará en la página web.

2.5.gif
  • Haz clic en el botón de búsqueda de la página web.

  • Selecciona el "Hacer Clic en el Elemento" en el panel de Tips y verás que la acción "Hacer clic en Elemento" se agrega al flujo de trabajo.

  • Haz clic en abrir la configuración del "Hacer Clic en el Elemento" y selecciona la opción "Abrir en una pestaña nueva"

2.6.gif

3. Detectar automáticamente la página de resultados de búsqueda para extraer datos

  • Haz clic en "Detectar automáticamente los datos de la página web" y espera a que se complete

3.2.gif
  • Cambia el nombre de los campos o elimina los que no desees en la "Vista Previa de Datos"

3.2.png
  • Haz clic en "Crear flujo de trabajo".

3.3.png

4. Configura el tiempo de espera para reducir la velocidad de raspado

Google Scholar aplica una técnica anti-raspado y te mostraría reCAPTCHA para resolver. Necesitamos ralentizar el raspado estableciendo el tiempo de espera.

  • Haz doble clic en la acción Extraer datos

  • Marca "Esperar antes de la acción"

  • Selecciona el tiempo de espera como 1s-3s

4.1.gif

5. Ejecutar la extracción - ejecuta tu tarea y obtener datos

  • Haz clic en Guardar"

  • Haz clic en "Ejecutar" en la parte superior izquierda

  • Selecciona "Run task on your device" para ejecutar la tarea en tu computadora, o selecciona"Run task in the cloud" para ejecutar la tarea en la nube (solo para usuarios de plan premium)

6.png

Aquí tienes una muestra de datos.

mceclip2.png
¿Ha quedado contestada tu pregunta?