Scrape los resultados de búsqueda de Google Scholar

En este tutorial, te mostraremos cómo extraer resultados de búsqueda de Google Scholar.

Además, la plantilla de Google Scholar ya está disponible en nuestra última versión, puedes consultar: Plantillas de Tarea. ¡Solo necesitas ingresar la palabra clave para obtener los datos extraídos en unos minutos!

Si quieres crear el rastreador desde cero, tomamos esta URL como ejemplo en este tutorial:

https://scholar.google.com/ncr

Recogeremos datos como el título, el autor, la descripción y otra información relacionada de cada página de resultados de búsqueda con Octoparse.

Estos son los pasos principales de este tutorial: [Descargar archivo de tareas aquí ]

1. "Ir a la Página Web" - abrir la página web de destino

Introduce la URL de ejemplo y haz clic en "Iniciar"

2. Crear un "Elemento de Bucle"- introducir las palabras clave de búsqueda en bucle

Podemos personalizar nuestra "lista de texto" para crear una acción de búsqueda en bucle. Octoparse ingresará automáticamente todas las palabras clave de la lista en el cuadro de búsqueda, una línea cada vez.

Agrega un "Elemento de bucle" en el flujo de trabajo haciendo clic en

Haz doble clic en el "Elemento de Bucle" para ir al panel de configuración
Ve al modo de bucle y selecciona "Lista de texto"
Haz clic en

para ingresar a la lista de palabras clave con una palabra clave por cada línea. Aquí ingresaremos "data mining" y "big data"
Haz clic en "Aceptar" para confirmar

Haz clic en el cuadro de búsqueda en la página web.
Selecciona "Ingresar texto" en el panel "Tips".
Haz clic en "Confirmar"

Arrastra la acción "Ingresar Texto" al "Elemento de Bucle".
Haz doble clic en la acción "Introducir Texto".
Selecciona "Usar texto en el bucle para ingresar el cuadro de texto"
Haz clic en Aceptar"

Tips!

Podemos verificar si los pasos están configurados correctamente haciendo clic en "Elemento de bucle" y luego en "Ingresar texto" en el flujo de trabajo para ver si el texto se ingresará en la página web.

Haz clic en el botón de búsqueda de la página web.
Selecciona el "Hacer Clic en el Elemento" en el panel de Tips y verás que la acción "Hacer clic en Elemento" se agrega al flujo de trabajo.
Haz clic en abrir la configuración del "Hacer Clic en el Elemento" y selecciona la opción "Abrir en una pestaña nueva"

3. Detectar automáticamente la página de resultados de búsqueda para extraer datos

Haz clic en "Detectar automáticamente los datos de la página web" y espera a que se complete

Cambia el nombre de los campos o elimina los que no desees en la "Vista Previa de Datos"

Haz clic en "Crear flujo de trabajo".

4. Configura el tiempo de espera para reducir la velocidad de raspado

Google Scholar aplica una técnica anti-raspado y te mostraría reCAPTCHA para resolver. Necesitamos ralentizar el raspado estableciendo el tiempo de espera.

Haz doble clic en la acción Extraer datos
Marca "Esperar antes de la acción"
Selecciona el tiempo de espera como 1s-3s

5. Ejecutar la extracción - ejecuta tu tarea y obtener datos

Haz clic en Guardar"
Haz clic en "Ejecutar" en la parte superior izquierda
Selecciona "Run task on your device" para ejecutar la tarea en tu computadora, o selecciona"Run task in the cloud" para ejecutar la tarea en la nube (solo para usuarios de plan premium)

Aquí tienes una muestra de datos.