logo
languageESdown
menu

Movie Crawler: Scraping más de 100,000 películas

3 min

Los datos de las películas registran las preferencias del público y su actitud hacia determinadas cosas. Recopilar la información de la película de sitios web relacionados, como IMDb y Rotten Tomatoes, contribuirá al análisis de datos y a la data mining en la industria cinematográfica. En términos generales, los datos extraídos se pueden emplear en algún escenario:

  • Analizar las características del público objetivo
  • Obtener opiniones públicas para predecir las próximas tendencias.
  • Ayudando a impulsar la Publicidad

 

Todavía hay más cosas que podemos hacer con los datos de la película según las necesidades. Para ayudarlo a completar la recopilación de datos, este artículo presentará cómo extraer la información de la lista de películas de terror de IMDb, incluida la información del director, el elenco de actores y otra información importante.

En este caso, le mostraré cómo extraer la información de la película de terror 134,555 de IMDb, usando el enlace:

https://www.imdb.com/search/title/?genres=horror&start=51&explore=title_type,genres&ref_=adv_nxt

El objetivo de este web scraper es encontrar películas que figuran en la lista de películas de terror, obtener información del director, el elenco de actores y otra información importante.

Antes de comenzar, descargue Octoparse en su computadora para realizar un seguimiento. Además, es muy recomendable aprender la lógica básica del uso de Octoparse.

 

¡Empecemos!

 

Paso 1: Abra el sitio web de destino en el navegador incorporado de Octoparse

Simplemente haga clic en “+ tarea” en el modo avanzado.

Advanced Mode

 

Luego, pegue la URL en el cuadro y haga clic en el botón “Save URL”.

Save URL

 

 

Paso 2: Haga clic para crear una tarea para scrape la información de la película

Después de abrir el URL en el navegador incorporado de Octoparse, podemos continuar creando una paginación y un elemento de bucle para obtener los datos.

Simplemente haga clic en el elemento “siguiente>>” en el navegador integrado y luego haga clic en “Hacer clic en el elemento seleccionado en bucle” en Action Tips.

Action Tips Penal

Podemos ver que la paginación se ha creado en el flujo de trabajo.

Pagination

 

 

Si desea que Octoparse reconozca el elemento que seleccionó con mayor precisión, simplemente puede revisar XPath. Como podemos ver en la imagen de abajo, el XPath que generó Octoparse es //DIV[@class=’nav’]/DIV[2]/A[2]. Será mejor que lo cambiemos a //a[contains(text(), “Next »”)].

 

XPath

En este caso, necesitamos extraer los datos de la lista de películas, que dice, podemos crear directamente un elemento de bucle para extraer los datos.

Seleccione uno de los “bloques” en el navegador, Octoparse puede detectar todos los campos de datos en el blog que seleccionó.

Click to select

 

Luego, seleccione“ Seleccionar todos los subelementos”.

Octoparse estaba selecciona todos los datos necesarios y los resalta en rojo. Seleccione “Select All” para continuar.

Click to select Info section

 

Finalmente, seleccionamos “Extraer datos en el bucle”.

Select the matching action

Ahora, tenemos tanto la paginación como el elemento de bucle hecho en Octoparse. Podemos ver el flujo de trabajo de la tarea en el lado izquierdo y los datos que se muestran en el lado derecho.

Data preview

 

 

Paso 3: Limpia los datos en Octoparse

Antes de extraer datos, es mejor que limpiemos los datos para mejorar nuestro resultado final. Simplemente necesita hacer clic para eliminar el campo no deseado y cambiar el nombre de la descripción que necesita

 

Paso 4: Extraer datos

Simplemente haga clic en “Extraer datos” para obtener los datos localmente.

Extract data

 

Como la extracción local utiliza sus propios recursos informáticos, como la CPU, la velocidad de Internet, funciona más lento que el uso de la extracción en la nube Octoparse.

De todos modos, después de crear el scraper, lo que debe hacer es esperar y obtener los datos, más de 100,000 líneas de datos de películas en aproximadamente 2 horas.

final result

 

En general, con el data scraping, podemos obtener datos de películas en línea sobre cualquier tema legal.

Aparte de los datos, lo más importante es la habilidad que aprendió, que es extremadamente útil para hacer la investigación de mercado, mantenerse actualizado y muchas otras cosas.

Posts populares

Explorar temas

Empiece a utilizar Octoparse enseguida

Descargar

Artículos relacionados