undefined

Step-by-step tutorials for you to get started with web scraping

Download Octoparse

Extracción de información de video de Youtube

Tuesday, February 18, 2020

 

En este tutorial, le mostraremos cómo extraer información de video de Youtube. Además, la plantilla de Youtube lista para usar se ha insertado en nuestra última versión, puede consultarla aquí: Plantillas de Tareas.

 

Si desea construir el scraping desde cero, es posible que desee utilizar la URL en este tutorial: https://www.youtube.com

 

Estos son los pasos de este tutorial: [Descargue el archivo de tarea Aquí]

 

    1."Ir a la página web": para abrir la página web de destino

    2. Cree un "elemento de bucle": para ingresar en bucle las palabras clave de búsqueda

    3. Tratar con el voluta infinite

    4.Cree un "Elemento de bucle" para extraer cada elemento en bucle

    5.Extraer datos: para seleccionar los datos que necesita scraping

    6.Extracción de ejecución: para ejecutar su tarea y obtener datos

 

 

 

 1)"Ir a la página web" - para abrir la página web objetivo

  • Haga clic en "+ Tarea" para comenzar una nueva tarea con el Modo avanzado
  • Pegue la URL en el cuadro "URL de entrada"
  • Haga clic en "Guardar URL" para continuar

 

 

 

 

 

2)Cree un "elemento de bucle": para ingresar en bucle las palabras clave de búsqueda

 

Podemos personalizar nuestra "lista de texto" para crear una acción de búsqueda de bucle. Octoparse ingresará automáticamente cada palabra clave en la lista.

 

  • Coloque una acción de "elemento de bucle" en el diseñador de flujo.
  • Vaya al modo de bucle y seleccione "Lista de texto"
  • Haga clic en "a" para ingresar una lista de palabras clave, una para cada línea. Aquí ingresaremos "big data" y "machine learning"
  • Haga clic en "OK" cuando termine de ingresar. Luego puede ver sus palabras clave en el "Elemento de bucle"
  • Haga clic en el cuadro de búsqueda en la página en el navegador incorporado y seleccione "Introducir texto" en "Consejos de acción"

 

Cuando hace clic en el campo de entrada en el navegador incorporado, Octoparse puede detectar que selecciona un cuadro de búsqueda, la acción "Introducir texto" aparecerá automáticamente en "Consejos de acción".

 

  • Ingrese la primera palabra clave "Big Data" en "Consejos de acción"
  • Haga clic en "Aceptar", luego se generará la acción "Introducir texto".
  • Arrastre la acción "Introducir texto" al "Elemento de bucle. Haga clic en la acción" Introducir texto "

 

Vaya a "Texto de bucle" y seleccione "Usar el elemento de texto en bucle para completar el cuadro de texto" y haga clic en "Aceptar" para guardar.

 

  • Haga clic en el botón de búsqueda de la página y seleccione "Botón de clic" en "Consejos de acción", notará que la acción "Hacer clic en elemento" se agrega al flujo de trabajo.

 

 

 

 

 

 

 

 

 

3)Manejo del voluta infinite

En este caso, la paginación no es fuciona, tendremos que desplazarnos hacia la parte inferior de la página continuamente para cargar todo el contenido.

 

  • Marque "Desplácese hasta la parte inferior de la página cuando termine de cargar" en "Opciones avanzadas"
  • Establezca "Scroll times" e "Interna" que necesita
  • Seleccione "Desplazarse hacia abajo hasta la parte inferior de la página" como "Modo de desplazamiento"
  • Haga clic en el botón "Aceptar" para guardar el resultado.
 

 

¡Consejos!

 

  • Asegúrese de ingresar "Scroll times", de lo contrario, Octoparse no realizaría la acción de desplazamiento hacia abajo. Sugerimos que sea mejor establecer un valor relativamente más alto de "Scroll times" si necesita más datos.                                                                                                                              
  • La mayoría de los sitios web de redes sociales utilizan el desplazamiento hacia abajo para actualizar para ver más datos, haga clic aquí para obtener más información sobre: lidiar con el voluta infinite.

 

 

 

  

 4) Cree un "Elemento de bucle" para extraer cada elemento en bucle

Cuando crea una lista de elementos para web scraping, a veces la lista puede incluir elementos de "Anuncios". Para excluir el video promocional, podemos comenzar a construir el "Artículo de bucle" desde la segunda fila de los productos en esta página..

 

  • Seleccione el segundo bloque en el navegador incorporado

Necesitamos asegurarnos de que todo el bloque del primer elemento de video esté cubierto de azul cuando el mouse clik. Solo esto, podríamos ver que todo el bloque de elementos se resalta en verde después de hacer clic, cubriendo toda información como el título del video, el nombre del canal, el total de reseñas ... etc.

 

  • Haga clic en el tercer y cuarto elemento de video completo, hasta que Octoparse identifique todos los demás videos.

Octoparse reconocerá automáticamente los otros bloques y los resaltará en verde. (Si no, sigue haciendo clic en el siguiente hasta que todos estén seleccionados)

 

  • Haga clic en "Extraer texto del elemento seleccionado" en el panel "Consejos de acción".

¡Consejos!

 

  • Normalmente podemos hacer clic en "Seleccionar todos los subelementos" en el panel "Consejos de acción", pero en ciertas circunstancias (como este caso), Octoparse solo reconoce los subelementos en el segundo bloque, pero no lo hace en otros bloques. Por lo tanto, crearemos un bucle al principio y seleccionaremos los datos de cada bloque para extraerlos manualmente en el siguiente paso.

 

 

 

 

 

 

 

5) Extraer datos — para seleccionar los datos que necesita raspar

 

  • Haga clic en los datos que necesita en el bloque de elementos que está resaltado en rojo.
  • Haga clic en "Extraer texto del elemento seleccionado" y cambie el nombre de la columna "Nombre del campo" si es necesario.                    

Cambie el nombre de los campos

  • Haga clic en "OK" para guardar el resultado.

 

 

 

 

6) Ejecutar extracción: para ejecutar su tarea y obtener datos

 

  • Haga clic en "iniciar extracción"
  • Seleccione "extracción local" para ejecutar la tarea en su computadora

 

 

A continuación se muestra la muestra de salida:

 

 

¿Es el artículo útil?  No dude en informarnos si tiene alguna pregunta o necesita nuestra asistencia.

Contáctanos aquí  ! 

 

 

  

Download Octoparse to start web scraping or contact us for any
question about web scraping!

Contact Us Download
Usamos cookies para mejorar tu experiencia de navegación. Lee sobre cómo usamos las cookies y cómo puedes controlarlas haciendo clic en la configuración de cookies. Si continúas utilizando este sitio, acepta nuestro uso de cookies.
Aceptar Rechazar