Blog > Web Scraping > Poste

Cómo Construir Un Web Rastreador (Crawler) Desde Cero: Una Guía para Principiantes

Monday, January 20, 2020

Como novato, construí un web scraping y extraje con éxito 20k datos del sitio web de Amazon Career. ¿Cómo puede configurar un rastreador y crear una base de datos que eventualmente se convierta en su activo sin costo? Vamos a sumergirnos en eso.

 

octoparse_getdata

 

¿Qué es el rastreador web?

 

Un rastreador web es un bot de Internet que indexa el contenido de un sitio web en Internet. Luego extrae la información y los datos del objetivo automáticamente. Como resultado, exporta los datos en un formato estructurado (lista/tabla/base de datos).

 

¿Por qué necesita un rastreador web, especialmente para empresas?

 

Imagina que la Búsqueda de Google no existe. ¿Cuánto tiempo le llevará obtener la receta de nuggets de pollo sin escribir la palabra clave? Hay 2.5 quintillones de bytes de datos creados cada día. Dicho esto, sin la Búsqueda de Google, es imposible encontrar la información.

webscraping

 

En Hackernoon de Ethan Jarrell

 

Google Search es un rastreador web único que indexa los sitios web y encuentra la página para nosotros. Además del motor de búsqueda, puede crear un rastreador web para ayudarlo a lograr:

 

1. Agregación de contenido:  Funciona para recopilar información sobre temas específicos de diversos recursos en una sola plataforma. Como tal, es necesario rastrear sitios web populares para alimentar datos o información a su plataforma a tiempo.

2. Análisis de sentimientos: También se llama minería de opinión. Como su nombre lo indica, es el proceso de analizar las actitudes públicas hacia un producto y servicio. Requiere un conjunto monotónico de datos para evaluar con precisión. Un rastreador web puede extraer tweets, reseñas y comentarios para su análisis.

3. Generación de lead:  Todo negocio necesita leads de ventas, así sobreviven y prosperan. Supongamos que planea hacer una campaña de marketing dirigida a una industria específica. Puede raspar el correo electrónico, el número de teléfono y los perfiles públicos de un expositor o una lista de asistentes a Ferias Comerciales, como los asistentes a la Cumbre de Reclutamiento Legal 2018.

 

¿Cómo construir un rastreador web como principiante?

  

A. Scraping con un lenguaje de programación

La programación en lenguajes de computadora es utilizada principalmente por los programadores. Aquí hay un ejemplo de un fragmento de código bot.

 

pythonwithbeautifulsoup

 From Kashif Aziz

 

El web scraping con Python implica tres pasos principales:

1. Envíe una solicitud HTTP a la URL de la página web. Responde a su solicitud devolviendo el contenido de las páginas web.

2. Analice la página web. Un analizador creará una estructura de árbol del HTML a medida que las páginas web se entrelazan y se anidan juntas. Una estructura de árbol ayudará al bot a seguir los caminos que creamos y navegar para obtener la información.

3. Usando la biblioteca de Python para buscar el árbol de análisis.

Entre los lenguajes de computadora para web scraping, Python es fácil de aprender en comparación con PHP y Java. Pero todavía tiene una curva de aprendizaje empinada que impide que muchos profesionales no tecnológicos la utilicen. Aunque es una solución económica para escribir la suya, pero extender el ciclo de aprendizaje en un período de tiempo limitado no es una solución a largo plazo.

 

 

Sin embargo, hay una trucos! ¿Qué pasa si hay un método que puede obtener los mismos resultados sin escribir una sola línea de código?

 

B. La herramienta de web scraping es útil como una gran alternativa.

Hay muchas opciones, pero yo uso Octoparse. Volvamos a la página web de Amazon Career como ejemplo:

  

Objetivo: Crear un rastreador para extraer información trabajo administrativas, incluido el título del trabajo, ID del trabajo, descripción, calificación básica, calificación preferida y URL de la página.

 

URL: https://www.amazon.jobs/en/job_categories/administrative-support

 

 

1. Abra Octoparse y seleccione "Modo avanzado". Ingrese la URL anterior para configurar una nueva tarea.

2. Como es de esperar, los listados de trabajo incluyen páginas de detalles que se extienden a varias páginas. Como tal, necesitamos configurar la paginación para que el rastreador pueda navegar. Para ello, haga clic en el botón "Página siguiente" y elija "Buscar, haga clic en un botón" en el Panel de sugerencias de acción

3. Como queremos hacer clic en cada listado, necesitamos crear un elemento de bucle. Para hacer esto, haga clic en una lista de trabajos. Octoparse hará su magia e identificará todos los otros listados de trabajo de la página. Elija el comando "Seleccionar todo" en el Panel de sugerencias de acción, luego elija el comando "Hacer clic en cada elemento en bucle".

 

4. Ahora, en la página de detalles y necesitamos decirle al rastreador que obtenga los datos. En este caso, haga clic en "Job Title" y seleccione el comando "Extract the text of the selected element" del Panel de sugerencias de acción. De la siguiente manera, repita este paso y obtenga "Job ID", "Descripción", "Calificación básica", "Preferred Qualification" y URL de la página.

5. Una vez que termine de configurar los campos de extracción, haga clic en "Iniciar extracción" para ejecutar.

 

 

 

Sin embargo, eso no es todo!

Para el software SaaS, se requiere que los nuevos usuarios tomen una cantidad considerable de capacitación antes de disfrutar plenamente de los beneficios. Para eliminar las dificultades de configuración y uso. Octoparse agrega "Task Templates" que cubren más de 30 sitios web para que los principiantes se sientan cómodos con el software. Permiten a los usuarios capturar los datos sin configuración de tareas.

 

A medida que gane confianza, puede usar el Wizard Mode para construir su rastreador. Tiene guías paso a paso para facilitarle el desarrollo de su tarea. Para los expertos con experiencia, el "Advance Mode" debería poder extraer el volumen de datos de la planforma. Octoparse también proporciona ricos materiales de capacitación para que usted y sus empleados obtengan la mayor parte del función de software.

 

 

Pensamientos finales

 

Escribir guiones puede ser dificil ya que tiene altos costos iniciales y de mantenimiento. Ninguna página web es idéntica, si necesita rastrear muchos sitios web, es imposible para nosotros escribir un script para cada sitio web, este no es un método sostenible. Además, los sitios web probablemente cambien su diseño y estructura. Entonces, tenemos que depurar y ajustar el rastreador en consecuencia. La herramienta de web scraping es más práctica para la extracción de datos a nivel empresarial con menos esfuerzos y costos.

 

webscrapingtool_python

 

Considere que puede tener dificultades para encontrar una herramienta de raspado web, he compilado una lista de los rastreadores más populares. ¡Este video puede guiarlo para obtener su dispositivo que se adapte a sus necesidades! Siéntase libre de aprovecharlo.

 

 

 

 

 

¡Descargue Octoparse para iniciar el web scraping o contáctenos para cualquier pregunta sobre el extracción de datos!

Contáctenos Descargarse