Blog > Colleccíon de datos > Poste

Scraping el Comité de Trabajo de la Compañía Fortune 500

Thursday, May 21, 2020

Creo que está de acuerdo conmigo en que Linkedin tiene mucho éxito en agregar trabajos y motivar a profesionales. Más que todas las otras plataformas de reclutamiento combinadas, es más probable que los reclutadores busquen candidatos en Linkedin.

 

Ese es un hecho cierto de que quien posee los datos y recursos de buscadores de trabajo tendrán un mercado multimillonario.
De hecho, Monster, Ziprecruiter lo sabe. Incluso Google comenzó a compartir el pastel del mercado laboral en 2017.

 

Las empresas siguen gastando dinero para encontrar los candidatos que se ajusten a los trabajos adecuados. Como resultado, todavía tenemos un gran potencial para explorar los mercados laborales.

 

En este artículo, lo guiaré a través de todo el viaje de la construcción de un sitio web de bolsa de trabajo de Fortune 500 desde la zona cero. Además, analizaré el modelo comercial de Linkedin para impulsar su negocio.

 

 

Un sitio web de bolsa de trabajo funciona como un agente de medios para unir a los candidatos correctos con posibles empresas. Los empleadores pagan para publicar listados de trabajo en el sitio, y los solicitantes de empleo envían hojas de vida y cartas de presentación a las empresas interesadas. La calidad y cantidad de los listados de trabajo son, por lo tanto, cruciales para que sus sitios web sobrevivan. Hay dos enfoques que puede aumentar el volumen de listados en los sitios web de su bolsa de trabajo:

1. Scrape los listados de trabajo de la sección de carrera de los sitios web de las empresas

2. Scrape de los motores de búsqueda de listados de trabajo, como Indeed y Monster.com

 

 

Primer Enfoque:

Debido a que cada compañía tiene su sitio web, necesitamos construir una araña(spider) para todos ellos. Un método tradicional es escribir python con Beautiful Soup. Conduce a un alto costo inicial y costo de mantenimiento. Necesitamos escribir un script individual para cada compañía debido a que cada sitio web tiene un diseño único. Además, el sitio probablemente cambiará su estructura web. Como tal, tenemos que reescribir el guión y construir una nueva araña para scrape el website. Además, hay tantos sitios web que solo serían realizados por una tropa de expertos en tecnología para que su sitio web sea sostenible. El alto costo marginal de agregar una mano de obra más es insostenible para las empresas.

 

La herramienta de web scraping es útil como la alternativa más efectiva con un costo mucho menor. Nos permite automatizar todo el proceso de raspado sin escribir un script. Octoparse se destaca como la mejor herramienta de web scraping. Permitirá tanto a los principiantes como a los expertos en tecnología con experiencia extraer datos en la interfaz visualizada de clic

 

 

Como hay 500 sitios web, tomaré Facebook como ejemplo en este artículo. (Esta es la lista Fortune 500 de websites de las empresas, y bienvenidos a aprovechar al máximo).

 Facebookcareer

 

Como se puede inspeccionar, la página web contiene diez listados y se extiende a varias páginas. Haremos clic en cada listado de trabajo, extraeremos el título, la ubicación, la responsabilidad, los requisitos mínimos y preferidos de cada trabajo. Para una página web con una lista anidada (Lista que contiene una lista adicional) como esta podemos:

  • Recopile las primeras capas de URL de listado para acelerar el proceso de raspado, principalmente cuando el sitio web incluye un gran volumen de listados.
  • Configure un crawler automático para scrape páginas de detalles.

 

 

1. Una URL sigue un patrón consistente con un nombre de host fijo y una etiqueta de página al final. El número cambia en consecuencia a medida que paginas. Como tal, copiamos la URL de la primera página a una hoja de cálculo y la arrastramos hacia abajo para obtener una lista de las URL del sitio web.

 

pagelist

 

2. Luego configuramos un crawler con las URL de esta lista usando Octoparse.

Con el navegador incorporado, podemos extraer elementos de destino en la página web con un comando dado. En este caso, hacemos clic en una lista de trabajos dentro de la página y elegimos "Seleccionar Todo" para crear un elemento de bucle con todas las listas.

 

selectall

 

3. Luego elija "Loop Click Each Element" para pasar por cada página de detalles

4. Del mismo modo, seleccione extraer elementos, incluidos el título del trabajo, la ubicación, la responsabilidad, los requisitos mínimos y preferidos de la página de detalles. Debería poder obtener un listado de trabajo extraído como este DEMO_Facebook_Career_List

 

Siga la misma idea, y podemos crear tantos crawlers como necesite con Octoparse. Además, se minimiza el riesgo de un alto costo de mantenimiento. Puede establecer un programa de scraping y entregar una lista actualizada de trabajos a su base de datos a través del portal API.

 

 

Segundo Enfoque:

Los motores de búsqueda de empleo como Indeed y Monster.com proporcionan una cantidad considerable de listados de trabajo. Podemos obtener esa información de trabajo de compañías grandes y pequeñas con un web crawler. Por otro lado, no le da una ventaja competitiva si obtiene información de motores de búsqueda de empleo. La solución más accesible es encontrar un nicho. Podemos reducir el alcance a un grupo específico, no a una amplia gama de sitios web. Puede ser creativo en función de la oferta y la demanda. En este caso, scrape 10000 listados de trabajo y ubicaciones correlacionadas, y combínelos con mapas para ver la distribución geográfica de los trabajos de "ciencia de datos"

 

datascientist

 

 

Los puestos de ciencia de datos se agrupan predominantemente en áreas costeras con Seattle y Nueva York que poseen las más altas demandas. Con eso en mente, sería una excelente oportunidad para ayudar a más empresas tecnológicas a encontrar los candidatos adecuados a través de las comunidades locales de científicos de datos.


Tengo un video similar que enseña cómo scrape listados de trabajo.

 

 

¿Por qué tiene éxito Linkedin?

Linkedin es sofisticado en estrategias comerciales. Aquí hay cuatro factores inspirados por ellos que beneficiarían a su negocio en muchos niveles:

  • Encuentre al evangelista adecuado: Un comienzo inicial es invitar a "campeones" y líderes de la industria a evangelizar su sitio web. Estos campeones tienen el efecto carismático y pueden unir talentos y seguidores.

 

  • Comunidad de redes sociales: Los suscriptores tienen más valores comerciales una vez que se reúnen. La comunidad genera UGC (contenido generado por el usuario) para atraer a más usuarios de calidad para compartir sus ideas. Estos son los activos que aumentarán la competitividad. 

 

  • Credibilidad: El objetivo de websites de bolsa de trabajo es ayudarlos a aterrizar en sus carreras. Es un poco cliché decir "ayudar a otros a ayudarse a sí mismo", pero si desea que su negocio sea exitoso, esta es la mentalidad correcta.

¡Descargue Octoparse para iniciar el web scraping o contáctenos para cualquier pregunta sobre el extracción de datos!

Contáctenos Descargarse