Blog > Web Scraping > Poste

Antes de Scraping Facebook 5 Cosas que Debes Saber

Sunday, January 05, 2020

 

 1. En realidad, Facebook no permite ningún web scraper, de acuerdo con su robots.txt file

Cuando planee scraping una web, siempre debe verificar primero su Robots.txt es un archivo utilizado por los sitios web para que los "bots" sepan si el sitio debe scrape e indexado. Puede acceder al archivo agregando "/robots.txt" al final del enlace a su sitio web de destino.

Ingrese https://www.facebook.com/robots.txt en su navegador y revisemos el archivo de robots de Facebook. Estas dos líneas se pueden encontrar al final del archivo:

Las líneas indican que Facebook prohíbe todos los scrapers automáticos. Es decir, ninguna parte del sitio web debe ser visitada por un web scraper automático.

 

¿Por qué debemos respetar el archivo robots.txt?

Los sitios web usan el archivo de robots para especificar un conjunto de reglas sobre cómo usted o un robot deben interactuar con ellos. Cuando un sitio web bloquea todo el acceso a los web scrapers, la mejor manera es no visitar esos sitios. Seguir el archivo de robots es evitar la recopilación de datos poco éticos, así como cualquier ramificación legal.

 

 

2. Técnicamente, la única forma legal de recopilar datos de Facebook con un web spider es obtener un permiso previo por escrito

 

Facebook advierte al comienzo de su archivos de robots: "El web spider de Facebook está prohibido a menos que tenga un permiso expreso por escrito".

 

 

Consulte el enlace en la segunda línea, puede encontrar Automated Data Collection Terms de Facebook, revisados por última vez el 15 de abril de 2010.

 

Al igual que cualquier otro término y condición en el mundo, los Términos de recopilación automatizada de datos de Facebook son largos (en un tamaño de fuente anormalmente pequeño) y están llenos de términos legales que pocas personas podrían entender completamente.

 

Estos términos parecen muy familiares, ya que los veríamos cada vez que instalemos una nueva aplicación en nuestro teléfono móvil o nos registremos en un sitio web.

  • "Al obtener el permiso para ... usted acepta cumplir ..."
  • "Estás de acuerdo en que no ..."
  • "Usted acepta que cualquier violación de estos términos puede resultar en ..."

 

Pero no son ingenuos, como gigante de las redes sociales, Facebook tiene dinero, tiempo y un equipo legal dedicado. Si procedes a scrape Facebook ignorando sus Términos de recopilación de datos automatizados, pero solo ten en cuenta que te han recordado al menos que obtengas un "permiso por escrito". A veces pueden ser bastante agresivos hacia el raspado ilegítimo.

Si rastrea Facebook ignorando los "Términos de recopilación de datos automatizados" de Facebook, tenga en cuenta que se les recuerda que obtengan al menos un "permiso por escrito". A veces, pueden scrape muy proactivos ilegal.

 

 

3. Pero seguramente todavía puede scrape datos de Facebook cuando lo necesite

 

Si ha terminado de scrape sin respetar el archivo robots.txt, no significa que tenga complicaciones legales porque ha violado las reglas.

Los datos extraídos de las redes sociales son, sin duda, el conjunto de datos más grande y dinámico sobre el comportamiento humano y los eventos del mundo real. Durante más de una década, investigadores y expertos en negocios de todo el mundo han recolectado información de Facebook utilizando crawler, produciendo muestras representativas para comprender a individuos, grupos y la sociedad, así como explorando nuevas oportunidades ocultas en los datos.

 

 

Herramientas que podrías usar para obtener datos de Facebook

En respuesta a la protesta pública tras el escándalo de Cambridge Analytica, Facebook implementó restricciones de acceso dramáticas en sus API en abril del año pasado.

Las interfaces de programación de aplicaciones (API) son interfaces de software diseñadas para el consumo de programas informáticos, que permiten a las personas recuperar datos a gran escala con procesos automatizados. Hoy en día, muchas compañías proporcionan una API pública como medio para que los usuarios, investigadores y desarrolladores de aplicaciones de terceros accedan a su infraestructura. 

El bloqueo de API de Facebook y las restricciones radicales de acceso a datos como un intento de proteger su información de usuario son bastante discutiblesuite. Pero aún así, como resultado, ahora las personas solo tienen una opción.

Sin API, ahora solo podríamos obtener datos de Facebook a través de las interfaces para los usuarios, es decir, las páginas web. Esto es exactamente cuando web scrapers entran en juego. Hemos escrito un blog sobre algunas de las mejores herramientas de scraping de redes sociales. 👉 Consulte nuestro artículo Las 5 mejores herramientas de desguace de redes sociales para 2018

 

 

4. Sin embargo, después de la vigencia del GDPR, hay más posibilidades de ser demandado si está tratando de scrape datos personales

 

El Reglamento General de Protección de Datos de la UE, o GDPR, como se lo conoce más comúnmente, entró en vigencia el 25 de mayo de 2018. Se dice que es el cambio más importante en la regulación de la privacidad de datos en 20 años, estableciendo forzar cambios radicales en todo, desde la tecnología a la publicidad y medicina a la banca.

Las empresas u organizaciones que almacenan y procesan grandes cantidades de datos de los consumidores, como empresas de tecnología como Facebook, son las más afectadas por el GDPR. Antes, todo dependía de estas compañías hacer cumplir las reglas para proteger los datos de los usuarios. Ahora, bajo el GDPR, deben asegurarse de cumplir plenamente con la ley.

 

 

La buena noticia es…

El GDPR solo se aplica a los datos personales.

Aquí "datos personales" se refiere a los datos que podrían usarse para identificar directa o indirectamente a un individuo específico. Este tipo de información se conoce como información de identificación personal (PII), que incluye el nombre de una persona, dirección física, dirección de correo electrónico, número de teléfono, dirección IP, fecha de nacimiento, información de empleo e incluso grabación de video/audio.

 

Si no está raspando datos personales, entonces GDPR no se aplica.

En resumen, a menos que hay el consentimiento explícito, ahora es ilegal raspar los datos personales de un residente de la UE bajo GDPR.

 

 


5. Y puedes probar fuentes alternativas de Facebook para tu proyecto de scrape

 

Como se mencionó anteriormente, aunque Facebook prohíbe todos los scrapers automáticos, todavía es técnicamente factible extraer datos del sitio. El problema es -

Es arriesgado.

 

Además de las ramificaciones legales, podría encontrar que puede ser más difícil recuperar los datos deseados de forma regular, ya que Facebook bloquea direcciones IP sospechosas e incluso podría implementar mecanismos de bloqueo más difíciles en el futuro, lo que puede hacer que el scraping de datos del sitio sea totalmente imposible.

Por lo tanto, se recomienda buscar fuentes más confiables de datos de redes sociales para obtener inteligencia comercial y conocimientos sobre su mercado objetivo.

 

 

Cuatro fuentes de datos alternativas a Facebook

 

  • Twitter

 

 

Con aproximadamente 500 millones de tweets generados por día, Twitter es un mar de información que se puede utilizar como una gran fuente para el monitoreo de la marca y la medición del sentimiento del cliente. A diferencia de Facebook, Twitter permite a las personas recuperar datos a gran escala a través de las Twitter's APIs.

[Lectura adicional: scrape]

 

  • Reddit

 

Con tantos usuarios como Twitter, Reddit es una de las mayores fuentes de UGC (Contenido generado por usuarios) en el mundo. Reddit también proporciona API públicas que se pueden usar para una variedad de propósitos, como la recopilación de datos, los bots de comentarios automáticos o incluso ayudar en la moderación de subreddit.

 

  • VKontakte (VK)

 

VK es una plataforma rusa de redes sociales dirigida a los rusos y otros usuarios de Europa del Este. Con mucho, cuenta con más de 90 millones de visitantes únicos por mes y 9 mil millones de visitas a la página todos los días. Como empresa rusa, VK se adhiere a las leyes rusas, y si revisa su archivo de robots, encontrará que es bastante amigable con los web scrapers.

 

  • Instagram

 

Owned by Facebook, Instagram focuses more on visual content sharing, especially videos and pictures. The platform is used by many brands to humanize their content for better connecting customers and growing brand awareness. Alongside Facebook’s data lockdown last year, however, Instagram has also implemented radical restrictions on data access, which made the site much less reliable than before. 

 

 

 

 

¡Descargue Octoparse para iniciar el web scraping o contáctenos para cualquier pregunta sobre el extracción de datos!

Contáctenos Descargarse