¿Puedo extraer correos electrónicos o números de teléfono de sitios web?

Con Octoparse puede extraer fácilmente correos electrónicos y números de teléfono de páginas web con el mismo diseño de página/similar. La extracción de correos electrónicos/números de teléfono se puede hacer fácilmente configurando una tarea en nuestra app.

 

 

¿Qué tipo de correos electrónicos o números de teléfono extrae Octoparse?

Cuando Octoparse extrae datos, en realidad analiza y recoge el contenido del código fuente. Por lo tanto, Octoparse puede capturar con éxito correos electrónicos o números de teléfono en formato de texto.

p.ej. cuando extraemos "Krishnam Bio-tech", Octoparse realmente captura el texto entre los atributos <span>, donde <span> captura el texto.

 

Algunos sitios web pueden usar medidas anti-scraping y cifrar el correo electrónico o los números de teléfono en una imagen u otros formatos que no sean de texto. (Pero parece un formato de texto en la página web). En este caso, Octoparse no puede extraerlos de imágenes o decodificarlos en formato de texto.

 

 

¿Cómo funciona Octoparse para la extracción de correos electrónicos o números de teléfono?

Para capturar el correo electrónico o los números de teléfono que busca, primero deberá especificar su ubicación haciendo clic directamente en las distintas piezas de información.

p.ej. Tome yellowpages.com como ejemplo. Para extraer correos electrónicos y números de teléfono, debe hacer clic y seleccionarlos para especificar sus posición en la página web.

(Echa un vistazo al tutorial completo de scraping yellowpages.com )

 

Haga clic en el correo electrónico y los números de teléfono, y luego seleccione "Extract text of the selected elemento".

Cuando los datos se seleccionan correctamente, la selección se resaltará en verde.

Cuando se combina con otras técnicas como la paginación, puede lograr el scraping de datos en toda la categoría o sitio web.

(Comience con nuestras lecciones introductorias  )