undefined

Step-by-step tutorials for you to get started with web scraping

Download Octoparse

Cómo y cuándo usar la Expresión Regular en Octoparse: una guía para principiantes

Thursday, April 16, 2020

Si eres totalmente nuevo en la expresión regular, entonces este tutorial podría ayudarte, con él puede capturar datos con precisión y operarlos y usarlos tan rápido como un experto.


1. Recoja la información que necesita de una cadena de texto (Coincidencia con expresión regular)

Si desea que los datos comiencen/terminen con una cadena fija, sería especialmente fácil recogerlos con la herramienta Octoparse RegEx. A continuación se presentan dos de los casos de uso más comunes.

  • Recoge URLs de HTML

 

Como sabes, la mayoría de las URL se ven muy similares. Una URL típica podría tener el formulario compartido, es decir, comienza con "https" y termina con ".com" o ".html". Y a veces puede encontrar que las URL que desea no tienen un formulario compartido, sino que son seguidas por la misma cadena.

Paso 1. Identifique el patrón de las URL que desea

Según el código fuente, aunque todas las URL comienzan con "https", no tienen el mismo final. Afortunadamente, les sigue el mismo atributo "hreflang", que podría usarse como la cadena final compartida.

 

 

Paso 2. Completa los parámetros según el patrón que hayas encontrado

url.gif

  • Recoge la información "oculta" de HTML

Puede usar la misma manera para obtener los datos "ocultos detrás" de HTML, como la calificación de estrellas.  Cuando extrae el HTML de un elemento en la página, obtendrá el marcado HTML contenido dentro del elemento. Calcule la forma compartida de los datos que desea, y luego puede pedirle a Octoparse RegEx Tool que haga el trabajo más duro (escriba la expresión regular correcta)

 

 

 ¡Consejos!

 Para saber más sobre la extracción de HTML, consulte Extraer datos del código fuente 

 

 

2. Eliminar la información no deseada de un texto extenso (Reemplazar con expresión regular)

  • Eliminar espacios no deseados


En la mayoría de los casos, puede simplemente sentarse y dejar el trabajo de escritura a Octoparse RegEx Tool. Pero a veces será más fácil y rápido rellenando directamente los caracteres abreviados. A continuación se muestran algunos de los caracteres más utilizados en Octoparse.

Personaje

Significado

\s

Coincide con un solo carácter de espacio en blanco, incluido espacio, tabulación, avance de formulario, avance de línea y otros espacios Unicode.

\S

Coincide con un solo carácter que no sea el espacio en blanco.

\t

Coincide con una pestaña horizontal.

\n

Coincide con un salto de línea.

 

Aquí hay un ejemplo para mostrar cómo eliminar los espacios no deseados con "\ s".

s_.gif

 

 ¡Consejos!

Para obtener más información sobre Expresión regular, consulte la referencia de JavaRegExpCScript 

 

 

Artículos relacionados:

  1. Utilice expresiones regulares en Octoparse 
  2. Formatear datos extraídos 
  3. Extraer datos del código fuente 

 

Download Octoparse to start web scraping or contact us for any
question about web scraping!

Contact Us Download
Usamos cookies para mejorar tu experiencia de navegación. Lee sobre cómo usamos las cookies y cómo puedes controlarlas haciendo clic en la configuración de cookies. Si continúas utilizando este sitio, acepta nuestro uso de cookies.
Aceptar Rechazar