
Llegó el momento de conocerlo todo sobre el selector XPath
por Eugenio Atencia
¿Cómo utilizar el selector Xpath para extraer elementos de una WEB?
¿Alguna vez has buscado en Google algo sobre XPath? Si es así, entonces has llegado al lugar correcto. En este artículo, te mostraremos todo lo que necesitas saber sobre XPath. Te explicaremos en detalle qué es XPath, para qué se usa y cómo puedes usarlo para mejorar tu trabajo.
Imagino que se has caído en este post significa que conoces qué es el selector Xpath y necesitas extraerlo de tu web, ¿pero sabes a la perfección de qué trata? ¡Te lo contamos!
¿Qué es XPath?
XPath es un lenguaje de programación que se utiliza para navegar y seleccionar partes específicas de un documento XML. Fue diseñado para proporcionar una forma sencilla de acceder a los elementos de un documento XML. XPath también se puede usar para crear expresiones más complejas que permiten recuperar información de un documento XML. Es rápido e intuitivo.
¿Para qué se usa el selector XPath?
XPath se usa para recuperar información de un documento XML. Puede usarse para recuperar todos los elementos de un documento XML, así como para seleccionar partes específicas de un documento. Además, XPath se puede usar para crear expresiones más complejas que permiten recuperar información de un documento XML.
XPath también se usa en otros ámbitos, como la extracción de datos web. Esta técnica se utiliza para extraer información de sitios web de forma rápida y sencilla. Esto se logra mediante el uso de expresiones XPath para seleccionar partes específicas de un documento HTML.
XPath Selector es un lenguaje que le permite procesar expresiones dentro de un documento XML, lo importante y poderoso de este lenguaje es que le permite seleccionar partes de un texto plano, algo muy parecido a como lo pueden hacer los selectores CSS.
XPath es un lenguaje muy útil para navegar a través de los elementos y atributos de un documento XML o HTML, ya que permite seleccionar elementos de forma precisa y eficiente. Sin embargo, para poder utilizarlo, es necesario saber cómo obtener un selector XPath. ¿Quieres aprender a extraerlo? ¡Vamos a ello!
Como crear una selección con un selector Xpath
Para ello, vamos a seguir con el ejemplo de nuestro anterior post donde aprendimos a hacer extracciones personalizadas con screaming frog, el cual teníamos el problema de que había productos sin imágenes.

El primer paso es inspeccionar el elemento donde tenemos la imagen rota y veremos lo siguiente con el navegador.

En segundo lugar, con la ayuda de una aplicación de componentes de chrome como es Xpath helper podemos inyectar código Xpath y ver si seleccionamos nuestra imagen como os muestro.

Por último, con la expresión //img[@alt=’Placeholder’], lo que hemos hecho es seleccionar la imagen que queremos. Para eso lo que hacemos es ver cuál es su atributo ALT y ponerlo como selector. ¡Y con esto ya tendremos nuestra expresión!
Para más información sobre expresiones Xpath las podéis ver aquí.
Ahora lo que queremos es saber qué productos son los que tienen las imágenes rotas. Para eso debemos hacer lo mismo, pero en el producto en cuestión para sacarlos todos en un solo documento. Para ello, entramos en el producto que tenemos la imagen rota y extraemos por Xpath la imagen como hemos visto. La expresión Xpath es la siguiente:
//img[@alt=»Esperando La Imagen De Producto»]
Pero eso dependerá como hemos visto del atributo único que tenga esa imagen. Ahora solo nos queda saber a producto es el que le falta la imagen y para eso es tan sencillo como sacar el title en nuestro caso. Porque en el atributo title de la imagen aparece el nombre del producto.
De esa forma sabemos qué producto es. Pero si por casualidad no estuviera el nombre del producto o necesitamos por ejemplo sacar el SKU o el H1 de ese producto deberemos tener 2 extractores para nuestra extracción personalizada.
¿Cómo utilizar el selector Xpath en Screaming Frog para extracciones personalizadas?
Como ya sabemos cuál es el selector que necesitamos; //img[@alt=»Esperando La Imagen De Producto»]/@title. Ahora solo debemos crear el extractor.
Le damos a +añadir y solo debemos poner un nombre a nuestra selección y poner nuestra expresión personalizada. Le damos a aceptar y comprobamos la magia haciendo una búsqueda del dominio entero sin restricciones. Por último nos desplazamos a la pestaña de extracción personalizada y vemos las que hemos sacado.
Ahora solo debemos extraer esos datos a un excel y empezar a trabajar con ellos para solucionar el problema.
Espero que os haya parecido interesante y os haya solucionado vuestro problema. Nos vemos en el próximo.