Parsing link reloaded

Tre anni fa ho scritto un articolo in tedesco con il titolo Backlinks gecheckt che riceve sorprendentemente ancora una notevole quantità di traffico. Devo ammettere che le informazioni sono già piuttosto vecchiotte e non rappresentano più una soluzione per diverse problematiche nel mondo attuale. Il parsing dei link con le regular expression in realtà è tutt’altro che una buona idea. HTML è context-free e le regular expression non trovano quasi regolarmente nulla.

Più promettenti sono le diverse funzioni DOM già disponibili dall’introduzione di PHP5. Ma l’utilizzo con i siti di oggi, che spesso si servono di codici non validi, presenta ancora qualche insidia. Per fortuna esiste una soluzione che uso da tempo e con la quale si possono evitare le problematiche descritte sopra: il PHP Simple HTML DOM Parser.

Il parsing dei link nei documenti HTML diventa con questa library un gioco da ragazzi. Con i meccanismi di WordPress che aiutano a rilevare pagine remote, chiunque abbia familiarità con la sintassi di jQuery si troverà benissimo. Il mio piccolo esempio mostra come si usa il parser da uno script al di fuori dell’installazione di WordPress. L’obiettivo è mostrare tutti i link della mia homepage con l’attributo nofollow:

Autore: realloc

Traveller, Fitness Fanatic, Triathlete, Wannabe Musician, WordPress Enthusiast & Software Developer | Born in Germany. Reborn in Italy.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

To respond on your own website, enter the URL of your response which should contain a link to this post's permalink URL. Your response will then appear (possibly after moderation) on this page. Want to update or remove your response? Update or delete your post and re-enter your post's URL again. (Find out more about Webmentions.)