13.3. Interpretacja kodu HTML

Problem

Chcemy wyodrębnić określone ciągi tekstowe z kodu HTML. Przykładem może być konieczność pobrania fragmentu href="adresurl" ze znacznika <a> umieszczonego w dokumencie HTML.

Rozwiązanie

Jeżeli problem dotyczy rozwiązania, które powinno być przygotowane szybko i nie musi mieć uniwersalnego charakteru, wystarczy wykorzystać następujące polecenie:

cat plik | sed –e 's/>/>\
/g' | grep '<a' | while IFS='"' read a b c ; do echo $b; done

Analiza

Interpretacja dokumentu HTML w skrypcie powłoki bash jest dość trudna, ponieważ interpreter bash przetwarza dane wiersz po wierszu, natomiast interpretery HTML są zaprojektowane w taki sposób, aby traktowały znaki nowego wiersza jako znaki odstępu. Zapisywanie znaczników w kilku ...

Get Bash. Receptury now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.