HTML::TreeBuilder これだけ覚えりゃ、とりあえずOK(?)
HTML を解析するには HTML::TreeBuilder が便利なんだけど、なかなか初心者向けのドキュメントが見つけられなかったので、自分用の覚え書きの意味も含めて、まとめておこうと思います。
とりあえずこんな HTMLファイル(sample.html) を処理してみましょう。
でもって、パースするプログラムはこんな感じ
何で最後に delete しなきゃいけないかは「 HTML::Element のドキュメントを読んでね」ということなんだけど・・・よくわからいけど delete しておきましょう(ちゃんと読めよ!>自分)。
その他、メソッドとかについても HTML::Element からたくさん継承してきてるので、そちらのドキュメントを読んでおくのは有意義そうです(上手くいかないときに、何かの手掛かりになるかも)。
慣れると JavaScript の getElementBy~ みたいな感じで処理ができて、ホントに便利です。
参照リンク
・Geekなぺーじ: HTML::TreeBuilderによるパース(リンクの取得)
・hPod: use HTML::TreeBuilder
・[ぴ]: HTML::TreeBuilder イイ
・perldoc超訳部:HTML::TreeBuilder
・CPAN:HTML::Element