☆TwitterのHTMLをPerlでDOM的に扱おうとして絶望

これは失敗の記録です。PerlでTwitterのHTMLをDOM的に扱おうとして断念しました。

●やりたかったこと

Twitterのタイムラインを通常の逆順(投稿時刻の昇順)に表示する。
先日作ったperlスクリプトは改行に依存している部分があってTwitterのHTMLが少し変わっただけで影響を受けてしまいます。
この欠点をXHTMLを解析できるモジュールを使って克服したい。

●そもそもなぜTwitterのAPIではなくHTMLを扱おうとしたか

GUIアプリを作るのは大変手間がかかる(LinuxではそもそもGUIアプリを作るスキルがない)ので、ブラウザで表示したい。
APIでとってきたXMLまたはJSONをHTMLに組み立てなおすのは結構手間がかかります。

●何がうまくいかなかったか

Twitterの返すHTMLは & がエンティティ化されておらず、XML::DOM::Parser、XML::LibXMLともにエラーが発生しました。
& をエンティティ化しようとすれば、それがリンクの一部でないかなどの判定が必要で、実質的にHTMLを解析する必要があります。
これではモジュールを使って手間を省く意味がありません。
また蛇足ですが、XML::DOMを使う場合、XML::DOM::DocumentはgetElemetByIDメソッドが存在しないので、
つぶやきの<li>を持っている<ol>ノード"<ol id='timeline' class='statuses'>"を取得するために余計なロジックが必要になります。
XML::LibXMLは&に引っかからない場合、idの重複でエラーが出ます。これはbody要素とひとつのdiv要素に同じid="profile"が存在するためです。
(XML::DOMがエラーを吐かないのが不思議です。)

参考:XML::DOM::Parserのエラーメッセージ(&が原因)
not well-formed (invalid token) at line 577, column 181, byte 27722 at /usr/lib/perl5/XML/Parser.pm line 187

参考:XML::LibXMLのエラーメッセージ(&が原因)
test.html:681: parser error : EntityRef: expecting ';'
参考:XML::LibXMLのエラーメッセージ(id重複が原因)
test.html:933: validity error : ID profile already defined

●その他、雑記

■Perlのモジュールに対応するUbuntuのdebパッケージを探す方法について

apt-cache searchはあてにならない気がします。
http://packages.ubuntu.com/ の"Search the contents of packages"は検索文字列に"/"が入っているとまったくマッチしなくなるようなので使えない。
apt-fileを使うのがベストだと思います。導入と使い方は Ubuntu Weekly Recipe 第16回参照。
XML::DOM::Parserを探したい場合、apt-file XML/DOM/Parser とやればOKです。

■debパッケージのないPerlモジュールはどうする

自分では試していませんが、Ubuntu日本語フォーラムの記事を見てみたらdh-make-perlでdeb化するのがよさげです。

■debパッケージがなかったので試さなかったPerlモジュール
▼HTML::TagParser

http://www.kawa.net/works/perl/html/tagparser.html
これはパースできるだけの模様。ノードを付け加えたり、削ってからHTMLを吐くというのは出来なさそうです。

▼XML::Liberal

http://search.cpan.org/dist/XML-Liberal/lib/XML/Liberal.pm
XML::Liberal - Super liberal XML parser that parses broken XML とあるので多少XMLに反する部分があってもやってくれそうです。
試してないのでわかりません。

●結局

☆Twitterのタイムラインを逆順に表示するで作成した、tw_rev.plは、つぶやきが含まれているol要素の始まりと終わり、各li要素の区切さえうまく捕まえることが出来ればよいように出来ています。
であれば、多少Twitterの吐くHTMLが変わったとしてもそれを補正してやるフィルタをかませてからtw_rev.plに入力すればいいので、大抵の場合、比較的簡単に対応が出来そうです。
直近にあった</li>のあとに<li>や</ol>が来てしまう変更は、tw_rev.plを直そうとすると以外に面倒ですが、sedで事前に改行を入れてやるだけで済みました。

0 件のコメント:

コメントを投稿