« XML-RPC on perl | メイン | OPML »
July 03, 2003
LWP のなかの html parsing
以前,
「LWP::UserAgent は,text/html を GET したときには,なにかしらparse しているらしい」
というようなことを書いた.
これのなぞが解けた.どうやら,<meta http-equiv="***"> を parse しているらしい.
HTTP では,レスポンスには,レスポンスヘッダ(「Content-type: text/html」とか)がつく.
HTML では,このレスポンスヘッダと等価(equivalent)なものとして,
<meta http-equiv="Content-Type" content="text/html; charset=UTF-8" />
というタグを記述することができる.
LWP::UserAgent は,レスポンスヘッダを解釈する機能を持つ(LWP::Simpleと異なり).たとえば,「Status: 302」 とかいわれれば,リダイレクト先のページをとってきてくれる.
この機能の延長として,上記の <meta> の内容も parse して,レスポンスヘッダと同等に扱ってくれる.ありがたいような,余計なお世話のような.
知ってしまえば,全部納得.text/html の時だけしか parse しないのも,HTML::HeadParser が必要なわけも.
で,肝心の解決法は,
$ua->parse_head(0)
とするだけ(参考).
投稿者 msano : July 3, 2003 10:01 PM
トラックバック
このエントリーのトラックバックURL:
http://www.semblog.org/mt3/mt-tb.cgi/227
コメント
I liked very much your web site.
投稿者 mature butt : July 21, 2004 01:37 AM
I liked very much your web site.
投稿者 mature butt : July 21, 2004 01:38 AM
I liked very much your web site.
投稿者 mature butt : July 21, 2004 01:38 AM
I liked very much your web site.
投稿者 mature butt : July 21, 2004 01:38 AM
hmm... good site
投稿者 porn uk : July 25, 2004 05:03 PM
good job !
投稿者 people having sex : July 27, 2004 09:55 PM