« XML-RPC on perl | メイン | OPML »

July 03, 2003

LWP のなかの html parsing

以前,
LWP::UserAgent は,text/html を GET したときには,なにかしらparse しているらしい」
というようなことを書いた
これのなぞが解けた.どうやら,<meta http-equiv="***"> を parse しているらしい.

HTTP では,レスポンスには,レスポンスヘッダ(「Content-type: text/html」とか)がつく.
HTML では,このレスポンスヘッダと等価(equivalent)なものとして, の中に,
  <meta http-equiv="Content-Type" content="text/html; charset=UTF-8" />
というタグを記述することができる.

LWP::UserAgent は,レスポンスヘッダを解釈する機能を持つ(LWP::Simpleと異なり).たとえば,「Status: 302」 とかいわれれば,リダイレクト先のページをとってきてくれる.
この機能の延長として,上記の <meta> の内容も parse して,レスポンスヘッダと同等に扱ってくれる.ありがたいような,余計なお世話のような.

知ってしまえば,全部納得.text/html の時だけしか parse しないのも,HTML::HeadParser が必要なわけも.

で,肝心の解決法は,
 $ua->parse_head(0)
とするだけ(参考).

投稿者 msano : July 3, 2003 10:01 PM

トラックバック

このエントリーのトラックバックURL:
http://www.semblog.org/mt3/mt-tb.cgi/227

コメント

I liked very much your web site.

投稿者 mature butt : July 21, 2004 01:37 AM

I liked very much your web site.

投稿者 mature butt : July 21, 2004 01:38 AM

I liked very much your web site.

投稿者 mature butt : July 21, 2004 01:38 AM

I liked very much your web site.

投稿者 mature butt : July 21, 2004 01:38 AM

hmm... good site

投稿者 porn uk : July 25, 2004 05:03 PM

good job !

投稿者 people having sex : July 27, 2004 09:55 PM

コメントしてください




保存しますか?