« RNA nightly build 050405 | メイン | [Ajax tips] XMLHttpRequest と If-Modified-Since »

April 05, 2005

RSSにどこまで書くか

RSS(Atom)にサマリーのみ書くか全文まで書くかという議論はずっと昔からあるような気がする。

RSS(Atom)を利用する代表的な目的はWeb情報チェックの効率化だけど、それは次のように分解できる。
 a) 「更新チェック」を効率化したい人
   更新があったら対象Webページを直接見に行く人。
   この人にとってはRSSはtitleとlinkとdateだけで事足りるのではないだろうか。
   glucoseなど、Webサイトを直接ブラウズできるリーダーを使うとよい。
 b) 「内容をチェックするどうかの判断」も効率化したい人
   この人に必要なのはtitleとサマリー(<description>や<summary>)だ。
   サマリーをざっとみてさらに詳しく見たければ直接Webページをブラウズする。
   重要な点は、まともなサマリーがちゃんと書かれているかということ。
   先頭n文字で切っているだけの<description>はサマリーとはいえないと思う(文章のうまい人は先頭n文字が要約になるような書き方をするのかもしれないけど)。   
 c) 「内容チェック」までも効率化したい人
   この人にとってはRSSに全文が含まれていることが望ましい。
   サマリーでも代替になるだろうが、内容を取得元Webサイトに確認しにいく必要の無いほどの、秀逸なサマリーが常に配信されている必要がある。

RSSにどこまで書くかという話は、RSS利用者側が何を必要としているかという問題になる。同じ人でも、スポーツニュースはサマリーでよいが、政治ニュースは詳細を知りたいかもしれない。

たとえば、次のように詳細度の異なるRSS(Atom)フィードを3種類おいておく方法が考えられる。
 1) title, link, date のみのフィード
 2) 1) に加えて記事のサマリーが記載されているフィード
 3) 2) に加えて記事の全文が記載されているフィード
RSS利用者側が自分のライフスタイルに合わせて利用するフィードを選べば、帯域消費緩和にもつながるかもしれないし、RSS提供側も悩まなくてすむ。
本当に3つファイルを作成したら今度はストレージの消費が問題になるというなら、実体のファイルは1つにしてWebサーバーのプラグインなどで複数バリエーションのフィード配信を実現すればよい。リーダーから見えるRSSが同じであれば使い勝手は変わらない。ただし、Webサーバーの負荷は逆に高まってしまうことになる。アプローチとしては、VFZ(今のPixelLive)に似ていると思う。VFZは、色深度という観点で画像データを分解して再結合した形式で、利用者のニーズに応じて特定の色深度レベルのデータのみ配信することができる。また、そのようなデータの再構成により、結果的に(おそらくbitmapと比較して)データサイズが小さくなっている。RSSなどのテキスト系メタデータの分野でもそのようなことができないだろうか。サイズが減るという現象は(gzipなどの圧縮の適用を除いて)考えにくいが、自然言語文章から意味の要約を抽出する優秀なアルゴリズムがあれば要約のためにストレージを消費する必要は無くなるかもしれない。

投稿者 msano : April 5, 2005 11:47 PM

トラックバック

このエントリーのトラックバックURL:
http://www.semblog.org/mt3/mt-tb.cgi/295

コメント

コメントしてください




保存しますか?