itmedia.yaml

PlaggerITmediaRSSを取得してEntryFullTextしてるのですが、
http://cgi.itmedia.co.jp/rss/enterprise_1.0/www/enterprise/articles/0608/11/news059.html
こういったアドレスだと既存のitmedia.yamlだとスキップしてしまうので

-handle: http://(\w+)\.itmedia\.co\.jp/(\w+)/articles
+handle: http://(\w+)\.itmedia\.co\.jp/(rss/\w+\.\d+/www/\w+|\w+)/articles/

あんまりスマートじゃないですけどこんな風にしてみたのですが、どうもうまくいかない。
チェッカーで確認するとちゃんとマッチしてるんだけどなぁ。

他人事で申し訳ないのですけれども

Otsune氏が昨日の私の日記にはてブのコメントして下さっているのですけれども、あいにく私の環境だとサーバーを立てることができないので無理かな。立てられる環境になったら是非やってみたいですけど。
Plaggerが流行りだしたのはGoogleTrendsで見ると8(見間違えてました)4月入ってからっぽいのですが、今のところユーザーがそれほど多いわけではないので大丈夫ですけど、多くなってきたらサポートも大変そうですよね。Plaggerのインストールはある程度敷居が下がったといえそうですけど、その後はまだ難しく、今後ユーザーが増えることを考えるとドキュメントとか用意したほうがよさそう。

ResolveRelativeLink

とりあえず、PC内の文書はあとで考えることにしてブログやニュースサイトをGmailに取り込むことに。
それでconfig.yaml

  - module: Filter::ResolveRelativeLink

を書いたのですが、そこでエラーが。

Can't locate Text/Diff.pm in @INC (@INC contains: C:\Perl\bin\lib C:/Perl/lib C:
/Perl/site/lib .) at C:\Perl\site\lib\Plagger\Plugin\Filter/ResolveRelativeLink.
pm line 6.
BEGIN failed--compilation aborted at C:\Perl\site\lib\Plagger\Plugin\Filter/Reso
lveRelativeLink.pm line 6.
Compilation failed in require at C:/Perl/site/lib/Plagger.pm line 258.

どうやらDiff.pmがないらしいので、インストールすることに。
最初cpanでインストールしようとしたら、

CPAN: Storable loaded ok
Going to read C:\Perl\cpan\Metadata
  Database was generated on Fri, 11 Aug 2006 02:29:40 GMT
Warning: Cannot install Text-Diff, don't know what it is.
Try the command

    i /Text-Diff/

to find objects with matching identifiers.

と表示され、

cpan> i /Text-Diff/

と入力。

Distribution    D/DW/DWHEELER/Text-Diff-HTML-0.04.tar.gz
Distribution    G/GW/GWYN/Text-Diff-Parser-0.02.tar.gz
Distribution    R/RB/RBS/Text-Diff-0.35.tar.gz
Distribution    T/TO/TOCIYUKI/Text-Diff3-0.06.tar.gz
4 items found

4つもディストリビューションが出てきてどれにすればわからなかったので(3つ目っぽいですけど)、ppmでインストールすることに。
面倒になったので省きますが無事できました。
他の人の様子を見ると私以外はエラーが出てないみたいで。私のPlaggerのインストールの仕方がまずかったのかな。
そういえば、PlaggerをインストールするときにYAMLでエラーが出てたかな。インストールし直したのかアップデートしたのか覚えてませんが、どっちかをしたら直りましたけど。

どこまで情報を保存するか

いい加減、タブブラウザーで大量のページを開いておいて毎日F5を押して更新していたり、RSSリーダーを使うも流し読みしかしない記事が大量にあったり、ソーシャルブックマークを使わなかったり、Webページをスクラップしなかったり、そんなこんなで「どこかで見たことがあるような」というレベルの記事を探すのに時間をかけたりと、旧世代感が漂うような状況から脱するために、私が想像していたのと似ていたこの記事のOtune氏のを参考に環境を作ってみることにしました。
とりあえずの目標は「どこかで見たことがあるような」レベルのキーワードをすぐに、手軽に探せるようにすること。

「とりあえずググる」を卒業!TOPエンジニアの検索術/Tech総研
http://rikunabi-next.yahoo.co.jp/tech/docs/ct_s03600.jsp?p=000870&f=sn_rank&__r=1

書いてある通りOtsune氏はMixiやブログの情報をGmailに集約し、「『面白いけれど、常時巡回するほどじゃないかな』というページ」はdel.icio.usに登録しています。
私はソーシャルブックマークは別にブックマークを共有したいわけではないので見送り、ブックマークはブラウザの以外にタグ付けができるGoogleBookmarksを使用。ブックマーク以外にも、今までブックマークしていたのにもかかわらず、ページ自体が消えていたということが多々あったので、「あとで読む」でWebページをスクラップしたのをGmailに送るようにし、Plaggerをインストールして「Bloglines」での記事をGmailに送るように設定。そこまではよかったんです。そこで問題が。
Bloglines」にRSSを配信しているサイトやブログを登録しようとしたのですが、そこで思ったのが友人のブログを登録するか否か。ある友人のブログは主に自分のリアルの身辺のことしか書いてありませんでした。もし、「どこかで見たことがあるような」のレベルのキーワードを探せるようにするのならば、その友人のブログも登録しなければならない。ですが、リアルの身辺のことの情報の価値はほとんどなく、登録すれば検索の精度が下がる危険性もあるわけです。だからといって、その友人はたまに有益な情報を書くので登録しないわけにもいかない。まあ、検索の精度が下がるといっても、検索エンジンの性能はたいそうすばらしいのでたいした問題ではないのでどうでもいいんですけど、一番の問題は容量の問題。
Gmailは現在約2.7GBと大容量ですが、このレベルの内容を保存するには少なすぎます。Webページをスクラップしたり、記事を保存していけば数百MBはすぐいくでしょうし、まして自分のPCの文章までGmailに集約するとしたら、メッセンジャーのログなんかGB単位なのでこれを保存していたら数個のアカウントじゃ足りるわけがない。
そこで、どこまで情報を保存するか、ということになるんですよ。正確には、どこまで情報を蓄積し検索可能な状態にしておくか、ということかな。その辺は情報を取捨選択すればいいのかもしれませんが、その取捨選択する基準をどうするか。「どこかで見たことがあるような」と思うようなはっきりしないレベルだと結構広い範囲までアンテナを広げなければいけないわけで。
で、どうしようかと悩んでBloglinesには一つも登録しておらず、環境移行も中途半端な段階でとまっております。Gmailの容量がもっと増えればいいだけなんですけど。