itmedia.yaml
PlaggerでITmediaのRSSを取得してEntryFullTextしてるのですが、
http://cgi.itmedia.co.jp/rss/enterprise_1.0/www/enterprise/articles/0608/11/news059.html
こういったアドレスだと既存のitmedia.yamlだとスキップしてしまうので
-handle: http://(\w+)\.itmedia\.co\.jp/(\w+)/articles +handle: http://(\w+)\.itmedia\.co\.jp/(rss/\w+\.\d+/www/\w+|\w+)/articles/
あんまりスマートじゃないですけどこんな風にしてみたのですが、どうもうまくいかない。
チェッカーで確認するとちゃんとマッチしてるんだけどなぁ。
ResolveRelativeLink
とりあえず、PC内の文書はあとで考えることにしてブログやニュースサイトをGmailに取り込むことに。
それでconfig.yamlで
- module: Filter::ResolveRelativeLink
を書いたのですが、そこでエラーが。
Can't locate Text/Diff.pm in @INC (@INC contains: C:\Perl\bin\lib C:/Perl/lib C: /Perl/site/lib .) at C:\Perl\site\lib\Plagger\Plugin\Filter/ResolveRelativeLink. pm line 6. BEGIN failed--compilation aborted at C:\Perl\site\lib\Plagger\Plugin\Filter/Reso lveRelativeLink.pm line 6. Compilation failed in require at C:/Perl/site/lib/Plagger.pm line 258.
どうやらDiff.pmがないらしいので、インストールすることに。
最初cpanでインストールしようとしたら、
CPAN: Storable loaded ok Going to read C:\Perl\cpan\Metadata Database was generated on Fri, 11 Aug 2006 02:29:40 GMT Warning: Cannot install Text-Diff, don't know what it is. Try the command i /Text-Diff/ to find objects with matching identifiers.
と表示され、
cpan> i /Text-Diff/
と入力。
Distribution D/DW/DWHEELER/Text-Diff-HTML-0.04.tar.gz Distribution G/GW/GWYN/Text-Diff-Parser-0.02.tar.gz Distribution R/RB/RBS/Text-Diff-0.35.tar.gz Distribution T/TO/TOCIYUKI/Text-Diff3-0.06.tar.gz 4 items found
4つもディストリビューションが出てきてどれにすればわからなかったので(3つ目っぽいですけど)、ppmでインストールすることに。
面倒になったので省きますが無事できました。
他の人の様子を見ると私以外はエラーが出てないみたいで。私のPlaggerのインストールの仕方がまずかったのかな。
そういえば、PlaggerをインストールするときにYAMLでエラーが出てたかな。インストールし直したのかアップデートしたのか覚えてませんが、どっちかをしたら直りましたけど。
GoogleBookmarks
今気づいたんですけど、これラベル一つしかつけられないという。ダメじゃん。
どこまで情報を保存するか
いい加減、タブブラウザーで大量のページを開いておいて毎日F5を押して更新していたり、RSSリーダーを使うも流し読みしかしない記事が大量にあったり、ソーシャルブックマークを使わなかったり、Webページをスクラップしなかったり、そんなこんなで「どこかで見たことがあるような」というレベルの記事を探すのに時間をかけたりと、旧世代感が漂うような状況から脱するために、私が想像していたのと似ていたこの記事のOtune氏のを参考に環境を作ってみることにしました。
とりあえずの目標は「どこかで見たことがあるような」レベルのキーワードをすぐに、手軽に探せるようにすること。
「とりあえずググる」を卒業!TOPエンジニアの検索術/Tech総研
http://rikunabi-next.yahoo.co.jp/tech/docs/ct_s03600.jsp?p=000870&f=sn_rank&__r=1
書いてある通りOtsune氏はMixiやブログの情報をGmailに集約し、「『面白いけれど、常時巡回するほどじゃないかな』というページ」はdel.icio.usに登録しています。
私はソーシャルブックマークは別にブックマークを共有したいわけではないので見送り、ブックマークはブラウザの以外にタグ付けができるGoogleBookmarksを使用。ブックマーク以外にも、今までブックマークしていたのにもかかわらず、ページ自体が消えていたということが多々あったので、「あとで読む」でWebページをスクラップしたのをGmailに送るようにし、Plaggerをインストールして「Bloglines」での記事をGmailに送るように設定。そこまではよかったんです。そこで問題が。
「Bloglines」にRSSを配信しているサイトやブログを登録しようとしたのですが、そこで思ったのが友人のブログを登録するか否か。ある友人のブログは主に自分のリアルの身辺のことしか書いてありませんでした。もし、「どこかで見たことがあるような」のレベルのキーワードを探せるようにするのならば、その友人のブログも登録しなければならない。ですが、リアルの身辺のことの情報の価値はほとんどなく、登録すれば検索の精度が下がる危険性もあるわけです。だからといって、その友人はたまに有益な情報を書くので登録しないわけにもいかない。まあ、検索の精度が下がるといっても、検索エンジンの性能はたいそうすばらしいのでたいした問題ではないのでどうでもいいんですけど、一番の問題は容量の問題。
Gmailは現在約2.7GBと大容量ですが、このレベルの内容を保存するには少なすぎます。Webページをスクラップしたり、記事を保存していけば数百MBはすぐいくでしょうし、まして自分のPCの文章までGmailに集約するとしたら、メッセンジャーのログなんかGB単位なのでこれを保存していたら数個のアカウントじゃ足りるわけがない。
そこで、どこまで情報を保存するか、ということになるんですよ。正確には、どこまで情報を蓄積し検索可能な状態にしておくか、ということかな。その辺は情報を取捨選択すればいいのかもしれませんが、その取捨選択する基準をどうするか。「どこかで見たことがあるような」と思うようなはっきりしないレベルだと結構広い範囲までアンテナを広げなければいけないわけで。
で、どうしようかと悩んでBloglinesには一つも登録しておらず、環境移行も中途半端な段階でとまっております。Gmailの容量がもっと増えればいいだけなんですけど。