あぁそうだった

- 2008/10/25
- archives
集合知プログラミング
購入したままになっていた「集合知プログラミング」を読み始めた。

ナレッジを扱うシステムに関わっているので、何かしら応用できないかな、と考えたのだった。

よくあるのが検索の際に「プロクシとプロキシ」「引越しと引っ越し」を同じとみなすような検索が出来ないか？ということ。
※他に「ossとオープンソース/opensource」「セマンティックwebとsemantic web/semanticweb」みたいな。

単純に考えると辞書を用意して検索ワードを拡張して検索エンジンに食わせよう、となる。けど、どうせなら自動的になんとかできないだろうか。

で、「集合知プログラミング」

ユーザの与えた語に対し、類似あるいは関連の強い語を推薦できないかと考えた。
googleのように巨大なコーパスを扱える状況ならともかく、少ないリソース・計算力でどうにかそれらしい結果を出したい。

近年の分類方法の1つといえばタグ。多数のタグが集まる場所といえばソーシャルブックマーク。

あるURLで識別されるリソースに対し、不特定多数の人がタグをつける。
よほどおふざけな人が集まらない限り、ついたタグはリソースにまつわる一定の関連があるだろう。さらにそこには表記ゆれもある。これらタグ同士の相関係数を事前に計算しておいて提示するという試み。

僕ははてブを使っている。ちょうどいいことに特定URLをブックマークに関する情報をJSONで取得するAPIがある。
とりあえず自分のブックマークを起点に、他の人がつけたタグの数を取得し計算した。
URLの数は1300ちょい。タグの種類は約5500種類。

うーん、それっぽい結果になっているものもあるけど・・・・
※負の相関が降順なのは（僕のコードの）仕様です。
※ケンドールの順位相関係数です。

セマンティックweb
    0.866666666667: semantic web
    0.8: semanticweb
    0.6: メタデータ
    0.6: web
    -0.733333333333: rdf
    -0.142857142857: xml

rails
    0.733333333333: ruby on rails
    0.642857142857: ror
    0.6: soft
    0.52380952381: develop
    0.444444444444: web開発
    0.428571428571: rubyonrails
    0.418181818182: tutorial
    -0.8: manual
    -0.6: tools
    -0.6: 資料
    -0.52380952381: reference
    -0.4: ソフトウェア開発
    -0.357142857143: web制作
    -0.333333333333: リファレンス

oop
    0.6: モデリング
    0.6: agile
    0.575757575758: オブジェクト指向
    0.563636363636: oo
    0.466666666667: design pattern
    0.433333333333: programming
    0.4: devel
    -0.6: 未読
    -0.6: 設計
    -0.428571428571: デザインパターン
    -0.4: programing
    -0.333333333333: design
    -0.222222222222: システム開発
    -0.2: develop

母集団が小さいからなのか。母集団が偏っているのか。

考えてみれば、ソーシャルブックマークのタグに全て（といいたくなるくらいたくさん、の意）の語が登場するわけではなく、「自分がブックマークするときのタグの推薦に使える」ぐらいの結果か。
母集団の中には「ソーシャルブックマークを便利に使う工夫のタグ」も存在するので、そもそも推薦に向かないものがある。
※「*お役立ち」とか「2-便利」とか「あとでよむ」みたいな

表記ゆれのネタにしようと思ったら、「同じURLに対して同じ人がつけたタグ同士」は表記ゆれではなくて、何かしら別の軸の意味を持った言葉のはず。なので、こういうタグ同士でペナルティを加味したらもう少しマシになるかな。

ま、それでもなんとなーく相関のありそうな語の固まりが取り出せたのは、ちょっと面白かった。
サンプルをどーんと拡大してhadoopで分散処理、みたいなことをやってみたいな。

2008/10/07
archives

JUDE 5.3には編集APIのサンプルとしてDBリバースのプログラムが付属しています。
サンプルといっても十分便利。DB接続可能なときはこれを利用している。

何かしらのシステムやアプリを引き継ぐと、DDLすら提示されず、「テーブル定義書」「テーブル設計書」といった名称のxlsブックだけ出てくる場合がある。困ったことによくある。
目視でぽちぽちjudeにエントリしてもいいのだけど、編集APIのプラクティスを兼ねてインポートツールを書いた。

要するにCSVで記述したERエンティティをjudeモデルとして一括登録、というもの。
※注意：judeファイルになんらか問題が発生しても責任を負いかねます。自己責任で。そしてバックアップ or リビジョン管理重要。

judeユーティリティ

xlsからCSVを作成する

記述例はアーカイブ同梱のsamp1.xlsを参照
「テーブル定義書」のレイアウトは様々。それに合わせて以下のようなCSVファイルを出力するようマクロを調整のこと

1CSVファイル＝1エンティティ
1行＝1属性

CSVファイル内の最初の列が「#」で始まる行はメタ情報行

#@entity行

1列目：エンティティの論理名
2列目：エンティティの物理名

次に#で始まる行は各列の値の意味を指定するヘッダ。認識するヘッダは以下の通り

logicalname	属性の論理名
physicalname	属性の物理名
domain	属性のドメイン（の論理名）更新対象judeファイル内に同名の論理名を持つドメインがない場合は作成される
type	属性のデータ型更新対象judeファイル内に同名のデータ型がない場合は作成される
length	属性の長さ
nn	NOT NULLかどうか非空文字ならNOT NULL指定
default	属性のデフォルト値
pk	PRIMARY KEY制約をつけるかどうか非空文字ならPRIMARY KEY指定

excelがインストールされたwindows上で同梱のmake_csv.jsマクロ実行し、全シートをCSV出力します

出力ファイル名は"シート名.csv"になります。
シートごとに別ファイルに出力されます
```
> cscript.exe make_csv.js samp1.xls
```

編集APIの仕様で以下の点に注意

論理名のないエンティティは登録できない
論理名のない属性は登録できない
同じ論理名を持つエンティティが既に存在すると登録できない
データ型に英小文字を指定しても英大文字になる

GUIでは英小文字名称のデータ型を登録できるけど、編集APIでcreateすると大文字になる。

出来たCSVをjudeファイルにインポートする

実行例
```
$ env CLASSPATH=./jude-pro.jar jruby ./import_ermodel.rb --fs=, -o new.jude samp2.csv

      
```
※インポートのデフォルトのフィールド区切りは「HT」です。--fsでカンマを指定しています。
※jude-pro.jarがカレントにある前提
存在しないjudeファイルを指定してもよいし、既存のjudeファイルを指定してもよいです。
存在しないjudeファイルを指定するとjudeファイルが作成されます。
新規judeファイルに出力しインポート後の内容を確認して問題なさそうならマージするという手順がいいと思う。
本スクリプトは日本語環境で作成されたjudeファイルを前提としています。
編集APIサンプルのように createERModel(project, "ER Model");でIERModelを作成すると、日本語環境GUIでマージできなかった。日本語環境GUIで作ったjudeファイルの場合、IERModelの名称が"ERモデル"（これはエクスポートするとわかる）となっていることに関係するのではないかと想像している。

■実行環境
OS: CentOS 5.2 i386
   JRE: Sun Java 1.6.0_07
     jruby: 1.1.4
     JUDE-Pro: 5.3.0

モデル編集APIは、「図要素」を編集できるようになるとうれしい。図中のモデルの位置だとか大きさ。GUIの自動レイアウトがもうひとつだなぁと感じている。何かしらのレイアウトエンジンを使って独自の整列ができるようになったらかなり素敵だと思うんだけどな。

- 2008/09/09
- archives
CakePHPの Security.levelとセッション
JSONPでやりとりするウェブアプリをCakePHPで作っていた。
任意のウェブページに埋め込めるタイプのもので、サービスに対してセッションを維持する仕様（POST用の使い捨てkeyを保持する）。

しかし、何かサービスにアクセスするたびに、セッションが破棄・生成されているようだ。

Security.levelがhighに設定されていると、セッション「ID」は毎回生成されるのがCakePHPの仕様。
```
 * CakePHP session IDs are also regenerated between requests if
 * 'Security.level' is set to 'high'.
```
だけどセッション自体は維持されるはず。。。
結局フレームワークのソースを読むことに。

highとmediumの場合、セッションが有効かどうか判断するのにreferrerも勘案されるらしい。
んで、クロスドメインなJSONPなウェブアプリだったため、referrerがinvalidになって毎回破棄、ということのようだ。

結局、lowを採用、Session.timeoutを小さくして調整することにした。

■cake/libs/session.php
```
    function __initSession() {
        switch($this->security) {
            case 'high':
                $this->cookieLifeTime = 0;
                if (function_exists('ini_set')) {
                    ini_set('session.referer_check', $this->host);
                }
            break;
            case 'medium':
                $this->cookieLifeTime = 7 * 86400;
                if (function_exists('ini_set')) {
                    ini_set('session.referer_check', $this->host);
                }
            break;
            case 'low':
            default:
                $this->cookieLifeTime = 788940000;
            break;
```
php：5.1.6
CakePHP：1.2.0.7296-rc2
- 2008/08/21
- archives
JUDE Community版より Professional版がよいと思うこと
JUDEには無償のCommunity版と有償のProfessional版がある。
両者の違いは製品公式ページの機能比較表のとおり。
結構Community版使ってますみたいなエントリを見かけるんだけども、自分がPro版購入を決めたポイントを並べてみる。
※僕はチェンジビジョンの関係者ではありません。
1. EMF出力できる
  - 特にコピー&ペーストでWord等office文書に貼り付けられるところがいい。
  - ビットマップでなくベクターグラフィックだから、拡大縮小しても印刷しても綺麗。貼り付け先文書内で好きな大きさにできる。
2. ステレオタイプのアイコンを指定できる
  - 機能比較表ではさらっと書いてあるけど、これはかなりうれしい。
  - boundary（メロンが横になった記号）やactor（棒人間）に帳票や人を示すビットマップを指定すると「普通の人」も見る気になってくれる
  - オブジェクトごとにUML表記/アイコン表記を切り替えられるので、読み手に合わせた作図をしつつ、情報量はキープみたいな使い方。
3. モデルから関連する図へジャンプできる
  - これ
  - このモデルが使われているあの図はどこだっけ・・、とモデル基点で図を逆引きできるのは地味に便利。
4. CRUDマトリクスを書ける
  - ファンクションポイント法による見積りのソースに使えてうれしい
  - Com版とPro版の違い、とは関係ないが、CRUDの軸に指定したユースケース図にユースケースを足したとき、ER図にモデルを足したときに、CRUD表の当該モデルに対する行/列が自動で追加されるのは本当にうれしい機能だ。
5. 別名をつけられる
  - クラスの名前や属性の名前など、日本語表記と英語表記を付けることが出来る。
  - モデリングは日本語で行い、SQL出力など英語表記にしたい部分だけ英語、という使い分けができて助かる
6. APIの違い
  - ER図（系のモデル）、CRUDの情報を取れるのはかなりのアドバンテージ
7. プロジェクトをマージできる
  - judeを2つ起動して、片方のjudeからもう片方にコピー&ペースト、ということが「出来ない」ので、その代わりとして使えるから。
ちょっとした違いかもしれないけど、普段の業務でしみじみ便利だなーと思う瞬間。
こういう違いを知らずにCommunity版を使ってる人がいたらちょっともったいないな、と思ったので書いてみた。

集合知プログラミング

複数の.pptを一括して.ppsで保存する

JUDE APIを jrubyから使うその2

CakePHPの Security.levelとセッション

JUDE Community版より Professional版がよいと思うこと