2008年12月02日

日記の頻出単語統計をとりたい

先月の日記のファイルサイズが200KBを越えてしまったので、
この量の日本語テキストを何かに使えないかなぁと考えていたら、
単語の頻度を取ってみたら面白そうだなぁと思った。

…というわけで、以下調査した結果。
・形態素解析
http://ja.wikipedia.org/wiki/%E5%BD%A2%E6%85%8B%E7%B4%A0%E8%A7%A3%E6%9E%90
・専門用語(キーワード)自動抽出システム
http://gensen.dl.itc.u-tokyo.ac.jp/
・日本語文書の文字・単語出現頻度解析ツールとデータ
http://www.madin.jp/docs/wordcount.html
・ホームページの単語の使用頻度測定Perlスクリプト
http://sakaguch.com/hindo.html
・MeCab (和布蕪)
http://mecab.sourceforge.net/

以下、自宅サーバへのインストール。
・とりあえず2年ぶりくらいにportsをcvsup。
# cd /usr/local/etc/cvsup/
# cvsup ports-supfile

・MeCabのインストール
# cd /usr/ports/japanese/mecab/
# make
# make install

・MeCab IPA辞書のインストール
# cd /usr/ports/japanese/mecab-ipadic/
# make
# make install

・MeCab perlモジュールのインストール
# cd /usr/ports/japanese/ja-p5-MeCab/
# make
# make install

・TermExtractのインストール
$ cd ~/Documents/temp/
$ fetch http://gensen.dl.itc.u-tokyo.ac.jp/soft/TermExtract-4_08.tar.gz
$ tar xzvf TermExtract-4_08.tar.gz
$ cd TermExtract
$ make
$ su
# make install


---いまここ---
posted by たぐちぇ at 12:49| 群馬 曇り| Comment(0) | TrackBack(0) | C# .NET & 自宅サーバー | このブログの読者になる | 更新情報をチェックする
この記事へのコメント
コメントを書く
お名前:

メールアドレス:

ホームページアドレス:

コメント:

認証コード: [必須入力]


※画像の中の文字を半角で入力してください。
この記事へのトラックバックURL
http://blog.seesaa.jp/tb/110567947

この記事へのトラックバック