この量の日本語テキストを何かに使えないかなぁと考えていたら、
単語の頻度を取ってみたら面白そうだなぁと思った。
…というわけで、以下調査した結果。
・形態素解析
http://ja.wikipedia.org/wiki/%E5%BD%A2%E6%85%8B%E7%B4%A0%E8%A7%A3%E6%9E%90
・専門用語(キーワード)自動抽出システム
http://gensen.dl.itc.u-tokyo.ac.jp/
・日本語文書の文字・単語出現頻度解析ツールとデータ
http://www.madin.jp/docs/wordcount.html
・ホームページの単語の使用頻度測定Perlスクリプト
http://sakaguch.com/hindo.html
・MeCab (和布蕪)
http://mecab.sourceforge.net/
以下、自宅サーバへのインストール。
・とりあえず2年ぶりくらいにportsをcvsup。
# cd /usr/local/etc/cvsup/
# cvsup ports-supfile
・MeCabのインストール
# cd /usr/ports/japanese/mecab/
# make
# make install
・MeCab IPA辞書のインストール
# cd /usr/ports/japanese/mecab-ipadic/
# make
# make install
・MeCab perlモジュールのインストール
# cd /usr/ports/japanese/ja-p5-MeCab/
# make
# make install
・TermExtractのインストール
$ cd ~/Documents/temp/
$ fetch http://gensen.dl.itc.u-tokyo.ac.jp/soft/TermExtract-4_08.tar.gz
$ tar xzvf TermExtract-4_08.tar.gz
$ cd TermExtract
$ make
$ su
# make install
---いまここ---
【C# .NET & 自宅サーバーの最新記事】

