にわにはにわにわとりがいる

f:id:tenman:20090108103224j:image
wikipedia:鶏

すもももももももものうち」とかを「スモモも桃も桃のうち」として
日本語の文章などを、名詞や、形容詞、助詞などに切り分けてくれるツールがある。


以前、らぼ 仙台入門 形態素解析というのを作った。


ねらいは、「頻出語から、そのサイト内の、埋もれたコンテンツをサルベージしよう」で


URLを入力すると、そのページを読み込んで、名詞 と 形容詞 が何回使われているか、回数の多い順に並べて、
そのサイト内を検索するリンク付で表示するものです。


欠点は、辞書にない言葉は拾えない

日本語を解析する作業は Yahoo API などサービスも出てきているので、どんどん簡単になってきています。
ユーザー辞書がもっと簡単に扱えるようになると使い道がたくさん出るんじゃないかと思う



WEBでも、検索されるキーワードなどは、解析されている様子で、そのことは、グーグルなどで検索結果に、単純に長い文字数の検索語を入力しても、分かち書きされていることなどから想像できる。

BOOKMARK

「形態素解析」で検索 - はてなブックマーク
MeCabとは - はてなキーワード
ChaSenとは - はてなキーワード

ウノウラボ by Zynga Japan: PHPとMecabでキーワード自動リンクを実装する
ウノウ:MeCab の辞書構造と汎用テキスト変換ツールとしての利用の実践例

検索エンジンを作る|gihyo.jp … 技術評論社
実は,この2月にMicrosoft Word/Excel/PowerPointの文書ファイル型式の仕様が公開されています。現在,仕様書は次のページからダウンロードできます。

代表的なテキスト抽出に利用できるフリーソフトウェアには次のようなものが存在します。

wvWare

正確には,Wordの文書ファイルをHTMLに変換する機能が提供されます。

xlHtml

Microsoft Excelの文書ファイルからテキスト情報を抽出するツールです。
Excelから HTMLへの変換を行うxlhtmlコマンド,
Power PointのファイルからHTMLへの変換を行うppthtmlというコマンドが提供されています。

xpdf

xpdfはPDFビューワのツールですが,パッケージにpdftotextというPDFからテキスト情報を抽出するツールが含まれています。

[を] 形態素解析と検索APIとTF-IDFでキーワード抽出

キーワード抽出対象テキストから、そのテキストを代表する
キーワードを抽出します。TF-IDF という指標を用います。

形態素解析辞書 UniDic
unidic

windows 茶まめ 配布元
f:id:tenman:20090108173521j:image:w240

形態素解析を使ってタグクラウド - ケーズメモ
アイディア

きまぐれ日記: ルー語変換を MeCab だけで実現
ルー誤変換

テキスト置換実例。mecab辞書が付いている。

ぱふぅ家のホームページ - KAKASI or error_reporting or file_get_contents or strip_tags or arsort

kakasi コードサンプル。

茶まめexcelアドイン
単語を入力して [OK] を押すと,検索結果が KWIC (KeyWord In Context)
形式で表示されます。

備忘

chasen mecabについて

検索エンジンの仕組み > Ngram(N-gram)とは何か & 形態素解析との比較

1行に8192bytes以上あると問題にあたり、その制限を解除してもint値の制限(32,768bytes)の問題にあたる等、オープンソースなりの問題がある。

辞書の単位が最小に合わせたものになっていないと検索漏れが生じる

※現時点でどうなのかまだ、調べてません