© 2008-2010 Yasu Imao

CasualConc

CasualConc は Mac OS X 用のコンコーダンサー(コーパス分析ソフト)です。研究目的ではない、普段使いを想定しています(研究に使用してもらってもかまいませんが、検索結果に責任を持てない、ということです。自分では使ってますが。)。 100万語ほどのコーパスならそれなりの速度で動きますが、1000万語になると、検索結果やツールによっては処理にそれなりの時間がかかります(うちのマシンは Mac mini C2D 2.0GHz です)。機能としては kwic、単語クラスター分析、共起分析、単語頻度表作成などがあります。

これ以外にも、いろいろなアプリケーションを作ってます。このページの下の方か、左のその他のアプリケーションのリンクをたどってください。

Lion 対応について:2011/09/30 現在、ほとんどのアプリケーションを Lion で起動するようにはしました。ただ、時間がないので、すべての機能をチェックしている余裕がありません。お手数ですが、それぞれのアプリケーションを Lion で使ってみた方は、動作するかどうかの連絡をいただけると助かります。


英語コーパス学会のニューズレターで CasualConc を紹介していただきました。興味のある方は、英語コーパス学会のサイトにある、JAECS Newsletter No.70 をご覧になってみてください。

外国語教育メディア学会 (LET) 関西支部 メソドロジー研究部会の2011年度報告論集(こちらから)に CasualConc の使い方について書かせていただきました。このサイトにある使い方は 1.0.x の古いものになっているので、Leopard 以外をお使いの方で β版をダウンロードされる方は、そちらを参照してください。






現在のバージョン:1.0.5 - 最終更新日 2010/11/13
現在のβバージョン:1.9.4 - 最終更新日 2012/5/27

注意:現在、このバージョンはメンテナンスモードに入っていて、バグなどが見つかった場合のみ手を入れています。これは、新しい機能の追加は大きな変更を加えることになり、既存の機能の動作に支障をきたすことを避けるためです。新しい機能を追加している β バージョンもこちらのページからダウンロードできます。表面上は基本的な機能は変わりませんが、内部でいろいろいじっているほか、一部のサポートツールの対応方法が変わっていたり、それぞれのツールに少しずつ変更を加えています。ただ、そのために新たなバグがある可能性もあります。使う方は自己責任でお願いします。が、バグの報告などもいただけると助かります。ちなみに、一番大きな変更は、インターフェイスの日本語化でしょうか。2010 年 7 月現在では、β バージョンもかなり安定しています(リリースバージョンよりも安定しているかもしれません)。

システム要件:Mac OS X 10.5 (Leopard) もしくは10.6 (Snow Leopard) で 、画面表示は 1280x800 以上に最適化されています。メモリは多ければ多いだけ、最低でも 1GB 位はあるとそれなりに動きます。一応、Universal Binary になっています。このバージョンは OS X 10.7 Lion では動きません。Lion で CasualConc を動かすには、ダウンロードページの指示に従って、β バージョンを使ってください。

テキストファイルフォーマット
:プレインテキストファイル (.txt) で、ASCII もしくは UTF-8 でエンコードされているものが基本です。その他文字コードや、他のテキストを含むファイル形式にも対応させてありますが、プレインテキストファイル以外のファイル形式の場合、ファイルの処理に時間がかかります。PDF ファイルを使う場合は透明テキストが埋め込まれているか、テキストベースのものである必要があります。詳しくは、使い方を参照してください。

処理できる言語
:読み込める文字コードで保存されたテキストファイルであれば、たいてい動きます。ただ、右から書く言語などは、試してもいませんし、多分うまく動かないのではないかと思います。2バイト文字言語では、標準(単語間スペースなし)と分かち書き(半角スペースで単語を区切った)をしたもの対応しています。スペースなしの場合は、いくつかの機能が制限されます。各ツールの機能の仕方も変わります。日本語の分かち書きファイルはをつくるには、どこかで Chasen を使うか、MeCab-Ruby をインストールして CasualMecab を試してください。MeCab および、MeCab-Ruby のインストールの仕方は、その他のアプリケーションにあるリンクをたどってください。日本語を扱う場合は、Prefereces(環境設定)の Concord にある Corpus Text Type を Japanese にしてから使ってください。

このような方に:Mac 利用者で、ちょっとしたコーパスを使った単語検索や、初期研究でちょっとコーパスを探ったり、教材を準備するために、わざわざ Windows マシンを立ち上げたり、BootCamp で Windows にスイッチしたり、Virtual PC、Parallels、VMWare Fusion などを立ち上げたりするのが面倒な人。研究用のメインのツールとして使用に耐えるかどうかはわかりません。

試してみたい方は、ダウンロードページからダウンロードして使ってみてください。その際は、casualconc (at) gmail.com まで使用感などを送ってもらえるとうれしいです。( (at) を @ に置き換えてください)。

CasualConc はフリーウェアのつもりで開発しています。でも、気に入ったら、どこかで万が一お会いする機会があった時に、コーヒー、おいしいチョコレートなどいただけるとうれしいです(まあ、ないでしょうが)。

 

ついでに、このサイトには言語研究や言語教育などで使えるかもしれないいくつかのアプリケーションも置いてあります。機能の保証はありませんが。すべて Mac の Leopard 以降専用です。とりあえず、β版ということにしておきます。

CasualPConc - シンプルなパラレルコンコーダンサーです

CasualMultiPConc(英語) - 機能的には CasualPConc と似ていますが、使える機能が少ない代わりに5つまでのパラレルコーパスを扱えます。

CasualTagger - EngTagger と rbtagger を利用したタガーです。バッチ処理にも対応しています。それ以外にも手入力によるタグ付けをアシストする機能がついています。

CasualTextractor - ファイルコンバーターのような、テキスト情報のあるファイルからテキストを抜き出すアプリケーションです。バッチ処理もできます。

CasualTranscriber - いわゆるテープ起こしをアシストするアプリケーションです。

CasualMecab - MeCab という形態素分析エンジンを使って日本語を分析するソフトです。MeCab と MeCab-Ruby が必要です。(インストーラーを用意してみました)

IPATypist - IPA の文字入力をアシストするアプリケーションです。