CasualConc

CasualConc は Mac OS X 用のコンコーダンサー(コーパス分析ソフト)です。研究目的ではない、普段使いを想定しています(研究に使用してもらってもかまいませんが、そこまでは検証していないということです。とはいえ、自分では普通に研究にも使ってます)。 機能としては kwic、単語クラスター分析、共起分析、単語頻度表作成などがあります。

これ以外にも、いろいろなアプリケーションを作ってます。このページの下の方か、左のその他のアプリケーションのリンクをたどってください。

英語コーパス学会のニューズレターで CasualConc を紹介していただきました。興味のある方は、英語コーパス学会のサイトにある、JAECS Newsletter No.70 をご覧になってみてください。

外国語教育メディア学会 (LET) 関西支部 メソドロジー研究部会の2011年度報告論集(こちらから)に CasualConc (1.9.x) の使い方について書かせていただきました。このサイトにある使い方は 1.0.x の古いものになっているので、Leopard 以外をお使いの方で β版をダウンロードされる方は、そちらを参照してください。

NEW!! CasualConc の新しいバージョン(2.0)をリリースしました。ダウンロードページからダウンロードしてお試しください。まだまだ不具合もあるので、何か見つけたら、左のコンタクトにあるアドレスに報告をお願いします。現在のところ、マニュアルは英語のみが用意してあります。いずれは日本語のマニュアルも用意する予定ですが、しばらく先になると思います。

注意:R を 3.3 にアップデートされた場合は、環境設定の R を使った視覚化のチェックボックスを入れ直してください。必要なパッケージが再インストールされます。また、build 20160505 は、英語インターフェイスでの視覚化ツールが動かないバグが見つかったので、20160507 で修正を試みました。まだバグが残っているかもしれませんので、見つけたら報告をしていただけると助かります。

英語コーパス学会での発表のスライドがこちらにあります。どんなことができるかざっくり見ることができます(後半に新しい機能の紹介があります)。







現在のバージョン 2.0.6 - 最終更新日 2017/02/25

システム要件:現行バージョンは、10.9 (Mavericks) 以降対応(El Capitan を含む)です。

Yosemite/El Capitan 対応の旧バージョン1.9.8 - 最終更新日 2015/05/09
OS X 10.6 対応の旧バージョン(β)1.9.7 - 最終更新日 2014/12/05

システム要件:旧バージョンは、10.6.8 (Snow Leopard) 以降対応です。

テキストファイルフォーマット
:プレインテキストファイル (.txt) で、ASCII もしくは UTF-8 でエンコードされているものが基本です。その他文字コードや、他のテキストを含むファイル形式にも対応させてありますが、プレインテキストファイル以外のファイル形式の場合、ファイルの処理に時間がかかります。PDF ファイルを使う場合は透明テキストが埋め込まれているか、テキストベースのものである必要があります。詳しくは、使い方を参照してください。

処理できる言語
:読み込める文字コードで保存されたテキストファイルであれば、たいてい動きます。ただ、右から書く言語などは、試してもいませんし、多分うまく動かないのではないかと思います。2バイト文字言語では、標準(単語間スペースなし)と分かち書き(半角スペースで単語を区切った)をしたもの対応しています。スペースなしの場合は、いくつかの機能が制限されます。各ツールの機能の仕方も変わります。日本語の分かち書きファイルはをつくるには、どこかで Chasen を使うか、MeCab-Ruby をインストールして CasualMecab を試してください。MeCab および、MeCab-Ruby のインストールの仕方は、その他のアプリケーションにあるリンクをたどってください。日本語を扱う場合は、Prefereces(環境設定)の Concord にある Corpus Text Type を Japanese にしてから使ってください。

このような方に:Mac 利用者で、ちょっとしたコーパスを使った単語検索や、初期研究でちょっとコーパスを探ったり、教材を準備するために、わざわざ Windows マシンを立ち上げたり、BootCamp で Windows にスイッチしたり、Virtual PC、Parallels、VMWare Fusion などを立ち上げたりするのが面倒な人。研究用のメインのツールとして使用に耐えるかどうかはわかりません。

試してみたい方は、ダウンロードページからダウンロードして使ってみてください。その際は、casualconc (at) gmail.com まで使用感などを送ってもらえるとうれしいです。( (at) を @ に置き換えてください)。

CasualConc はフリーウェアのつもりで開発しています。でも、気に入ったら、どこかで万が一お会いする機会があった時に、コーヒー、おいしいチョコレートなどいただけるとうれしいです(まあ、ないでしょうが)。


新バージョン (2.0) では、統計環境 R を別途インストールすることで、CasualConc で作成した頻度表などを視覚化することができます。

以下に、頻度情報の視覚化機能で作った図の例を挙げておきます。これらは、すべてテキストファイルから頻度集計して、 CasualConc 上で R を利用して作成しています。

  
 クラスター分析ワードクラウド
  
レーダーチャート コレスポンデンス分析 (行スコア; 3D)
  
主成分分析 多次元尺度構成法
 
 




ネットワーク分析 ヒートマップ

ついでに、このサイトには言語研究や言語教育などで使えるかもしれないいくつかのアプリケーションも置いてあります。機能の保証はありませんが。すべて Mac の Leopard 以降専用です。とりあえず、β版ということにしておきます。

CasualPConc - シンプルなパラレルコンコーダンサーです

CasualMultiPConc(英語) - 機能的には CasualPConc と似ていますが、使える機能が少ない代わりに5つまでのパラレルコーパスを扱えます。

CasualTagger - EngTagger と rbtagger を利用したタガーです。バッチ処理にも対応しています。それ以外にも手入力によるタグ付けをアシストする機能がついています。

CasualTextractor - ファイルコンバーターのような、テキスト情報のあるファイルからテキストを抜き出すアプリケーションです。バッチ処理もできます。

CasualTranscriber - いわゆるテープ起こしをアシストするアプリケーションです。

CasualMecab - MeCab という形態素分析エンジンを使って日本語を分析するソフトです。MeCab と MeCab-Ruby が必要です。(インストーラーを用意してみました)

IPATypist - IPA の文字入力をアシストするアプリケーションです。