CasualConc

CasualConcmacOS 用のコンコーダンサー(コーパス分析ソフト)です。最初のバージョンは高度な研究に耐えるものでもなく、簡単に使えるという意味で CasualConc と名付けました。 機能としては kwic、単語クラスター分析、共起分析、単語頻度表作成などがあります。現在のバージョン (3.0 以降) は、十分実用・研究に耐えうる程度にはなっていると思います。

これ以外にも、いろいろなアプリケーションを作ってます。このページの下の方か、左のその他のアプリケーションのリンクをたどってください。

CasualTranscriber をお探しの方はこちらへ。


まだまだ対処しきれていない問題も多く残っているので、バグの報告をお願いします。

テキストファイルフォーマット:プレインテキストファイル (.txt) で、ASCII もしくは UTF-8 でエンコードされているものが基本です。その他文字コードや、他のテキストを含むファイル形式にも対応させてありますが、プレインテキストファイル以外のファイル形式の場合、ファイルの処理に時間がかかります。PDF ファイルを使う場合は透明テキストが埋め込まれているか、テキストベースのものである必要があります。詳しくは、使い方を参照してください。

処理できる言語:読み込める文字コードで保存されたテキストファイルであれば、たいてい動きます。ただ、右から書く言語などは、試してもいませんし、多分うまく動かないのではないかと思います。もしテストをしていただける方がいらっしゃれば、対応も考えます。単語が別れていない言語の場合は、macOS の分かち書きの機能 (Tokenization) を使うことで、単語ごとの分析が可能になっています。

このような方に:Mac 利用者で、Windows っぽいアプリケーションを Mac の上で動かすのはちょっと、と考える方。

試し際は、casualconc (at) gmail.com まで使用感などを送ってもらえるとうれしいです。( (at) を @ に置き換えてください)。

CasualConc はフリーウェアのつもりで開発しています。でも、気に入ったら、どこかで万が一お会いする機会があった時に、コーヒー、おいしいチョコレートなどいただけるとうれしいです(まあ、ないでしょうが)。


現行バージョン (3.x) では、Stanford CoreNLP での依存文法タグ付けを利用した文法検索機能や、統計環境 R を別途インストールすることで、CasualConc で作成した頻度表などを視覚化することができます。

以下に、頻度情報の視覚化機能で作った図の例を挙げておきます。これらは、すべてテキストファイルから頻度集計して、 CasualConc 上で R を利用して作成しています。

2017 年 1 月時点でのバージョン(2.0.6)を元に、CasualConc で何ができるかを書きました。こちらからダウンロードできます(リンク先は関西大学のレポジトリです)。この文章から引用していただく場合は、次の情報を使ってください。

今尾康裕 (2017) 「CasualConcでのアカデミック英語分析-単語検索からデータの視覚化まで-」水本篤 (編) 『ICTを活用した英語アカデミック・ライティング指導-支援ツールの開発と実践-』金星堂, 31-61.

2020/5/16 にオンラインで行われた、外国語教育メディア学会 (LET) 関西支部 2020 年度春季大会ワークショップで、CasualConc などのアプリケーションを利用して、コーパス作成から分析までを Mac で行うオンラインワークショップを作成しました。スライドとスライドの内容にリンクしたアプリケーション操作のビデオクリップがあります。以下の LET 関西支部のページからアクセスしてください。内容は version 2.1.x のものとなっています。ワークショップのビデオでは、CasualTextractor/CasualTagger などを利用して、ウェブや PDF からのテキストの抽出・整形、文書情報の追加、タグ付けなど、コーパスを作成する手順から、CasualConc を使ったコーパス分析までを、それぞれの操作ごとにスクリーンキャプチャで手順を示しながら説明しています。

LET関西支部2020年度春季研究大会ワークショップスライド

LET関西支部2020年度春季研究大会ワークショップビデオ

英語コーパス学会での発表のスライドがこちらにあります。どんなことができるかざっくり見ることができます(後半に新しい機能の紹介があります)。

バージョン 2.1 でできることを中心に CasualConc の紹介を AACL 2018 で行った際のスライドがこちらにあります。

2019 年 1 月にメソ研@北海学園大学で行なったワークショップのハンドアウトがこちら (Google Drive) にあります。興味のある方はご参照ください。

 クラスター分析

ワードクラウド

レーダーチャート

 コレスポンデンス分析 (行スコア; 3D)

主成分分析

 多次元尺度構成法

ネットワーク分析

 ヒートマップ

ついでに、このサイトには言語研究や言語教育などで使えるかもしれないいくつかのアプリケーションも置いてあります。機能の保証はありませんが。基本的には、macOS 10.15 以降で動きます

CasualPConc - シンプルなパラレルコンコーダンサーです

CasualTagger - EngTagger と rbtagger を利用したタガーです。バッチ処理にも対応しています。それ以外にも手入力によるタグ付けをアシストする機能がついています。

CasualTextractor - ファイルコンバーターのような、テキスト情報のあるファイルからテキストを抜き出すアプリケーションです。バッチ処理もできます。

CasualTranscriber - いわゆるテープ起こしをアシストするアプリケーションです。

MeCab インストーラ - MeCab インストーラーを用意してみました

IPATypist - IPA の文字入力をアシストするアプリケーションです。

CasualMallet - トピックモデル分析ができるアプリケーション Mallet を GUI で利用するアプリケーションです。テキストファイルの前処理や、分析結果をもとにして R を利用してグラフを描画する機能などがあります。