This tutorial is under construction. New contents will be added sporadically.
CasualConc の基本
設定、メニューなど、各所で出てくる用語の説明をします。
テキストファイルの扱い
基本はプレインテキスト (.txt) のみ扱えますが、それ以外の形式のファイルを扱う設定をします。
基本モードの説明です。テキストそのものの分析をするモードです。
リストに登録したすべてのファイルを 1 つのコーパスとして分析します。
テキストを貼り付けて、それを 1 つのコーパスとして分析します。
レギュラー - ファイル (デフォルト)
ファイルをグループ (コーパス) としてまとめて管理できます。
ファイル情報を記録したファイルで作ったコーパスから、ヘッダタグの設定を利用して、特定のファイルを抽出します。
テキストをデータベースに登録して KWIC 検索に特化したモードです。CasualTranscriber 形式の RTF ファイルでマルチメディアコーパスを作ることもできます。
何を持って単語とするか、記号を単語に含めるかなどの設定ができます。
1 つの単語として扱いたい文字列を登録できます。
分析処理を行う前に変換を行う処理をする文字を指定できます。
タグがつけられたセクションのみ処理したり、ヘッダタグで付記されたファイルの情報などをもとに処理するファイルを選別する設定ができます。_TAG タイプの POS タグが付いたテキストから POS タグを削除して処理する設定もここで行えます。
テキストファイルを読み込む際に分ち書きなどの処理をしたり、テキストファイル自体に POS タグづけなどができます。
単語リストの作成などで、数字を別々の文字ではなく # として扱う設定をします。
単語・フレーズなどをコーパスで検索し、KWIC 形式で結果を表示します。
指定した文字列が文脈に現れるかどうかで KWIC 検索の結果を選別して表示します。
検索結果をコピーしたり保存したりできます。
テーブルの行の高さ、フォント、文脈語の色・スタイルなどの変更ができます。
左右 2 つのテーブルで独立して単語・n-gram リストが作成できます。
機能語など、リストに含めたくない単語でストップワードリストを作成して適用します。
単語ではなくレマの集計をしたり、異なる綴りを同じ単語として扱います。
単語・n-gram リスト作成後にリストを絞り込みます。
統計値を利用して、左右のリストを比較し、キーワード・キーフレーズを抽出します。
テーブルの単語・n-gram リストをプレインテキストファイルとして書き出します。
プレインテキストや CSV で用意した単語・n-gram リストをテーブルに読み込みます。
アドバンストモード
設定の WC にあるアドバンストでアドバンストモードにチェックを入れると利用できる機能です。
ワイルドカードや正規表現で検索をしてヒットした単語・フレーズのリストを作ります。
連続する 2 単語ではない 2 つの単語の組み合わせの頻度集計ができます。
n-gram の単語のうち一つをスロット (*) として集計したリストが作成できます。
POS タグの付いたテキストファイルから単語リストを作成します。
タグなしテキストに POS タグを付与する処理をしてから単語リストを作成します。
単語・フレーズなどをコーパスで検索し、検索語の前後の相対位置に現れる単語・n-gram を集計します。
コロケーションの結果を共起語やいろいろな指標を使って絞り込みます。
コロケーション統計の算出方法について説明します。
各ファイルの基本的な情報を集計します。総語数・異なり語数に加えて、語彙の多様性指標などが計算できます。
ファイルごとの単語・n-gram 頻度を集計した頻度表が作れます。
TF-IDF (Term-Frequency Inverse Document Frequency)
TF-IDF を計算して出力します。
Word Count と同様にキーワード分析ができます。
グループの 1 つを参照コーパス、それ以外のグループを対照コーパスとしてキーワード分析を行います。
グループの 1 つを対照コーパス、それ以外のグループの合計を参照コーパスとして、すべてのグループについてキーワード分析を行います。
ツールでの文字列検索のオプションなどを説明します。
Stanford CoreNLP で文法タグ付けしたコーパスを利用した文法検索
MALLET を使用するために必要な外部アプリケーションのインストールなどを説明します。
テキストファイルを MALLET での分析に適した、一定語数ごとに分割するなどの処理の説明をします。
MALLET のオプションなど、分析時に行う設定について説明します。
結果を元にしたグラフ描画の際にファイルをグループに分けて描画することがあるので、そのためのグループ割り当てをします。
Topic-Word-Weight
Word-Topic-Counts
Topic Word/Doc List
Topic-State
以下は上と同じ情報です。別のフォーマットを試しています。
テキストファイルの扱い
CasualConc でのテキストファイルの扱いについて説明します。
基本はプレインテキスト (.txt) のみ扱えますが、それ以外の形式のファイルを扱う設定をします。
基本モードの説明です。テキストそのものの分析をするモードです。
リストに登録したすべてのファイルを 1 つのコーパスとして分析します。
テキストを貼り付けて、それを 1 つのコーパスとして分析します。
レギュラー - ファイル (デフォルト)
ファイルをグループ (コーパス) としてまとめて管理できます。
ファイル情報を記録したファイルで作ったコーパスから、ヘッダタグの設定を利用して、特定のファイルを抽出します。
テキストをデータベースに登録して KWIC 検索に特化したモードです。CasualTranscriber 形式の RTF ファイルでマルチメディアコーパスを作ることもできます。
基本設定
単語やタグの扱いなど、テキストを扱う設定を説明します。
何を持って単語とするか、記号を単語に含めるかなどの設定ができます。
1 つの単語として扱いたい文字列を登録できます。
分析処理を行う前に変換を行う処理をする文字を指定できます。
タグがつけられたセクションのみ処理したり、ヘッダタグで付記されたファイルの情報などをもとに処理するファイルを選別する設定ができます。_TAG タイプの POS タグが付いたテキストから POS タグを削除して処理する設定もここで行えます。
テキストファイルを読み込む際に分ち書きなどの処理をしたり、テキストファイル自体に POS タグづけなどができます。
単語リストの作成などで、数字を別々の文字ではなく # として扱う設定をします。
基本ツール
単語・フレーズなどをコーパスで検索し、KWIC 形式で結果を表示します。
指定した文字列が文脈に現れるかどうかで KWIC 検索の結果を選別して表示します。
検索結果をコピーしたり保存したりできます。
テーブルの行の高さ、フォント、文脈語の色・スタイルなどの変更ができます。
左右 2 つのテーブルで独立して単語・n-gram リストが作成できます。
機能語など、リストに含めたくない単語でストップワードリストを作成して適用します。
単語ではなくレマの集計をしたり、異なる綴りを同じ単語として扱います。
単語・n-gram リスト作成後にリストを絞り込みます。
統計値を利用して、左右のリストを比較し、キーワード・キーフレーズを抽出します。
テーブルの単語・n-gram リストをプレインテキストファイルとして書き出します。
プレインテキストや CSV で用意した単語・n-gram リストをテーブルに読み込みます。
アドバンストモード
設定の WC にあるアドバンストでアドバンストモードにチェックを入れると利用できる機能です。
ワイルドカードや正規表現で検索をしてヒットした単語・フレーズのリストを作ります。
連続する 2 単語ではない 2 つの単語の組み合わせの頻度集計ができます。
n-gram の単語のうち一つをスロット (*) として集計したリストが作成できます。
POS タグの付いたテキストファイルから単語リストを作成します。
タグなしテキストに POS タグを付与する処理をしてから単語リストを作成します。
単語・フレーズなどをコーパスで検索し、検索語の前後の相対位置に現れる単語・n-gram を集計します。
コロケーションの結果を共起語やいろいろな指標を使って絞り込みます。
コロケーション統計の算出方法について説明します。
各ファイルの基本的な情報を集計します。総語数・異なり語数に加えて、語彙の多様性指標などが計算できます。
ファイルごとの単語・n-gram 頻度を集計した頻度表が作れます。
TF-IDF (Term-Frequency Inverse Document Frequency)
TF-IDF を計算して出力します。
キーワードグループ
総コロケーション頻度
グループコロケーション頻度
ワイルドカードや正規表現を利用して文字列をしたり、特定の単語のみの頻度を手早く得たいときのための機能です。
Word Count と同様にキーワード分析ができます。
グループの 1 つを参照コーパス、それ以外のグループを対照コーパスとしてキーワード分析を行います。
グループの 1 つを対対照コーパス、それ以外のグループの合計を参照コーパスとして、すべてのグループについてキーワード分析を行います。
ツールでの文字列検索のオプションなどを説明します。