≪処理7≫ 重複レコードの処理
【用 途】
膨大なデータの分析では、重複レコードが貴重な資料になることがあります。そのため、重複するレコードを取り除いたり、逆に重複するレコードだけを取り出したり、あるいは、重複しないレコードのみを抽出することも情報処理の基本処理のひとつです。
【サンプル処理】 ※データ内の氏名などはすべて架空のものです。
1 処理前
下のサンプルは、会場と出席者名を想定したものです。
※ 9以降は、省略
2 処理後
「出席者一連番号」「苗字」「名前」で重複するレコードの1件目のみを残して他のレコードが削除されます。
3 処理設定
「重複対照フィールド」を 「出席者一連番号」「苗字」「名前」とします。
処理前のデータがソートされていないので、「ソートする」にチェックします。
【処理説明】
全レコードを調査して、指定フィールドで重複するレコードの削除などをします
1 対象レコード:
全レコードを対象とします
2 重複対照フィールド:
選択フィールドを対象とします
3 処理方法:
(1) 重複レコード2件目以降削除
重複なしレコードと最初の重複レコードを残し、重複レコードは2件目以降を削除します
(2) 重複レコード完全削除
重複なしレコードのみを残し、重複レコードは完全に削除します
(3) 重複レコードの1件目のみ残す
重複レコードの1件目のみを残し、重複なしレコードと2件目以降の重複レコードを削除します
(4) 重複レコードのみ残す
重複レコードのみを残し、重複なしレコードを削除します
4 対照時のオプション
□ 空白を削除
苗字・名前間の空白のように、その有無で対照結果が違ったものにならないように、双方の文字列の全角・半角スペースを除去してから処理します
□ ハイフンを削除
電話番号の区切りにハイフンを使用している番号と使用していない番号が違ったものと判定されないように、両方のフィールド内の文字を比較する時、ハイフンを除去してから処理します
□ かっこ( )を削除
電話番号内に括弧を使用している番号と使用していない番号が違ったものと判定されないように、両方のフィールド内の文字を比較する時、括弧を除去してから処理します
□ 大文字・小文字を区別しない
そのままでは大文字・小文字を区別して文字列比較します。チェックがある場合は、双方の文字列を大文字にしてから比較します
□ 旧字体・新字体を区別しない
チェックがある場合は、両方のフィールド内の文字列内の旧字体を新字体に置換してから処理します
【ご注意】不要な場合は処理が遅くなりますので、チェックしないでください
5 処理前に重複対照フィールドをキーとしてソートする
まだソートされていないときはチェックを付けてください
※ 既にソートされているときは、チェックを付けないと無駄なソート処理を省略できます
⇒ 「開始」ボタンをクリックすると、処理を開始します