正規表現(RegEx)とは、他の文字列や文字列の集合にマッチしたり、見つけたりするのに役立つ特殊な文字列で、パターンに保持された特殊な構文を使用しています。
Pythonモジュールreを最初にインポートする必要があります。最も単純なreのメソッドの例の1つは以下のものです。
re.findall(pattern, string):
stringの中に、patternを含む全ての文字列リストを返します。
文字列を分割するには、
re.split(pattern, string)
を使います。
この関数は、stringが各patternで分割されたリストを返します。
\sはあらゆる空白文字(タブや改行を含む)にマッチします。
大括弧[ ]は、複数のパターンにマッチするものを見つけることができます。
)、]、-、^などの特殊文字をパターンに含めたい場合は、その前にバックスラッシュ\を追加します。
大括弧[ ]には、ハイフン(-)で区切られた複数の文字を含めることができ、その場合はその範囲内の任意の1文字にマッチします。
[A-z]は、すべてのアルファベット文字にマッチします。大文字または小文字のみの場合は、[A-Z]または[a-z]を使用します。
[0-9]は任意の数字にマッチします。
あるパターンの複数の繰り返しにマッチさせるには、以下のようにします。
プラス+記号は、直前の正規表現の0回以上の繰り返しにマッチします。
{m}は直前の正規表現のちょうどm個の繰り返しにマッチします。
{m,n}直前の正規表現のmからn-1までの任意の数の繰り返しにマッチします。
小括弧( )は、パターンをグループ化するために使用できます。また、パターンの必要な部分だけをリストに戻すこともできます。