LogoMark.png

RegularExpression のバックアップの現在との差分(No.0)


#author("2021-07-27T22:12:59+09:00;2020-02-29T17:21:05+09:00","default:inoue.ko","inoue.ko")
*正規表現
Regular Expression
~
正規表現(Regular Expression)とは、文字列中の「パターン」を表現する記述方法です。このパターン記述ができると、パターンに一致する複数の文字列を、シンプルに操作できるようになります。

~

**正規表現の基本
正規表現によるパターンは''「通常の文字(リテラル)」''と''「メタ文字(特殊な役割を与えられた記号)」''を組み合わせて記述します。
~

***リテラル
 abc、12345、日本語 ・・・ など通常の文字列
~

***メタ文字
 .   ^   $   [   ]   *   +   ?   {n,m}   |   (   )
~

***正規表現の例
-「九州」で始まる文字列
 ^九州.*

-「である。」で終わる文字列
 .*である。$

-「〇〇cm」の形で書かれた数値
 [0-9]+cm

~
~

**正規表現の事例

***任意の1文字:.
-パターン
  ....は600円
-マッチする文字列
 ラーメンは600円。
 焼肉定食は600円です。
~

***行頭の文字列を指定:^
-パターン
 ^緊急
-マッチする文字列
 緊急電話, 緊急対策会議
~

***行末の文字列を指定:$
-パターン
  ある。$
-マッチする文字列
 ・・・である。,  ・・がそこにある。
~

***指定文字のいずれか:[ ]
-例1
--パターン
 明日は[晴曇雨]です。
--マッチする文字列
 明日は晴です。,  明日は曇です。, 明日は雨です。
-例2:アルファベット大文字がそこに含まれる
--パターン
 A[A-Z]CDEFG 
--マッチする文字列
 AACDEFG, ABCDEFG, ・・・, AZCDEFG
-例3:アルファベット大文字以外がそこに含まれる
--パターン
 A[^A-Z]CDEFG
--マッチする文字列
 A0CDEFG, AnCDEFG,  A+CDEFG など

~

***直前の文字の0回以上の繰り返し: *  
直前の文字がないか、直前の文字が1個以上連続する場合に合致
-パターン
 わー*い
-マッチする文字列
 わい,  わーーい,  わーーーーい
-参考
 .*
なんでもあり・・となります。正規表現の最後に .* が来た場合は、行末まで合致することになります。
~

***直前の文字の1回以上の繰り返し: + 
上記 * と基本的に同じですが、少なくとも1個は + の直前の文字が必要。
-パターン
 わー+い
-マッチする文字列
 わーい,  わーーい,  わーーーーい
~

***直前の文字の0回か、1回の繰り返し: ?
直前の文字がないか1つだけあるという意味です。 これ結構使えます。

-例1
--パターン
 わー?い
--マッチする文字列
 わい,  わーい

-例2
--パターン
 090-?1234-?5678
--マッチする文字列
 09012345678 , 090-1234-5678 , 090-12345678 , 0901234-5678

-例3
--パターン
 jpe?g
--マッチする文字列
 jpg ,  jpeg
~


***直前の文字の繰り返しの回数の指定( {n,m} )
-パターン
 OK!{1,6}
-マッチする文字列
 OK!
 OK!!
 OK!!!!!!
~

***論理和(または): |
-パターン
 (醤油|味噌|塩|豚骨)ラーメン
-マッチする文字列
 醤油ラーメン, 味噌ラーメン, 塩ラーメン, 豚骨ラーメン, 
~

***サブパターン:()
カッコ内のパターンにマッチした文字列を後方参照
-例1
--パターン
 今日は(5時|深夜)に帰宅します 
--マッチする文字列
 今日は5時に帰宅します,   今日は深夜に帰宅します 
-例2
--パターン
  (じゃ)+ーん 
--マッチする文字列
 じゃーん,   じゃじゃーん, ・・   ,  じゃじゃじゃじゃーん
~
~

**特殊な記号
***エスケープシーケンスについて
正規表現においてメタ文字(特別な意味を持つ記号そのもの)を照合対象とする場合にどうするか・・。そのとき用いられるのがエスケープシーケンスと呼ばれる「\(バックスラッシュ)」を用いた記述です。

メタ文字の直前にバックスラッシュを配置することで、直後のメタ文字を通常の文字として認識させることができます。以下の例では、メタ文字 [ . ] の前にバックスラッシュを書いて [ \. ] と表記することで照合させています。
-パターン
 example\.com
-マッチする文字列
 example.com

//***参考:デリミタのエスケープ
//デリミタ(後述)をリテラルとして照合する場合にも、その文字をエスケープする必要があります。以下の例では、デリミタ [ / ] の前にバックスラッシュを書いて [ \/ ] と表記することで照合させています( [ ? ]  は「直前の文字がないか1つだけある」を意味しています)。
//-パターン
// https?:\/\/example\.com
//-マッチする文字列
// https://example.com
// http://example.com

~

***デリミタについて
デリミタ(Delimiter)とは、実際のプログラミング等において、パターンの範囲を明示すべくその両端を囲む半角文字記号のことです。デリミタには [ / , { }, #, @ ] など、様々な記号が用いられます。

-JavaScript|match() 関数など
JavaScriptでは、デリミタに [ / ] を使います(以下、例)。
 let pattern = /ab+c/ ;
以下のようにして生成することも可能です。
 let pattern = new RegExp('ab+c');

-PHP|preg_match() 関数など
英数字、バックスラッシュなど、空白文字以外の任意の文字をデリミタとして使うことができます。よく使われる文字は、[ /(スラッシュ)]、 [ #(ハッシュ記号)] および [ ~(チルダ)] です(以下例)。
 /foo bar/
 #^[^0-9]$#
 +php+
 %[a-zA-Z0-9_-]%
括弧をデリミタを使うことも可能です。  ( )、 { }、[ ]  また < > など、開閉括弧がそれぞれ開始デリミタ、終了デリミタとなります。
~

***デリミタの使い分け
例えば URL など、パターン内にメタ文字である [ /(スラッシュ)] 文字が出現するケースでは、デリミタには [ / ] ではなく、[ # ] などを使うのがよいでしょう。例えば、/images/sample.jpg は・・ 

-デリミタに [ / ] を使った場合、パターンに含まれる [ / ] をリテラル化するために [ \ ](バックスラッシュ)によるエスケープ(回避)が必要になります。
 $ptn = '/\/images\/sample.jpg/';
&small( [ \ ] は、Macの場合 [ option ] + [ ¥ ] で表示されます。);
-デリミタに#を使えば、スラッシュのエスケープが不要になります。
 $ptn = '#/images/sample.jpg#';
~
~

**APPEDIX
***正規表現チェッカー
記述したパターンで、正しく対象を照合できるかチェックできます。
-http://okumocchi.jp/php/re.php
対応言語:PHP, Javascirpt
-https://www.debuggex.com/
対応言語:PHP, Javascirpt, Python
~

***正規表現サンプル集
-https://www.megasoft.co.jp/mifes/seiki/meta.html (メタ文字一覧)
-https://www.megasoft.co.jp/mifes/seiki/(検索サンプル)
-https://www.megasoft.co.jp/mifes/seiki/index_r1.html(置換サンプル)

~
~