正規表現・ワイルドカード

特殊な意味を持つ文字（メタ文字）

次の文字を正規表現パターン中に記す場合、特殊な意味を持つため、その文字自体を指示するには直前にバックスラッシュ（"\"）を記してエスケープする必要がある。

正規表現の種類		文字
正規表現の種類		^	$	.	[	]	\|	(	)	?	*	+	{	}	-
PCRE、POSIX拡張^[1]	角かっこ[]の外	○	○	○	○	○	○	○	○	○	○	○	○	○	-
PCRE、POSIX拡張^[1]	角かっこ[]の中^[2]	○	-	-	-	○	-	-	-	-	-	-	-	-	○
POSIX基本	角かっこ[]の外	○	○	○	○	○	-	-	-	-	○	-	-	-	-
POSIX基本	角かっこ[]の中	○	-	-	-	○	-	-	-	-	-	-	-	-	○

正規表現仕様がPCRE（Perl互換）になっているコマンドはPHPのPCRE関数群（例：preg_match、preg_match_all、preg_replace）など、POSIX拡張正規表現になっているコマンドはUNIXシェルコマンドのegrepなど
正規表現仕様がPOSIX基本になっているコマンドはUNIXシェルコマンドのgrep、sed、vi内での検索置換など

○→文字そのものを指定するにはエスケープが必要

それぞれの意味は以下の通り。

【角かっこ[ ]の外】
パターン	意味	例
`^`	行頭
`$`	行末
`.`	改行を除く任意の１文字
`[`	文字クラス定義の開始
`]`	文字クラス定義の終了
`\|`	選択枝の開始
`(`	サブパターンの開始
`)`	サブパターンの終了
`?`	直前のパターンに0回または1回マッチ、最少回数マッチ	`[abc]?`→abcいずれか１文字0回または1回にマッチ「`This is a pen. That is a pen.`」 `This.+pen\.`→This〜pen.に最長マッチ→「`This is a pen. That is a pen.`」にマッチ `This.+?pen\.`→This〜pen.に最短マッチ→「`This is a pen.`」にマッチ。
`*`	直前のパターンを0回以上の繰り返し
`+`	直前のパターンを1回以上の繰り返し
`{`	量指定子の開始
`}`	量指定子の終わり

【角かっこ[ ]の中】
パターン	意味	例
`^`	クラスの否定（文字クラスの最初に記した場合のみ）	`[^0123456789]`（数字以外）
`-`	文字範囲の指定（文字クラスの最初以外に記した場合）	`[0-9]`（数字） `[0-9\-]`（数字とハイフン） `[-0-9]`（数字とハイフン）
`]`	文字クラスの終わり	`[[{(\]})]`（大中小括弧）

制御系文字の出力

一般的にバックスラッシュを前に付けると、特殊な意味をなくす効果を持つ（例：\* → アスタリスクそのもの）。逆に以下の場合は制御系文字などを意味する。

パターン	意味	例
`\a`	アラーム、ベル（16進 07）
`\cx`	Ctrl + x
`\e`	エスケープ文字（16進 1B）
`\f`	改ページ（formfeed、16進 0C）
`\n`	改行（newline、16進 0A）
`\r`	復帰（carriage、16進 0D）
`\t`	タブ（tab、16進 09）
`\xhh`	キャラクターコードhh（16進数）の文字
`\ddd`	キャラクターコードddd（8進数）の文字、または後方参照

バックスラッシュの直後が数字の場合、8進数コードか後方参照、どちらとして解釈されるかは複雑。

パターン	意味	解釈
`\040`	空白文字（8進 40、16進 20）	8進数コード
`\40`（サブパターン40個未満）	空白文字（8進 40、16進 20）	8進数コード
`\40`（サブパターン40個以上）	40番目のサブパターン	後方参照
`\7`	7番目のサブパターン	後方参照
`\11`（サブパターン11個未満）	タブ文字（8進 11、16進 09）	8進数コード
`\11`（サブパターン11個以上）	11番目のサブパターン	後方参照
`\011`	タブ文字（8進 11、16進 09）	8進数コード
`\113`	K（8進 113、16進 4B）※100以上の後方参照はない	8進数コード

包括的文字クラスの指定

パターン	意味
`\d`	10進数の数字（`[0-9]`）
`\D`	10進数の数字以外（`[^0-9]`）
`\s`	空白文字
`\S`	空白文字以外
`\w`	単語構成文字（`[0-9A-Za-z_]`）
`\W`	単語構成文字以外（`[^0-9A-Za-z_]`）

後方参照

先に登場したパターンを後に参照するには、\数値 を使う。$数値 でもOK？なお直後に数字が続く場合は ${数値} のように番号を中括弧で囲む。

【例】PDBx:entity要素を検出するパターン（<PDBx:entity id="?">....</PDBx:entity>）
<(entity) .*>.*<\/\1> ←\1 の参照する内容は１番目に登場するサブパターン（entity）

パターンを (...) ではなく (?:...) で囲んでおくとキャプチャされない？⁹

各正規表現の比較

Emacs	PCRE^[8]（Perl互換）	POSIX基本正規表現 grep/sed/vi	POSIX拡張正規表現 egrep	Word	備考
.（ドット）	.（ドット）	.（ドット）		?	改行文字を除く任意の１文字。但し、perlで単一行指定をした場合は改行文字も含む。Wordは改行を含むのかどうかは未確認。例１：文字列 "`abcadcaecefc`" 中の "`a?c`"（`?`は任意の１文字）を全て "`axc`" に置換する。
	[文字列]	[文字列]		[文字列]	文字列のいずれか１文字を含むことを意味する。詳細は「文字クラス定義」参照。
	[^文字列]	[^文字列]		[!文字列]	文字クラス内で後続のパターンを否定する。
	^	^		<	（文字クラス外で）行頭に一致
	$	$		>	（文字クラス外で）行末に一致
		\<			（文字クラス外で）単語の先頭
		\>			（文字クラス外で）単語の末尾となる空文字
	\w	\w、[[:alnum::]]			アルファベット、数字、下線のいずれか１文字。"[a-zA-Z0-9_]" と同じ。
	\W	\W、[^[:alnum:]]			アルファベット、数字、下線以外のいずれか１文字。下線以外の記号、英数字ではない文字（全角文字など）。"[^a-zA-Z0-9_]" と同じ。
	\s				空白文字（スペース、復帰文字、タブ、改行文字、ラインフィード）。"[ ¥r¥t¥n¥f]" と同じ。
	\S				空白文字以外。"[^ ¥r¥t¥n¥f]" と同じ。
	\d				数字。"[0-9]" と同じ。
	\d				数字以外。"[^0-9]" と同じ。
	*	*		*	量指定子。直前のパターン０回以上に一致。"/img[0-9]*/" は "img","img8","img123"などに一致。
	+	（なし）	+	@	量指定子。直前のパターン１回以上に一致。"/img[0-9]+/" は "img8","img123"などに一致。"img"には一致しない。
	?	（なし）	?	?	量指定子。直前のパターン０回か１回に一致。"/img[0-9]?/" は "img","img8"などに一致。"img123"には一致しない。Wordの場合は「１回のみ」（0回はヒットしない）？（未確認）
\{m\}	{m}	\{m\}	{m}	{m}	量指定子。丁度m回に一致。
\{m,\}	{m,}	\{m,\}	{m,}	{m,}	量指定子。m回以上に一致。
\{m,n\}	{m,n}	\{m,n\}	{m,n}	{m,n}	量指定子。m回以上n回以下に一致。
$...$	(...)	$...$	(...)	(...)	グループ化。囲まれた部分にマッチするパターンを後で参照できる（後方参照）。
\1,\2,...,\9	$1,$2,...	\1,\2,...		\1,\2,...	後方参照。前項のグループ化で指定したパターン。数値は前からの登場順。後方参照の直後に数字が来る場合の対処法【Perlの例】「Version 3.7.2,  」→「Version 3.8,  」 s/Version 3\.7\.2, \ /${1}8${2}/
\|	\|	（なし）	\|		前後の正規表現のどちらか一方にマッチすればマッチしたと判定される。
Emacs	PCRE^[8]（Perl互換）	grep/sed/vi 基本正規表現	egrep 拡張正規表現	Word	備考

文字クラス定義（`[ ... ]`内）での規則
Emacs	perl	caseの条件節	備考
^	^	^	否定。文字クラスの先頭にこの文字を記述すると、以降の`[ ... ]`内文字をいずれも含まないことを意味する。 `[^abc]`→abc以外
^	^	!
-	-	-	範囲。文字コードがハイフン前後の文字を含め、その間にある文字全てが対象になる。 `[0-9]`→0〜9（数字全て） `[A-Z]`→大文字全て

参考サイト・文献

正規表現 [Perl講座 -Smart]
正規表現メモ…スクリプティング言語資料室(仮)
第IV部〜テキスト編集を極める！！　正規表現について
ひけつ (パソコン便利ツール集)
コモちゃんのPerlの小部屋
正規表現…鷹の島
正規表現 - Wikipedia
PCRE = Perl 互換正規表現（Perl Compatible Regular Expressions）。Apache^[12]、PHPのPCRE関数はこの正規表現を使う。
PHP Manual: パターン構文
PHP Manual: パターン修飾子
PHP: PCRE 正規表現構文 - Manual
Apache mod_rewrite Introduction - Apache HTTP Server
そのまま使える正規表現集 for regExp (javascript) | 素人ときどき玄人
Java | 正規表現グループを設定してパターンの一部にマッチした文字列を取得する
perlre - Perl の正規表現 - perldoc.jp