文章詳情頁

JavaScript正則表達(dá)式這幾個細(xì)節(jié)你真的知道？

瀏覽：45日期：2023-11-16 14:47:11

前言

粗淺的編寫正則表達(dá)式，是造成性能瓶頸的主要原因。如下：

var reg1 = /(A+A+)+B/; var reg2 = /AA+B/;

上述兩個正則表達(dá)式，匹配效果是一樣的，但是，效率就相差太遠(yuǎn)了，甚至在與少量字符串匹配時，reg1就會造成你瀏覽器卡死。

不信？我們可以測試下。

首先，我們聲明一個字符串變量str，同時賦予一個包含20個A的字符串給str，采用match方法與上述reg1、reg2進(jìn)行匹配測試，如下：

var str = ’AAAAAAAAAAAAAAAAAAAA’;str.match(reg1);str.match(reg2);

在瀏覽器中運行該段代碼，發(fā)現(xiàn)一切正常嘛。

然而，隨著，我們不斷向變量str中添加A后，重復(fù)測試，在某一刻（取決于你的瀏覽器），reg1就會讓我們的瀏覽器掛起，但，回頭看看最終的str字符串長度，卻還不到50。而，reg2卻安然無恙。

心里有一絲疑問，是什么造成了它們?nèi)绱司薮蟮牟顒e？以后我們在寫正則表達(dá)式時，又該如何避免防范這類問題呢？

那么，接下來，我們就有必要深入理解JavaScript正則表達(dá)式的內(nèi)部執(zhí)行原理了。

如果，在此你還不是很了解正則表達(dá)式，那么可以參考如下兩篇博客后，再前來，小生在此等候。

正則表達(dá)式工作原理

為了高效的使用正則表達(dá)式，理解它們的工作原理是很重要的。

具體如下：

Step1.編譯

當(dāng)我們創(chuàng)建一個正則表達(dá)式（字面量或者RegExp對象）后，瀏覽器會檢查該正則的模板是否符合標(biāo)準(zhǔn)，然后將其轉(zhuǎn)化成內(nèi)部代碼，用于執(zhí)行匹配工作。

所以，如果我們將正則表達(dá)式賦予一個變量，可以避免重復(fù)執(zhí)行該 ‘編譯’ 步驟。

Step2.設(shè)置開始位置

當(dāng)我們使用Step1中編譯后的正則表達(dá)式時，首先它將確定從目標(biāo)字符串中什么位置進(jìn)行匹配。通常，是目標(biāo)字符串的起始位置，或者由正則表達(dá)式的lastIndex屬性指定。

但是，當(dāng)它從Step4（匹配失敗）中返回時，該位置則為匹配失敗的位置的下一個位置。

Step3.正則匹配

當(dāng)經(jīng)歷Step2后，正則表達(dá)式將從指定位置，從左到右，與目標(biāo)字符串，逐個匹配。若，正則表達(dá)式在匹配過程中，遇到某個字元匹配不了時，它不會立即失敗，而是嘗試回溯到最近一個決策點，然后在剩余選項中選擇一個，以求繼續(xù)能匹配。

Step4.匹配結(jié)果

當(dāng)經(jīng)歷Step3后，發(fā)現(xiàn)能與正則匹配成功的子字符串，那么就匹配成功。如果，經(jīng)歷了Step3后，發(fā)現(xiàn)沒有能與正則匹配的子字符串，那么，它將回到Step2，繼續(xù)。只有當(dāng)目標(biāo)字符串中的每個字符（以及最后一個字符后面的位置）都經(jīng)歷了Step3后，仍沒有找到匹配項，才宣布失敗。

下面就舉個例子，使我們更透徹地明白以上4步。

如下：

var reg = /A(B|C)D/g; var str = ’ABCACD’;reg.exec(str);

① 首先，瀏覽器將解析reg正則表達(dá)式(Step1)。

② 然后，由于是首次匹配，所以確認(rèn)開始位置即為字符串起始位置(Step2)。

③ 首先由正則的第一個字元A與字符串起始位置字符A匹配，成功，并在之后的位置記錄一個決策點，因為后面有分支嘛；然后由 (B|C)分支中的B選項去匹配字符串的B，發(fā)現(xiàn)匹配；然后再由正則下一個字元D去匹配目標(biāo)字符串第三個字符C，發(fā)現(xiàn)不匹配，但是并沒有放棄，而是回溯，查看是否有決策點，發(fā)現(xiàn)有，回溯到就近一個決策點（字符串首字母A之后的那個位置上），嘗試?yán)玫诙€分支選項C去匹配字符串第二個字符B，發(fā)現(xiàn)不匹配，回溯，查詢是否還有其他分支選項，發(fā)現(xiàn)沒有，然后宣布該次失敗(Step3)。

④ 經(jīng)歷Step3后，發(fā)現(xiàn)沒有與正則匹配的子字符串，但是，與之匹配的目標(biāo)字符串的匹配位置并不是最后一個位置，所以，回到Step2，從目標(biāo)字符串的下一個位置（即，字符串首字母A之后的那個位置上）開始匹配。首先由正則表達(dá)式的第一個字元A與目標(biāo)字符串B匹配，不成功，又無回溯點，故而，進(jìn)入Step4，判斷是否是最后一個位置，發(fā)現(xiàn)不是，又跳到Step2中繼續(xù)。

⑤ 就這樣一步一步，來到了目標(biāo)字符串的第四個位置，首先A去與目標(biāo)字符串的第三個字符A匹配，成功；接下來就是由分支（B|C），去匹配C，首先由分支中的第一個選項B去與C匹配，發(fā)現(xiàn)沒有成功，回溯到就近一個決策點，嘗試?yán)玫诙€分支選項C匹配，成功，緊接著D也成功了。