跳到主要內容

手工打造算式計算機

前面已經對(E)BNF表示式作過一個簡介,現在要來看看怎麼樣實作一個可以處理簡單的整數四則運算的Parser。因為我們的重點將放在Parser的語法器(syntax analyser)上,所以忽略字彙剖析器(lexical scanner)不談,雖然一個Parser是由這二部份構成。

;

許多Parser或Compiler相關的書籍資料上,都會拿簡單的算式計算機作為範例,可以找的到算式計算機的EBNF表示式,底下我們直接引用:

expression = term ('+' term | '-' term)*
term = factor ('*' factor | '/' factor)*
factor = integer | group
group = '(' expression ')'

上面的語法可以使用來解析如下的算式:

1+2-3*4
5*(6-(7+8)/9)

;

那麼要如何實作出能夠解析符合我們定義好的規則語法的資料的剖析器呢?

一個剖析器的轉換工作主要分成二個部份:將讀入的資料串流分解為有意義的小單位 token,及處理這些token間的關係。將資料串流分解成小單位 token的工作我們不多作說明。我們現在直接假設我們已經能夠得到分解完畢的 token了,接下來的工作就是分析這些 token之間的關係,檢查它們是否符合我們定義的規則語法。

作法相當的直接。首先,我們從資料串流中獲取一個token,接著檢查這個token是否符合我們正在檢查的語法的第一個符號,如果比對結果是符合的話,那麼我們就把當前的 token 給丟棄並再讀入下一個token,接著再繼續拿這個token和規則的下一個符號作比對。在比對規則時,如果中間遇到了非終端符號,則這個非終端符號會再展開。一直重複這個動作直到讀完所有資料為止,比對的程序才結束。

拿我們定義的group規則來作說明,以下為虛擬碼。
// 檢查當前的token是否是我們所期望匹配的符號
void match(token)
{
  if (current_token == token)
    current_token = get_next_token(); // 如果匹配成功則再讀入下一個符號
  else
    error(token + “ token expected); // 比對失敗報出錯誤
}

// group規則
void group()
{
  match('('); // 第一個符號需匹配 '(' 字元 (終端符號)
  expression(); // expression是另一條規則需在往下展開 (非終端符號)
  match(')'); // 最後一個符號需匹配 ')' 字元 (終端符號)
}
使用這樣的方法我們可以很容易的把(E)BNF描述句轉成程式碼實作出來。

;

我們已經知道要怎麼把我們的算式計算機給實作出來,所以接下將前面定義的EBNF表示式轉換成如下的C/C++程式碼。
// 規則:group := '(' expression ')'
float group()
{
  float val;
  match('('); // 第一個符號需匹配 '(' 字元
  val = expression(); // expression是另一條規則需要往下展開
  match(')'); // 最後一個符號需匹配 ')' 字元
  return val;
}
接著是factor。
// 規則:factor := integer | group
float factor()
{
  if ('(' == current_token) // 是group規則的開始符號嗎?
    return group(); // 以group規則展開
  else
    return get_number(); // 讀解出一個數字
}
factor這條規則是由integer或group這樣的規則組成,其中 integer是個終端符號而group是非終端符號,所以我們一開始先作一個檢查來判定目前讀到的 token是不是group規則的開始符號,如果是的話就再以group規則展開,否則就直接讀取出一個數字來。

接著來看term這條規則。
// 規則:term := factor (('*' factor) | ('/' factor))*
float term()
{
  float val = factor();
  while ('*' == current_token || '/' == current_token)
  {
    if ('*' == current_token)
    {
      match('*');
      val *= factor();
    }
    else
    {
      match('/');
      val /= factor();
    }
  }
  return val;
}
最後是expression。
// 規則:expression := term (('+' term) | ('-' term))*
float expression()
{
  float val = term();
  while ('+' == current_token || '-' == current_token)
  {
    if ('+' == current_token)
    {
      match('+');
      val += term();
    }
    else
    {
      match('-');
      val -= term();
    }
  }
  return val;
}
大功告成!

;

因為我們實作的是簡單的算式計算機,所以用的方法很直接,對於錯誤的處理是直接中斷跳出,在更複雜的Parser就必須再配合roll back的機制,這樣才能處理option的情況,基本概念如下的虛擬碼。
bool ab()
{
  char* save = p;
  if ('a' == *p ++ && 'b' == *p++)
    return true;

  p = save; // roll back
  return false;
}
這樣子的實作手法會更一般化。

p是輸入串流也是我們讀取token的來源,在進入點我們一律會先把目前串流的位置記錄下來,以便當這條規則不符合時可以回覆原來的狀態,讓上一層規則可以繼續嘗試其它規則。

留言

這個網誌中的熱門文章

猜數字遊戲 (電腦猜人)

前幾天午睡時突然被告知要參加公司內部的程式設計比賽,題目是用C寫一支文字模式的4位數字猜數字遊戲,由使用者來猜電腦的數字。在上星期時其實就已經有公佈了,但我沒有注意到所以是臨時加入,還好這是個簡單的題目,不用花多少時間就可以寫出來。 規則: - 這是一對一比賽,雙方各選擇一4位數字,不讓對方知道。 - 4位數字由數字0至9組成,每位數不得重複。 - 雙方輪流猜對方的數字,直到一方猜中為止。 - A方猜B方的數字後,B方根據A方的猜測回答幾A幾B。 - 一個A表示猜中一個數字且位置正確,一個B表示猜中一個數字但位置不正確。 - 當一方猜中4A0B時即表示猜中對方全部4個數字且位置正確,贏得比賽。 - 例:B的謎底是4208,底下箭頭左測是A的猜測,箭頭右測是B的回答。    1234 ==> 1A1B    5678 ==> 1A0B    2406 ==> 1A2B    ...    4208 ==> 4A0B ; 寫個程式讓玩家來猜電腦的數字不難,不過我從來沒有寫過讓電腦來猜玩家數字的版本,所以花了點時間想想怎麼寫。 研究後歸納出二個點。 1, 使用窮舉法將所有可能數字組合列出。 2, 每次猜測後根據結果排除不可能是答案的組合,重複這個動作直到猜中答案為止。 第1點只是實作問題,第2點概念也很簡單,但要過濾不是答案的組合根據的是什麼?乍看之下沒什麼頭緒,不過想通之後就非常簡單了。 它的基本原理如下:假如謎底是4561,如果猜1524則會得到1A2B。從相反的角度來看,如果謎底是1524,則猜4561時也會得到1A2B的回答。 利用這個方法,每一次猜測一個數字X後,再以這個數字當作答案,來和所有剩下來的候選答案作比對,如果得到的結果(幾A幾B)和數字X是一樣的話,就把這個數字保留下來繼續作為候選答案,否則就過把這個數字過濾掉。下一把,繼續從候選答案裡選一個出來猜,重複上面的動作,直到猜中為止。 ; C++ STL的algorithm裡有個叫作next_permutation的函數,可以用來生成排列。 #include <iostream> #include <algorithm> using namespace std; int main () {   int myints[] = {1,2,3};  ...

KillSudoku 4顆星精彩數獨詳解 - 鍊技巧

這題數獨(sudoku)題目估計為4+顆星,有點難度。解題需要應用多種技巧,過程非常精彩有趣,是個好題。 底下使用 KillSudoku 作詳細圖解。 1,使用基本排除法則,可以簡單填入6個數字。到此為止,開始使用 候選數法 來解題。如下所示,為填入6個數字後的狀態圖。 2,如下圖,使用進階排除法,在第9列和第4行可以先排除幾個候選數。 3,如圖,在第2行有一個 Naked Subset (3,4),可以對3,4候選數作排除。附帶提一下,反過來看在同一行裡面也可以說有另一個Hidden Subset(2,5,8)存在。Naked Subset和Hidden Subset常是一體二面同時存在,只不過對我們來說,Naked Subset是相對比較容易看的出來。 排除第2行的3,4後,又可以對第2列以外的3作排除,如下圖。 4,接著,在第5行又發現了一個 Naked Subset (3,7,8)。 對第5行三個Subset以外的候選數3,7,8作排除後,又接著產生可以對第5行以外的3作排除。 5,這一題解到此為止,開始進入高潮。大部份能解到3顆星題目的人,猜想應該就此卡住。以下開始需要應用更高級的鍊技巧,才能夠繼續進行。 應用X-Chains鍊技巧,可以找到一條由4條強連結組成的鍊,可以排除候選數2。這裡的鍊指的是由2條以上的強連結組成,而所謂的強連結是指在同一行、或同一列或同一個Box裡,由唯二的候選數構成的連結。如上圖中的第9行中,只有二個2,這二個2構成一條強連結。為什麼說這是一條強連結?因為在這條連結的AB二個端點中,肯定會有一個2存在,要麼是A點要麼是B點。鍊技巧就是將多條強連結串連起來作候選數排除的技巧,而X-Chains是高級的鍊技巧裡面的基本技巧。 接上圖,這樣一來就又可以應用基本排除方法,填入3個數字,如下圖所示。 6,接下來就是本題最精彩的部份,以下需要連續找到3條鍊,才能繼續往下解。 7,找出3條鍊後,剩下來的部份就沒什麼特別的了,只需要應用基本法就能把所有剩餘數字填完。

KillSudoku 4顆星精彩數獨 (三) - XY-Chains

這是數獨解題技巧裡面的高級技巧,比X-Chains還再高一點點。會這個技巧的話,就可以解4或5顆星的題目了。 這個用來測試的題目,用 KillSudoku 來解可以解出,中間使用了2次Naked Subset,1次 W-Wings ,1次 X-Chains ,2次 XY-Chains 。所以算起來,這一題應該是有5顆星的題目。 附帶一提,目前找鍊的演算法並沒有去找一條最短的鍊,所以可以看到用 KillSudoku 解的時候,第36的步驟找到一條超長的鍊,這條鍊足足由13條連線構成,要是沒練過的話,絕對頭昏眼花,找不出這樣的鍊來的。 實際上在這個步驟裡,是可以找到另一條更短的鍊。不過目前以先能work,之後有空會再改進演算法的部份。