跳到主要內容

手工打造算式計算機

前面已經對(E)BNF表示式作過一個簡介,現在要來看看怎麼樣實作一個可以處理簡單的整數四則運算的Parser。因為我們的重點將放在Parser的語法器(syntax analyser)上,所以忽略字彙剖析器(lexical scanner)不談,雖然一個Parser是由這二部份構成。

;

許多Parser或Compiler相關的書籍資料上,都會拿簡單的算式計算機作為範例,可以找的到算式計算機的EBNF表示式,底下我們直接引用:

expression = term ('+' term | '-' term)*
term = factor ('*' factor | '/' factor)*
factor = integer | group
group = '(' expression ')'

上面的語法可以使用來解析如下的算式:

1+2-3*4
5*(6-(7+8)/9)

;

那麼要如何實作出能夠解析符合我們定義好的規則語法的資料的剖析器呢?

一個剖析器的轉換工作主要分成二個部份:將讀入的資料串流分解為有意義的小單位 token,及處理這些token間的關係。將資料串流分解成小單位 token的工作我們不多作說明。我們現在直接假設我們已經能夠得到分解完畢的 token了,接下來的工作就是分析這些 token之間的關係,檢查它們是否符合我們定義的規則語法。

作法相當的直接。首先,我們從資料串流中獲取一個token,接著檢查這個token是否符合我們正在檢查的語法的第一個符號,如果比對結果是符合的話,那麼我們就把當前的 token 給丟棄並再讀入下一個token,接著再繼續拿這個token和規則的下一個符號作比對。在比對規則時,如果中間遇到了非終端符號,則這個非終端符號會再展開。一直重複這個動作直到讀完所有資料為止,比對的程序才結束。

拿我們定義的group規則來作說明,以下為虛擬碼。
// 檢查當前的token是否是我們所期望匹配的符號
void match(token)
{
  if (current_token == token)
    current_token = get_next_token(); // 如果匹配成功則再讀入下一個符號
  else
    error(token + “ token expected); // 比對失敗報出錯誤
}

// group規則
void group()
{
  match('('); // 第一個符號需匹配 '(' 字元 (終端符號)
  expression(); // expression是另一條規則需在往下展開 (非終端符號)
  match(')'); // 最後一個符號需匹配 ')' 字元 (終端符號)
}
使用這樣的方法我們可以很容易的把(E)BNF描述句轉成程式碼實作出來。

;

我們已經知道要怎麼把我們的算式計算機給實作出來,所以接下將前面定義的EBNF表示式轉換成如下的C/C++程式碼。
// 規則:group := '(' expression ')'
float group()
{
  float val;
  match('('); // 第一個符號需匹配 '(' 字元
  val = expression(); // expression是另一條規則需要往下展開
  match(')'); // 最後一個符號需匹配 ')' 字元
  return val;
}
接著是factor。
// 規則:factor := integer | group
float factor()
{
  if ('(' == current_token) // 是group規則的開始符號嗎?
    return group(); // 以group規則展開
  else
    return get_number(); // 讀解出一個數字
}
factor這條規則是由integer或group這樣的規則組成,其中 integer是個終端符號而group是非終端符號,所以我們一開始先作一個檢查來判定目前讀到的 token是不是group規則的開始符號,如果是的話就再以group規則展開,否則就直接讀取出一個數字來。

接著來看term這條規則。
// 規則:term := factor (('*' factor) | ('/' factor))*
float term()
{
  float val = factor();
  while ('*' == current_token || '/' == current_token)
  {
    if ('*' == current_token)
    {
      match('*');
      val *= factor();
    }
    else
    {
      match('/');
      val /= factor();
    }
  }
  return val;
}
最後是expression。
// 規則:expression := term (('+' term) | ('-' term))*
float expression()
{
  float val = term();
  while ('+' == current_token || '-' == current_token)
  {
    if ('+' == current_token)
    {
      match('+');
      val += term();
    }
    else
    {
      match('-');
      val -= term();
    }
  }
  return val;
}
大功告成!

;

因為我們實作的是簡單的算式計算機,所以用的方法很直接,對於錯誤的處理是直接中斷跳出,在更複雜的Parser就必須再配合roll back的機制,這樣才能處理option的情況,基本概念如下的虛擬碼。
bool ab()
{
  char* save = p;
  if ('a' == *p ++ && 'b' == *p++)
    return true;

  p = save; // roll back
  return false;
}
這樣子的實作手法會更一般化。

p是輸入串流也是我們讀取token的來源,在進入點我們一律會先把目前串流的位置記錄下來,以便當這條規則不符合時可以回覆原來的狀態,讓上一層規則可以繼續嘗試其它規則。

留言

這個網誌中的熱門文章

單人撲克牌遊戲 - 蒙地卡羅

新增一個簡單的單人撲克牌遊戲: 蒙地卡羅 ,簡單介紹一下玩法。 下載 事先排列好5x5張牌。 每次移動一張可以配對的牌,並消除這對牌。在上下、左右及斜向相隣的二張牌,只要擁有同樣數字(不計花色),即可配對。 消除二張配對的牌後,剩餘的牌以往左往上的方式補滿空隙,接著在發新牌補滿後面的空格。 重覆步驟2~3,直到沒有牌可以配對及發完所有牌為止。 結果有二種。一個是勝利,成功的消除掉所有牌。另一個是Gameover沒有牌可以再作配對。

KillSudoku 4顆星精彩數獨 (三) - XY-Chains

這是數獨解題技巧裡面的高級技巧,比X-Chains還再高一點點。會這個技巧的話,就可以解4或5顆星的題目了。 這個用來測試的題目,用 KillSudoku 來解可以解出,中間使用了2次Naked Subset,1次 W-Wings ,1次 X-Chains ,2次 XY-Chains 。所以算起來,這一題應該是有5顆星的題目。 附帶一提,目前找鍊的演算法並沒有去找一條最短的鍊,所以可以看到用 KillSudoku 解的時候,第36的步驟找到一條超長的鍊,這條鍊足足由13條連線構成,要是沒練過的話,絕對頭昏眼花,找不出這樣的鍊來的。 實際上在這個步驟裡,是可以找到另一條更短的鍊。不過目前以先能work,之後有空會再改進演算法的部份。

猜數字遊戲 (電腦猜人)

前幾天午睡時突然被告知要參加公司內部的程式設計比賽,題目是用C寫一支文字模式的4位數字猜數字遊戲,由使用者來猜電腦的數字。在上星期時其實就已經有公佈了,但我沒有注意到所以是臨時加入,還好這是個簡單的題目,不用花多少時間就可以寫出來。 規則: - 這是一對一比賽,雙方各選擇一4位數字,不讓對方知道。 - 4位數字由數字0至9組成,每位數不得重複。 - 雙方輪流猜對方的數字,直到一方猜中為止。 - A方猜B方的數字後,B方根據A方的猜測回答幾A幾B。 - 一個A表示猜中一個數字且位置正確,一個B表示猜中一個數字但位置不正確。 - 當一方猜中4A0B時即表示猜中對方全部4個數字且位置正確,贏得比賽。 - 例:B的謎底是4208,底下箭頭左測是A的猜測,箭頭右測是B的回答。    1234 ==> 1A1B    5678 ==> 1A0B    2406 ==> 1A2B    ...    4208 ==> 4A0B ; 寫個程式讓玩家來猜電腦的數字不難,不過我從來沒有寫過讓電腦來猜玩家數字的版本,所以花了點時間想想怎麼寫。 研究後歸納出二個點。 1, 使用窮舉法將所有可能數字組合列出。 2, 每次猜測後根據結果排除不可能是答案的組合,重複這個動作直到猜中答案為止。 第1點只是實作問題,第2點概念也很簡單,但要過濾不是答案的組合根據的是什麼?乍看之下沒什麼頭緒,不過想通之後就非常簡單了。 它的基本原理如下:假如謎底是4561,如果猜1524則會得到1A2B。從相反的角度來看,如果謎底是1524,則猜4561時也會得到1A2B的回答。 利用這個方法,每一次猜測一個數字X後,再以這個數字當作答案,來和所有剩下來的候選答案作比對,如果得到的結果(幾A幾B)和數字X是一樣的話,就把這個數字保留下來繼續作為候選答案,否則就過把這個數字過濾掉。下一把,繼續從候選答案裡選一個出來猜,重複上面的動作,直到猜中為止。 ; C++ STL的algorithm裡有個叫作next_permutation的函數,可以用來生成排列。 #include <iostream> #include <algorithm> using namespace std; int main () {   int myints[] = {1,2,3};  ...