跳到主要內容

手工打造算式計算機

前面已經對(E)BNF表示式作過一個簡介,現在要來看看怎麼樣實作一個可以處理簡單的整數四則運算的Parser。因為我們的重點將放在Parser的語法器(syntax analyser)上,所以忽略字彙剖析器(lexical scanner)不談,雖然一個Parser是由這二部份構成。

;

許多Parser或Compiler相關的書籍資料上,都會拿簡單的算式計算機作為範例,可以找的到算式計算機的EBNF表示式,底下我們直接引用:

expression = term ('+' term | '-' term)*
term = factor ('*' factor | '/' factor)*
factor = integer | group
group = '(' expression ')'

上面的語法可以使用來解析如下的算式:

1+2-3*4
5*(6-(7+8)/9)

;

那麼要如何實作出能夠解析符合我們定義好的規則語法的資料的剖析器呢?

一個剖析器的轉換工作主要分成二個部份:將讀入的資料串流分解為有意義的小單位 token,及處理這些token間的關係。將資料串流分解成小單位 token的工作我們不多作說明。我們現在直接假設我們已經能夠得到分解完畢的 token了,接下來的工作就是分析這些 token之間的關係,檢查它們是否符合我們定義的規則語法。

作法相當的直接。首先,我們從資料串流中獲取一個token,接著檢查這個token是否符合我們正在檢查的語法的第一個符號,如果比對結果是符合的話,那麼我們就把當前的 token 給丟棄並再讀入下一個token,接著再繼續拿這個token和規則的下一個符號作比對。在比對規則時,如果中間遇到了非終端符號,則這個非終端符號會再展開。一直重複這個動作直到讀完所有資料為止,比對的程序才結束。

拿我們定義的group規則來作說明,以下為虛擬碼。
// 檢查當前的token是否是我們所期望匹配的符號
void match(token)
{
  if (current_token == token)
    current_token = get_next_token(); // 如果匹配成功則再讀入下一個符號
  else
    error(token + “ token expected); // 比對失敗報出錯誤
}

// group規則
void group()
{
  match('('); // 第一個符號需匹配 '(' 字元 (終端符號)
  expression(); // expression是另一條規則需在往下展開 (非終端符號)
  match(')'); // 最後一個符號需匹配 ')' 字元 (終端符號)
}
使用這樣的方法我們可以很容易的把(E)BNF描述句轉成程式碼實作出來。

;

我們已經知道要怎麼把我們的算式計算機給實作出來,所以接下將前面定義的EBNF表示式轉換成如下的C/C++程式碼。
// 規則:group := '(' expression ')'
float group()
{
  float val;
  match('('); // 第一個符號需匹配 '(' 字元
  val = expression(); // expression是另一條規則需要往下展開
  match(')'); // 最後一個符號需匹配 ')' 字元
  return val;
}
接著是factor。
// 規則:factor := integer | group
float factor()
{
  if ('(' == current_token) // 是group規則的開始符號嗎?
    return group(); // 以group規則展開
  else
    return get_number(); // 讀解出一個數字
}
factor這條規則是由integer或group這樣的規則組成,其中 integer是個終端符號而group是非終端符號,所以我們一開始先作一個檢查來判定目前讀到的 token是不是group規則的開始符號,如果是的話就再以group規則展開,否則就直接讀取出一個數字來。

接著來看term這條規則。
// 規則:term := factor (('*' factor) | ('/' factor))*
float term()
{
  float val = factor();
  while ('*' == current_token || '/' == current_token)
  {
    if ('*' == current_token)
    {
      match('*');
      val *= factor();
    }
    else
    {
      match('/');
      val /= factor();
    }
  }
  return val;
}
最後是expression。
// 規則:expression := term (('+' term) | ('-' term))*
float expression()
{
  float val = term();
  while ('+' == current_token || '-' == current_token)
  {
    if ('+' == current_token)
    {
      match('+');
      val += term();
    }
    else
    {
      match('-');
      val -= term();
    }
  }
  return val;
}
大功告成!

;

因為我們實作的是簡單的算式計算機,所以用的方法很直接,對於錯誤的處理是直接中斷跳出,在更複雜的Parser就必須再配合roll back的機制,這樣才能處理option的情況,基本概念如下的虛擬碼。
bool ab()
{
  char* save = p;
  if ('a' == *p ++ && 'b' == *p++)
    return true;

  p = save; // roll back
  return false;
}
這樣子的實作手法會更一般化。

p是輸入串流也是我們讀取token的來源,在進入點我們一律會先把目前串流的位置記錄下來,以便當這條規則不符合時可以回覆原來的狀態,讓上一層規則可以繼續嘗試其它規則。

留言

這個網誌中的熱門文章

猜數字遊戲 (電腦猜人)

前幾天午睡時突然被告知要參加公司內部的程式設計比賽,題目是用C寫一支文字模式的4位數字猜數字遊戲,由使用者來猜電腦的數字。在上星期時其實就已經有公佈了,但我沒有注意到所以是臨時加入,還好這是個簡單的題目,不用花多少時間就可以寫出來。 規則: - 這是一對一比賽,雙方各選擇一4位數字,不讓對方知道。 - 4位數字由數字0至9組成,每位數不得重複。 - 雙方輪流猜對方的數字,直到一方猜中為止。 - A方猜B方的數字後,B方根據A方的猜測回答幾A幾B。 - 一個A表示猜中一個數字且位置正確,一個B表示猜中一個數字但位置不正確。 - 當一方猜中4A0B時即表示猜中對方全部4個數字且位置正確,贏得比賽。 - 例:B的謎底是4208,底下箭頭左測是A的猜測,箭頭右測是B的回答。    1234 ==> 1A1B    5678 ==> 1A0B    2406 ==> 1A2B    ...    4208 ==> 4A0B ; 寫個程式讓玩家來猜電腦的數字不難,不過我從來沒有寫過讓電腦來猜玩家數字的版本,所以花了點時間想想怎麼寫。 研究後歸納出二個點。 1, 使用窮舉法將所有可能數字組合列出。 2, 每次猜測後根據結果排除不可能是答案的組合,重複這個動作直到猜中答案為止。 第1點只是實作問題,第2點概念也很簡單,但要過濾不是答案的組合根據的是什麼?乍看之下沒什麼頭緒,不過想通之後就非常簡單了。 它的基本原理如下:假如謎底是4561,如果猜1524則會得到1A2B。從相反的角度來看,如果謎底是1524,則猜4561時也會得到1A2B的回答。 利用這個方法,每一次猜測一個數字X後,再以這個數字當作答案,來和所有剩下來的候選答案作比對,如果得到的結果(幾A幾B)和數字X是一樣的話,就把這個數字保留下來繼續作為候選答案,否則就過把這個數字過濾掉。下一把,繼續從候選答案裡選一個出來猜,重複上面的動作,直到猜中為止。 ; C++ STL的algorithm裡有個叫作next_permutation的函數,可以用來生成排列。 #include <iostream> #include <algorithm> using namespace std; int main () {   int myints[] = {1,2,3};  ...

單人撲克牌遊戲 - 蒙地卡羅

新增一個簡單的單人撲克牌遊戲: 蒙地卡羅 ,簡單介紹一下玩法。 下載 事先排列好5x5張牌。 每次移動一張可以配對的牌,並消除這對牌。在上下、左右及斜向相隣的二張牌,只要擁有同樣數字(不計花色),即可配對。 消除二張配對的牌後,剩餘的牌以往左往上的方式補滿空隙,接著在發新牌補滿後面的空格。 重覆步驟2~3,直到沒有牌可以配對及發完所有牌為止。 結果有二種。一個是勝利,成功的消除掉所有牌。另一個是Gameover沒有牌可以再作配對。

以lex/yacc實作算式計算機

前面我們透過 手工的方式 實作了一個簡易的算式計算機,現在我們要開始使用工具來作同樣的事,比較看看手工和使用工具有什麼不同的差別。首先要介紹的就是lex&yacc。 lex & yacc lex(Lexical Analyzar)及yacc(Yet Another Compiler Compiler)是用來輔助程式設計師製作語法剖析器的程式工具。lex的工作就是幫助我們將輸入的資料文字串流分解成一個個有意義的token,而yacc的工作就是幫我們分析這些token和我們定義的規則作匹配。下圖中所表示的是使用lex及yacc的一般工作流程。 首先看到yacc會讀入一個.y檔案,這裡.y檔案的內容就是我們使用類似(E)BNF語法定義的語法規則,yacc會分析這些語法規則後,幫我們產生可以用來解析這些規則的程式碼,而這個檔案一般名稱預設為y.tab.c,產生的程式碼裡面最重要的一個的函式叫作yyparse。 同yacc類似,lex也會讀入一個.l的檔案,這個檔案裡面定義的是如何從文字流裡解出token的規則,使用的方法是常規表示式(regular expression)。在圖的左側中間我們還可以看到有一個叫作y.tab.h的檔案從yacc產生出來並餵給lex作輸入,這個檔案是yacc根據在讀入的.y檔裡面所定義的token代號所產生出來的一個header,這樣yacc及lex產生出來的程式碼裡面就可以使用共通定義的代碼而不必各寫個的。lex分析過.l檔案後也會產生一個一般預設叫作lex.yy.c的原始碼檔案,裡頭最重要的一個函式叫作yylex。 最後,我們把yacc產生出來的y.tab.c還有lex產生出來的lex.yy.c,以及其它我們自己撰寫的原始碼檔案一起拿來編譯再作連結,最後產生出來的就是一個可以用來解析我們定義的語法的解析器工具。以上是整個lex及yacc的使用流程概觀。 常規表示式 在正式使用lex之前,我們首先來對常規表示法作一個基本的認識。常規表示法是一種用來表示字串樣式(pattern)的中繼語言,就好比前文所介紹的(E)BNF表示式一樣,都是用來描述其它語言的語言,只不過用途不太一樣罷了。 常規表示式使用一些中繼符號(meta-symbol)以及ASCII字元定義字串樣式,以下列出一些常規表示式所使用的符號。 . 表示除了換行字元...