跳到主要內容

用Java寫一個簡單的Web Server

Java的生產力很高,拿它來寫個簡單的Web Server只需要不到200行的程式碼,底下就用Java一步一步實作一個簡單的HTTP網頁伺服器。

;

在開始前,需要對HTTP協定有一個基本的認識,在我們這個例子裡面,只需要知道GET請求(Request)即可。

當我們在瀏覽器的網址列輸入一個位址時,瀏覽器會送出一個GET請求到位址欄裡指定的網頁伺服器,去跟這個網頁伺服器取得網頁或檔案的內容。

例如,我們在網址列輸入 http://www.google.com.tw/,就是向www.google.com.tw這台伺服器要求一個檔案,而要求的檔案就是首頁(/)。

這個動作,瀏覽器會送出如下的HTTP請求命令到伺服器去 (以Chrome為例):

GET / HTTP/1.1
Host: www.google.com.tw
Connection: keep-alive
Cache-Control: max-age=0
Accept: application/xml,application/xhtml+xml,text/html;q=0.9,text/plain;q=0.8,i
mage/png,*/*;q=0.5
User-Agent: Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US) AppleWebKit/534.10 (
KHTML, like Gecko) Chrome/8.0.552.237 Safari/534.10
Accept-Encoding: gzip,deflate,sdch
Accept-Language: zh-TW,zh;q=0.8,en-US;q=0.6,en;q=0.4
Accept-Charset: Big5,utf-8;q=0.7,*;q=0.3
<注意,這裡還有一個空行,表示結束>

這裡的重點是第一行和最後一行。

由第一行,伺服器可以知道Client作的是那一種類的請求,這裡可以明顯的看到Client(Chrome)作了一個GET請求。同時,在第一行裡面也可以知道Client請求的是什麼。在此例中,可以看到Client請求的是/這個檔案。在第一行最後的部份,則是註明HTTP協定的版本號。

而最後一行,是一個空行,表示請求包的結束。伺服器在收到一個請求時,從第一行的請求命令開始,一直讀取到一個空行為止,為一個完整的封包。除了第一行和最後一行,對我們的簡單伺服器來說,中間的部份可以全都忽略不看。

伺服器收這個GET請求後,假如可以找到到指定的檔案,接下來就會把Client請求的檔案內容回傳,使用的格式如下:

HTTP/1.0 200 OK
Content-Type: text/html
Content-Length:
<注意,這裡還有一個空行,表示結束>
<接下來,這裡開始都是檔案資料內容,總長度為Content-Length所指定的數字>

否則回傳我們常見的404 Not Found錯誤,如下:

HTTP/1.0 404 File Not Found
<注意,這裡還有一個空行,表示結束>

有了以上這些知識後,就足夠我們寫個簡單的網頁伺服器。

;

考慮到因為每一個Client的請求,都是在發出時才和伺服器建立連線,完成後就立即切斷連線。所以在設計上,我們可以用多緒(multi-thread)的方法,每一個請求都用一個獨立的執行緒來處理,處理完成後切斷連線,同時也結束這個執行緒。

根據這個想法,很直接的就可以寫出如下的基本框架來:

public class SimpleWebServer implements Runnable {

 ServerSocket server = null ;

 public static void main(String args[]) throws Exception {
  new SimpleWebServer(80);
 }

 public SimpleWebServer(int port) throws Exception {
  server = new ServerSocket(port) ;
  run();
 }

 public void run() {

  try {

   //
   // 1, 等待一個新的連接請求(Request).
   //

   Socket s = server.accept();

   //
   // 2, 開新Thread處理新連接請求.
   //

   Thread task = new Thread(this);
   task.start();

   //
   // 3, 處理請求內容.
   //
   
   handleRequest(...);
  }
}
如上,在進入點main我們開了一個SimpleWebServer,給它一個80的port number(80是HTTP的port number)。SimpleWebServer的Constructor會建立一個ServerSocket的實體,然後啟動主執行緒。執行緒的主體非常簡單,它只作三件事情。
  1. 等待一個新的請求連線進來。
  2. 開啟一個新的執行緒繼續等待下一個新的連線請求進來。
  3. 處理這個請求。
完成這三件事情後,這條連線被關閉,執行緒結束。

以上的部份,已經是一個可以執行的最簡易版伺服器,差別只在於它完全不處理作任事。接下來,我們再把最後處理請求的部份完成。

;

void handleRequest(Socket s, BufferedReader reader, DataOutputStream os) throws Exception {

 try {

  //
  // 1, 讀取HTTP Header字串.
  //

  //
  // 2, 解出請求的資源路徑.
  //

  //
  // 3, 處理請求的資源.
  // (測試: 只處理Homepage的請求)
  //

  if ("/".equals(path) || "index.html".equals(path)) {
   String homepage = "Hello Simple Web Server";
   os.writeBytes(
     "HTTP/1.0 200 OK\r\nContent-Type: text/html\r\nContent-Length: " +
     homepage.length() +
     "\r\n\r\n" +
     homepage);

   return;
  }

  os.writeBytes("HTTP/1.0 404 File Not Found\r\n\r\n");
 } catch (Exception e) {
  os.writeBytes("HTTP/1.0 500 Internal Server Error\r\n\r\n");
 }
}
處理請求的部份也是分為三個步驟:
  1. 讀出HTTP請求內容。
  2. 從讀出的HTTP請求裡,取出請求的檔案名稱路徑。
  3. 傳送請求的檔案內容。
因為我們只實作一個最簡單的網頁伺服器,所以只處埋Homepage的請求。如果Client要求的是首頁,就回傳首頁的內容,這邊只回傳一個簡單的字串"Hello Simple Web Server"表示首頁。否則回傳找不到檔案的錯誤404 Not Found。其它狀況,則回傳伺服器錯誤500的錯誤碼。(更多的錯誤碼可以在這裡找到。)


完整的原始程式碼,在這裡下載。

留言

這個網誌中的熱門文章

以lex/yacc實作算式計算機

前面我們透過 手工的方式 實作了一個簡易的算式計算機,現在我們要開始使用工具來作同樣的事,比較看看手工和使用工具有什麼不同的差別。首先要介紹的就是lex&yacc。 lex & yacc lex(Lexical Analyzar)及yacc(Yet Another Compiler Compiler)是用來輔助程式設計師製作語法剖析器的程式工具。lex的工作就是幫助我們將輸入的資料文字串流分解成一個個有意義的token,而yacc的工作就是幫我們分析這些token和我們定義的規則作匹配。下圖中所表示的是使用lex及yacc的一般工作流程。 首先看到yacc會讀入一個.y檔案,這裡.y檔案的內容就是我們使用類似(E)BNF語法定義的語法規則,yacc會分析這些語法規則後,幫我們產生可以用來解析這些規則的程式碼,而這個檔案一般名稱預設為y.tab.c,產生的程式碼裡面最重要的一個的函式叫作yyparse。 同yacc類似,lex也會讀入一個.l的檔案,這個檔案裡面定義的是如何從文字流裡解出token的規則,使用的方法是常規表示式(regular expression)。在圖的左側中間我們還可以看到有一個叫作y.tab.h的檔案從yacc產生出來並餵給lex作輸入,這個檔案是yacc根據在讀入的.y檔裡面所定義的token代號所產生出來的一個header,這樣yacc及lex產生出來的程式碼裡面就可以使用共通定義的代碼而不必各寫個的。lex分析過.l檔案後也會產生一個一般預設叫作lex.yy.c的原始碼檔案,裡頭最重要的一個函式叫作yylex。 最後,我們把yacc產生出來的y.tab.c還有lex產生出來的lex.yy.c,以及其它我們自己撰寫的原始碼檔案一起拿來編譯再作連結,最後產生出來的就是一個可以用來解析我們定義的語法的解析器工具。以上是整個lex及yacc的使用流程概觀。 常規表示式 在正式使用lex之前,我們首先來對常規表示法作一個基本的認識。常規表示法是一種用來表示字串樣式(pattern)的中繼語言,就好比前文所介紹的(E)BNF表示式一樣,都是用來描述其它語言的語言,只不過用途不太一樣罷了。 常規表示式使用一些中繼符號(meta-symbol)以及ASCII字元定義字串樣式,以下列出一些常規表示式所使用的符號。 . 表示除了換行字元...

KillSudoku 4顆星精彩數獨 (三) - XY-Chains

這是數獨解題技巧裡面的高級技巧,比X-Chains還再高一點點。會這個技巧的話,就可以解4或5顆星的題目了。 這個用來測試的題目,用 KillSudoku 來解可以解出,中間使用了2次Naked Subset,1次 W-Wings ,1次 X-Chains ,2次 XY-Chains 。所以算起來,這一題應該是有5顆星的題目。 附帶一提,目前找鍊的演算法並沒有去找一條最短的鍊,所以可以看到用 KillSudoku 解的時候,第36的步驟找到一條超長的鍊,這條鍊足足由13條連線構成,要是沒練過的話,絕對頭昏眼花,找不出這樣的鍊來的。 實際上在這個步驟裡,是可以找到另一條更短的鍊。不過目前以先能work,之後有空會再改進演算法的部份。

KillSudoku 4顆星精彩數獨詳解 - 鍊技巧

這題數獨(sudoku)題目估計為4+顆星,有點難度。解題需要應用多種技巧,過程非常精彩有趣,是個好題。 底下使用 KillSudoku 作詳細圖解。 1,使用基本排除法則,可以簡單填入6個數字。到此為止,開始使用 候選數法 來解題。如下所示,為填入6個數字後的狀態圖。 2,如下圖,使用進階排除法,在第9列和第4行可以先排除幾個候選數。 3,如圖,在第2行有一個 Naked Subset (3,4),可以對3,4候選數作排除。附帶提一下,反過來看在同一行裡面也可以說有另一個Hidden Subset(2,5,8)存在。Naked Subset和Hidden Subset常是一體二面同時存在,只不過對我們來說,Naked Subset是相對比較容易看的出來。 排除第2行的3,4後,又可以對第2列以外的3作排除,如下圖。 4,接著,在第5行又發現了一個 Naked Subset (3,7,8)。 對第5行三個Subset以外的候選數3,7,8作排除後,又接著產生可以對第5行以外的3作排除。 5,這一題解到此為止,開始進入高潮。大部份能解到3顆星題目的人,猜想應該就此卡住。以下開始需要應用更高級的鍊技巧,才能夠繼續進行。 應用X-Chains鍊技巧,可以找到一條由4條強連結組成的鍊,可以排除候選數2。這裡的鍊指的是由2條以上的強連結組成,而所謂的強連結是指在同一行、或同一列或同一個Box裡,由唯二的候選數構成的連結。如上圖中的第9行中,只有二個2,這二個2構成一條強連結。為什麼說這是一條強連結?因為在這條連結的AB二個端點中,肯定會有一個2存在,要麼是A點要麼是B點。鍊技巧就是將多條強連結串連起來作候選數排除的技巧,而X-Chains是高級的鍊技巧裡面的基本技巧。 接上圖,這樣一來就又可以應用基本排除方法,填入3個數字,如下圖所示。 6,接下來就是本題最精彩的部份,以下需要連續找到3條鍊,才能繼續往下解。 7,找出3條鍊後,剩下來的部份就沒什麼特別的了,只需要應用基本法就能把所有剩餘數字填完。