跳到主要內容

分解字串成Token

偶爾我們會需要自己將字串分解成一個個的Token,對於簡單的需求我們通常都自己來,而不特別使用Tokenizer。使用C語言的話,我們會用strtok這個函式來完成我們的需求,不過我比較偏好C++的作法。
string s("this is a string");
vector<string> v;

v.assign(
  istream_iterator<string>(stringstream(s)),
  istream_iterator<string>()
);
如上所示,執行後v的內容會包含4個Token:this, is, a, string。

有一點要提醒的是,因為stringstream的Ctor會對s作copy的動作而不是直接使用s作為來源,所以當s的是一個很大的字串的話,在效能上會受到影響。

上面的範例在分解字串時是以空白字元作分隔,那假如要使用其它不同的字元作分隔符號該怎麼作呢?

getline可以提供這基本的需求。
stringstream ss(s);
string token;

for (;;)
{
  getline(ss, token, ',');
  if (ss.fail())
    break;

  cout << token << endl;
}
上面這個範例示範使用getline以','字元作分隔符號將字串分解。

+ + +

反向的操作有很多作法,底下舉一個STL的作法。
stringstream ss;

copy(
  v.begin(), v.end(),
  ostream_iterator<string>(ss, " ")
);

string s(ss.str());
stringstream的str方法也會產生一份新的string,所以當字串很大時效能也會受到影響。

留言

  1. 請問 sstream 可以一次依據多個 delimiter 切字串嗎?
    像 strtok(str, " ,\n\r\t") 這樣?

    回覆刪除
  2. 雖然不是更簡捷,但能解決問題
    提供一個方法,使用間接的方式

    ;

    string s("this, is; a\tstring");
    string delimiter(",;\n\r\t");

    size_t i = 0;
    while(string::npos != (i = s.find_first_of(delimiter, i)))
    s.replace(i, 1, " ");

    vector v;
    v.assign(istream_iterator(stringstream(s)), istream_iterator());

    回覆刪除

張貼留言

這個網誌中的熱門文章

單人撲克牌遊戲 - 蒙地卡羅

新增一個簡單的單人撲克牌遊戲: 蒙地卡羅 ,簡單介紹一下玩法。 下載 事先排列好5x5張牌。 每次移動一張可以配對的牌,並消除這對牌。在上下、左右及斜向相隣的二張牌,只要擁有同樣數字(不計花色),即可配對。 消除二張配對的牌後,剩餘的牌以往左往上的方式補滿空隙,接著在發新牌補滿後面的空格。 重覆步驟2~3,直到沒有牌可以配對及發完所有牌為止。 結果有二種。一個是勝利,成功的消除掉所有牌。另一個是Gameover沒有牌可以再作配對。

猜數字遊戲 (電腦猜人)

前幾天午睡時突然被告知要參加公司內部的程式設計比賽,題目是用C寫一支文字模式的4位數字猜數字遊戲,由使用者來猜電腦的數字。在上星期時其實就已經有公佈了,但我沒有注意到所以是臨時加入,還好這是個簡單的題目,不用花多少時間就可以寫出來。 規則: - 這是一對一比賽,雙方各選擇一4位數字,不讓對方知道。 - 4位數字由數字0至9組成,每位數不得重複。 - 雙方輪流猜對方的數字,直到一方猜中為止。 - A方猜B方的數字後,B方根據A方的猜測回答幾A幾B。 - 一個A表示猜中一個數字且位置正確,一個B表示猜中一個數字但位置不正確。 - 當一方猜中4A0B時即表示猜中對方全部4個數字且位置正確,贏得比賽。 - 例:B的謎底是4208,底下箭頭左測是A的猜測,箭頭右測是B的回答。    1234 ==> 1A1B    5678 ==> 1A0B    2406 ==> 1A2B    ...    4208 ==> 4A0B ; 寫個程式讓玩家來猜電腦的數字不難,不過我從來沒有寫過讓電腦來猜玩家數字的版本,所以花了點時間想想怎麼寫。 研究後歸納出二個點。 1, 使用窮舉法將所有可能數字組合列出。 2, 每次猜測後根據結果排除不可能是答案的組合,重複這個動作直到猜中答案為止。 第1點只是實作問題,第2點概念也很簡單,但要過濾不是答案的組合根據的是什麼?乍看之下沒什麼頭緒,不過想通之後就非常簡單了。 它的基本原理如下:假如謎底是4561,如果猜1524則會得到1A2B。從相反的角度來看,如果謎底是1524,則猜4561時也會得到1A2B的回答。 利用這個方法,每一次猜測一個數字X後,再以這個數字當作答案,來和所有剩下來的候選答案作比對,如果得到的結果(幾A幾B)和數字X是一樣的話,就把這個數字保留下來繼續作為候選答案,否則就過把這個數字過濾掉。下一把,繼續從候選答案裡選一個出來猜,重複上面的動作,直到猜中為止。 ; C++ STL的algorithm裡有個叫作next_permutation的函數,可以用來生成排列。 #include <iostream> #include <algorithm> using namespace std; int main () {   int myints[] = {1,2,3};  ...

Python的Package和Module

最近有時會使用Python作些簡單的後端或工具的開發,這對許多人來說可能很熟悉了,不過在此就讓我這個不熟的新手作些基本觀念的記錄。 在Python中,Package(包)和Module(模組)是用來管理程式碼的結構。 1. 模組 Module Module是包含Python程式碼的檔案,簡單來說就是一個.py的Source Code檔案,裡面可以包含函數、變數、類別等等。或者是一個己經編譯過的.pyc檔案也是一個Module。 如下定義一個a.py的模組。 # a.py a= 1 在其它的Python程式碼檔案裡面可以使用import語句來使用a.py這個模組內定義的函數、變數、類別等等。 如下測試引用a.py裡定義的a。 D:\temp\test>python Python 3.12.3 (tags/v3.12.3:f6650f9, Apr 9 2024, 14:05:25) [MSC v.1938 64 bit (AMD64)] on win32 Type "help", "copyright", "credits" or "license" for more information. >>> dir() ['__annotations__', '__builtins__', '__doc__', '__loader__', '__name__', '__package__', '__spec__'] >>> import a >>> dir() ['__annotations__', '__builtins__', '__doc__', '__loader__', '__name__', '__package__', '__spec__', 'a'] >>> a <module 'a' from 'D:\\temp\\test\\a.p...