美團內部的RPC服務大多構建在Thrift之上,在日常開發服務的過程中,需要針對這些服務進行壓力測試(以下簡稱壓測)來發現潛在問題。常用的方法有:
1.使用一些腳本語言如:Python、Ruby等,讀取線上日志構建請求,用多線程模擬用戶請求進行壓測
2.使用開源工具進行壓測
然而,無論采取哪種方法,壓測都是一個十分耗時而又繁瑣的過程,主要痛點有:
需要寫很多代碼解析日志,還原請求,對于比較復雜的請求,解析很容易出錯
需要搭建腳本或者工具的運行環境,通常這一過程比較耗時
由于打壓方法沒有統一,導致打壓的結果指標比較混亂,有的結果甚至以終端輸出的方式展示,非常不直觀
對一個應用的打壓測試,由于環境、代碼的問題,導致組內同學很難共享
針對上述問題,提供一個簡單好用的壓測工具是十分有必要的。
是否有必要重復造輪子
在構建壓測工具之前,對于一些現有的開源工具進行了調研。現在主流的壓測工具主要有以下幾個:
JMeter
JMeter是一個比較老牌的壓測工具,主要針對HTTP服務進行打壓,該工具在以下方面并不滿足美團內部的壓測需求:
1.默認不支持Thrift的打壓測試
2.需要本地安裝,并且配置復雜
3.對于用戶操作并不友好

twitter/iago
iago 是一個由Twitter開源的壓測工具,支持對HTTP、Thrift等服務進行壓測,其主要問題如下:
對每個壓測應用都需要創建一個項目
壓測結果并不直觀
流量重放依賴本地文件
項目依賴于一個較老版本的Scala,搭建不便
相關文檔比較少
除此之外,當時還考察了Gatling、Grinder、Locust 等一些常見的壓測工具,都因為適用場景和美團的需求有些出入而排除了。
綜上,針對當前壓測工具的一些現狀,構建一個簡單易用的壓測工具還是很有必要的。
目標
針對之前提到的痛點,新的壓測工具主要提供以下功能:
線上流量拷貝
1.簡單易用的操作界面(接入壓測的時間應該控制在1小時以內)
2.清晰的圖表能反映壓測應用的各項指標
3.滿足包括Thrift、HTTP等服務的壓測需求
如何構建
抽象
目標已經明確,怎么實現呢?首先是抽象壓測的過程。
一個典型的壓測過程如圖所示,首先在init方法里面,進行一些初始化的工作,比如連接數據庫,創建客戶端等。接下來,在run方法里面發出壓測請求,為了保證能夠對服務產生足夠的壓力,這里通常采用多線程并發訪問,同時記錄每次請求的發起時間和結束時間,這兩個時間的簡單相減就能夠得到每次請求的響應時間,利用該結果就可以計算出TP90、平均響應時間、最大響應時間等指標,等壓測結束后,通過destroy方法進行資源回收等工作。

以上過程可以用接口表示,無論是壓測Thrift服務還是HTTP服務,本質上都是這三個方法實現的不同。考慮到壓測工具的靈活性和通用性,壓測工具可以將這個接口交給打壓測試的同學實現,而壓測工具則重點實現多線程打壓,打壓結果的聚合等比較耗時的工作。
interface Runner {
def init(Test app) // 初始化壓測
def run(Test app, String log) // 每次打壓請求,傳入log方便構建請求
def destroy(Test app) // 壓測完畢后,回收資源
}
拷貝流量
Thrift服務打壓的難點之一就是如何簡單地拷貝線上真實流量用來構建打壓請求。一些大型的Thrift服務數據結構非常復雜,寫打壓腳本的時候需要很多代碼來解析日志,而且容易出錯。 因此提供一個簡單好用的拷貝流量方法是十分有必要的。
在這里壓測工具提供了一個叫VCR(錄像機)的工具來拷貝流量。VCR能夠將線上的請求序列化后寫到Redis里面。
考慮到用戶需要查看具體請求和易用性等需求,最終選取了JSON格式作為序列化和反序列化的協議。同時需要部署在生產環境,為了降低對線上服務的影響,這里采取了單線程異步寫的方式來拷貝流量。

聚合數據
應用打壓完成后,需要一些指標來評估壓測結果,常見的指標有:
1.最大響應時間
2.平均響應時間
3.QPS
4.TP90
5.TP50
壓測工具采用了 InfluxDB 來完成數據的聚合工作。
以TP90為例子,僅需要一行查詢就能實現需求。
SQL Code復制內容到剪貼板
- SELECT PERCENTILE(response_time, 90) FROM test_series GROUP BY time(10s)
架構
整體而言,整個打壓過程如下:

實踐
拷貝流量
美團內部的服務大多使用Java來構建,VCR以Maven Package的方式提供給用戶。
對用戶來說只需要2行代碼可以拷貝流量。
為了不影響線上服務,通常選取單臺機器進行流量拷貝工作。
Java Code復制內容到剪貼板
- public class TestAppRPC implements TestApp.Iface {
-
- private Vcr _vcr = new Vcr("testapp");
-
- @Override
- public TestResponse echo(TestRequest req) throws TException {
- _vcr.copy(req);
- long start = System.currentTimeMillis();
- TestResponse response = new TestResponse();
- return response;
- }
- }
一旦流量拷貝完成后,通過Web界面,用戶能夠查看日志的收集情況和單條日志的詳情。

壓測邏輯實現
壓測工具采用Groovy來進行編寫。對每個應用來說,只需要實現runner接口就可以實現對應用的打壓。
interface Runner {
def init(Test app)
def run(Test app, String log)
def destroy(Test app)
}
以Thrift服務為例:
Java Code復制內容到剪貼板
- class TestServiceRunner implements Runner {
-
- RPCService.Client _client
- TTransport _transport;
-
- @Override
- def init(Test app) {
- def conf = app.config
- _transport = new TFramedTransport(new TSocket(conf.get("thrift_service_host") as String, conf.get("thrift_service_port") as int))
- TProtocol protocol = new TBinaryProtocol(_transport)
- _client = new RPCService.Client(protocol)
- _transport.open()
- }
-
- @Override
- def run(Test app, String log) {
- TestRequest req = Vcr.deSerialize(log, TestRequest.class)
- _client.echo(req)
- }
-
- @Override
- def destroy(Test app) {
- _transport.close()
- }
- }
創建應用
實現以上接口后,就可以對應用進行打壓了。
用戶可以通過Web界面創建應用,除了必填配置以外,用戶可以按照應用靈活配置。

性能指標
用戶可以通過直觀的圖表來查看應用的各種性能指標。

結束語
壓測工具上線以來,已經接入了20多個應用,完成數百次打壓實驗,現在應用的接入時間僅需要15~30分鐘。保證了美團服務的穩定和節省了開發同學的時間,使大家告別了以往繁瑣冗長的打壓測試。
歡迎對這方面有興趣的同學一起討論。