主頁(yè) > 知識(shí)庫(kù) > Instagram提升PostgreSQL性能的五個(gè)技巧

Instagram提升PostgreSQL性能的五個(gè)技巧

熱門標(biāo)簽:湖南保險(xiǎn)智能外呼系統(tǒng)產(chǎn)品介紹 小程序智能電話機(jī)器人 怎么去開發(fā)一個(gè)電銷機(jī)器人 怎么申請(qǐng)400熱線電話 泗洪正規(guī)電話機(jī)器人找哪家 南昌呼叫中心外呼系統(tǒng)哪家好 河北便宜電銷機(jī)器人軟件 ai電話電話機(jī)器人 簡(jiǎn)單的智能語(yǔ)音電銷機(jī)器人

 隨著Instagram的規(guī)模日益擴(kuò)大,Postgres繼續(xù)充當(dāng)著Instagram的堅(jiān)實(shí)基礎(chǔ),并存儲(chǔ)著絕大部分的用戶數(shù)據(jù)。不到一年之前,我們還曾在博客上說(shuō)Instagram“存儲(chǔ)著大量數(shù)據(jù)”,每秒增加90條數(shù)據(jù),現(xiàn)在,這個(gè)數(shù)據(jù)已經(jīng)增長(zhǎng)到了峰值的10000條。而我們的基礎(chǔ)存儲(chǔ)技術(shù)依然保持不變。

在過(guò)去的兩年半中,我們有一些關(guān)于Postgres擴(kuò)展的經(jīng)驗(yàn)和工具,想要分享出來(lái)。真希望在當(dāng)初啟動(dòng)Instagram的時(shí)候就能有這些經(jīng)驗(yàn)和工具呀。其中有些是Postgres獨(dú)有的,有些是其它數(shù)據(jù)庫(kù)也可以采用的。如果想要了解我們是如何水平分區(qū)的,可以看這篇文章。

1. 局部索引

如果我們經(jīng)常需要按某個(gè)固定的特征過(guò)濾數(shù)據(jù),而且這個(gè)特征只存在于一小部分行里,在這種情況下,局部索引非常有效。

比方說(shuō),Instagram搜索標(biāo)簽的時(shí)候,我們需要找出有許多照片的標(biāo)簽。我們一般會(huì)用ElasticSearch之類的技術(shù)來(lái)進(jìn)行高級(jí)搜索,不過(guò)這里只靠數(shù)據(jù)庫(kù)的查詢能力就完全夠了。先來(lái)看一下,按標(biāo)簽查詢,并按照片數(shù)排序,Postgres是怎么做的:
 

EXPLAIN ANALYZE SELECT id from tags WHERE name LIKE 'snow%' ORDER BY media_count DESC LIMIT 10;   
QUERY PLAN 
---------                                 
 Limit (cost=1780.73..1780.75 rows=10 width=32) (actual time=215.211..215.228 rows=10 loops=1)
  -> Sort (cost=1780.73..1819.36 rows=15455 width=32) (actual time=215.209..215.215 rows=10 loops=1)
     Sort Key: media_count
     Sort Method: top-N heapsort Memory: 25kB
     -> Index Scan using tags_search on tags_tag (cost=0.00..1446.75 rows=15455 width=32) (actual time=0.020..162.708 rows=64572 loops=1)
        Index Cond: (((name)::text ~>=~ 'snow'::text) AND ((name)::text ~~ 'snox'::text))
        Filter: ((name)::text ~~ 'snow%'::text)
 Total runtime: 215.275 ms
(8 rows)

有沒(méi)有看到,為了得到結(jié)果,Postgres不得不對(duì)15000行數(shù)據(jù)進(jìn)行排序。由于標(biāo)簽的分布滿足長(zhǎng)尾模式(譯者注: 根據(jù)百度百科,「我們常用的漢字實(shí)際上不多,但因出現(xiàn)頻次高,所以這些為數(shù)不多的漢字占據(jù)了上圖廣大的紅區(qū);絕大部分的漢字難得一用,它們就屬于那長(zhǎng)長(zhǎng)的黃尾?!?,我們可以改為查詢超過(guò)100張照片的標(biāo)簽,先建局部索引:
 
CREATE INDEX CONCURRENTLY on tags (name text_pattern_ops) WHERE media_count >= 100
然后查詢,看一下新的查詢計(jì)劃:
 

EXPLAIN ANALYZE SELECT * from tags WHERE name LIKE 'snow%' AND media_count >= 100 ORDER BY media_count DESC LIMIT 10;
 
QUERY PLAN
 Limit (cost=224.73..224.75 rows=10 width=32) (actual time=3.088..3.105 rows=10 loops=1)
  -> Sort (cost=224.73..225.15 rows=169 width=32) (actual time=3.086..3.090 rows=10 loops=1)
     Sort Key: media_count
     Sort Method: top-N heapsort Memory: 25kB
     -> Index Scan using tags_tag_name_idx on tags_tag (cost=0.00..221.07 rows=169 width=32) (actual time=0.021..2.360 rows=924 loops=1)
        Index Cond: (((name)::text ~>=~ 'snow'::text) AND ((name)::text ~~ 'snox'::text))
        Filter: ((name)::text ~~ 'snow%'::text)
 Total runtime: 3.137 ms
(8 rows)

可以看到,Postgres只需要訪問(wèn)169行,所以速度快得多。Postgres的查詢計(jì)劃器對(duì)約束的評(píng)估也很有效。如果以后想要查詢超過(guò)500張照片的標(biāo)簽,由于這個(gè)結(jié)果集是上面集合的子集,所以仍然會(huì)使用這個(gè)局部索引。

2. 函數(shù)索引

在某些表上,我們需要對(duì)一些很長(zhǎng)的字符串建立索引,比如說(shuō),64個(gè)字符的base64記號(hào)。如果直接建索引的話,會(huì)造成大量的數(shù)據(jù)重復(fù),這種情況下,可以用Postgres的函數(shù)索引:
 

CREATE INDEX CONCURRENTLY on tokens (substr(token), 0, 8)

雖然這樣會(huì)造成許多行匹配相同的前綴,但我們可以在匹配的基礎(chǔ)上再用過(guò)濾,速度很快。而且索引很小,只有大概原來(lái)的十分之一。

3. 用pg_reorg來(lái)讓數(shù)據(jù)更緊湊

隨著時(shí)間的流逝,Postgres的表會(huì)變得越來(lái)越零碎(由MVCC并發(fā)模型等原因引起)。而且,數(shù)據(jù)行插入的順序往往也不是我們希望返回的順序。比如說(shuō),如果我們經(jīng)常要按用戶來(lái)查詢照片等,那么最好是在磁盤上把這些東西放在一起,這樣就可以減少磁盤尋道的時(shí)間。

我們用pg_reorg來(lái)解決這個(gè)問(wèn)題,它用三個(gè)步驟來(lái)讓“壓緊”一個(gè)表:

  1.     取得表的獨(dú)占鎖
  2.     建一個(gè)記錄變更的臨時(shí)表,在原始表上加一個(gè)觸發(fā)器,把對(duì)原始表的變更復(fù)制到臨時(shí)表上
  3.     用CREATE TABLE...SELECT FROM...ORDER BY建表,新表?yè)碛性急淼娜繑?shù)據(jù),而且是按索引順序排序的
  4.     將CREATE TABLE執(zhí)行時(shí)間點(diǎn)以后發(fā)生的變更從臨時(shí)表同步過(guò)來(lái)
  5.     業(yè)務(wù)切換到新表

每一步都會(huì)有很多細(xì)節(jié),不過(guò)大體上就是像上面這個(gè)樣子。我們先對(duì)這個(gè)工具進(jìn)行了一些審查,運(yùn)行了若干測(cè)試,然后再把它用到生產(chǎn)環(huán)境上?,F(xiàn)在,我們已經(jīng)在幾百臺(tái)機(jī)器的環(huán)境上跑過(guò)幾十次pg_reorg,沒(méi)出現(xiàn)過(guò)任何問(wèn)題。


4. 用WAL-E進(jìn)行WAL(寫前日志)的歸檔和備份

我們用WAL-E來(lái)歸檔WAL日志,它是Heroku寫的一個(gè)工具,我們也向它貢獻(xiàn)了一部分代碼。WAL-E大大簡(jiǎn)化了數(shù)據(jù)備份和復(fù)制庫(kù)創(chuàng)建的過(guò)程。

WAL-E是利用Progres的archive_command,將PG產(chǎn)生的每個(gè)WAL文件都?xì)w檔到Amazon的S3。利用這些WAL文件和數(shù)據(jù)庫(kù)的基準(zhǔn)備份,我們可以將數(shù)據(jù)庫(kù)恢復(fù)到基準(zhǔn)備份后任何一個(gè)時(shí)間點(diǎn)的狀態(tài)。利用這個(gè)手段,我們也可以快速創(chuàng)建只讀的復(fù)制庫(kù)或故障備用庫(kù)。

我們?yōu)閃AL-E寫了一個(gè)簡(jiǎn)單的封裝腳本,可以監(jiān)控歸檔時(shí)的重復(fù)故障,見(jiàn)GitHub。
 
5. psycopg2中的自動(dòng)提交模式和異步模式

我們也開始用psycopg2中的一些高級(jí)功能(psycopg2是Postgres的Python驅(qū)動(dòng))。

一個(gè)是自動(dòng)提交模式。在這個(gè)模式里,psycopg2不會(huì)發(fā)出BEGIN/COMMIT,每個(gè)查詢跑在自己的單語(yǔ)句事務(wù)里。這對(duì)不需要事務(wù)的只讀查詢特別有用。開啟很簡(jiǎn)單:

connection.autocommit = True

開啟自動(dòng)提交后,我們的應(yīng)用服務(wù)器和數(shù)據(jù)庫(kù)之間的對(duì)話大減,數(shù)據(jù)庫(kù)服務(wù)器的CPU用量也大減。而且,我們是用PGBouncer作為連接池,開啟自動(dòng)提交后,連接的歸還也更快了。

與Django的交互細(xì)節(jié)可以看這里。


psycopg2還有一個(gè)很有用的功能,它可以通過(guò)注冊(cè)一個(gè)等待回調(diào)(wait callback)函數(shù),提供協(xié)同程序(coroutine)支持。它可以支持跨連接查詢,對(duì)命中多個(gè)節(jié)點(diǎn)的查詢非常有用,當(dāng)有數(shù)據(jù)時(shí),socket會(huì)被喚醒(我們利用Python的select模塊來(lái)處理喚醒)。它也可以與eventlet和gevent等多線程庫(kù)很好的協(xié)作,參考實(shí)現(xiàn)可見(jiàn)psycogreen。

總的來(lái)說(shuō),我們對(duì)Postgres的高性能和可靠性十分滿意。想在世界上最大之一的Postgres集群上工作嗎?想跟一群基礎(chǔ)設(shè)施高手們一起干活嗎?請(qǐng)聯(lián)系infrajobs@instagram.com吧。

您可能感興趣的文章:
  • PostgreSQL數(shù)據(jù)庫(kù)服務(wù)端監(jiān)聽(tīng)設(shè)置及客戶端連接方法教程
  • CentOS中運(yùn)行PostgreSQL需要修改的內(nèi)核參數(shù)及配置腳本分享
  • PostgreSQL ERROR: invalid escape string 解決辦法

標(biāo)簽:荊門 景德鎮(zhèn) 江蘇 淮安 柳州 那曲 瀘州 威海

巨人網(wǎng)絡(luò)通訊聲明:本文標(biāo)題《Instagram提升PostgreSQL性能的五個(gè)技巧》,本文關(guān)鍵詞  Instagram,提升,PostgreSQL,性能,;如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問(wèn)題,煩請(qǐng)?zhí)峁┫嚓P(guān)信息告之我們,我們將及時(shí)溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò),涉及言論、版權(quán)與本站無(wú)關(guān)。
  • 相關(guān)文章
  • 下面列出與本文章《Instagram提升PostgreSQL性能的五個(gè)技巧》相關(guān)的同類信息!
  • 本頁(yè)收集關(guān)于Instagram提升PostgreSQL性能的五個(gè)技巧的相關(guān)信息資訊供網(wǎng)民參考!
  • 推薦文章