最近用golang寫了一個(gè)處理文件的腳本,由于其中涉及到了文件讀寫,開始使用golang中的 io 包,后來發(fā)現(xiàn)golang 中提供了一個(gè)bufio的包,使用這個(gè)包可以大幅提高文件讀寫的效率,于是在網(wǎng)上搜索同樣的文件讀寫為什么bufio 要比io的讀寫更快速呢?根據(jù)網(wǎng)上的資料和閱讀源碼,以下來詳細(xì)解釋下bufio的高效如何實(shí)現(xiàn)的。
bufio 包介紹
bufio包實(shí)現(xiàn)了有緩沖的I/O。它包裝一個(gè)io.Reader或io.Writer接口對象,創(chuàng)建另一個(gè)也實(shí)現(xiàn)了該接口,且同時(shí)還提供了緩沖和一些文本I/O的幫助函數(shù)的對象。
以上為官方包的介紹,在其中我們能了解到的信息如下:
bufio 是通過緩沖來提高效率
簡單的說就是,把文件讀取進(jìn)緩沖(內(nèi)存)之后再讀取的時(shí)候就可以避免文件系統(tǒng)的io 從而提高速度。同理,在進(jìn)行寫操作時(shí),先把文件寫入緩沖(內(nèi)存),然后由緩沖寫入文件系統(tǒng)。看完以上解釋有人可能會表示困惑了,直接把 內(nèi)容->文件 和 內(nèi)容->緩沖->文件相比, 緩沖區(qū)好像沒有起到作用嘛。其實(shí)緩沖區(qū)的設(shè)計(jì)是為了存儲多次的寫入,最后一口氣把緩沖區(qū)內(nèi)容寫入文件。下面會詳細(xì)解釋
bufio 封裝了io.Reader或io.Writer接口對象,并創(chuàng)建另一個(gè)也實(shí)現(xiàn)了該接口的對象
io.Reader或io.Writer 接口實(shí)現(xiàn)read() 和 write() 方法,對于實(shí)現(xiàn)這個(gè)接口的對象都是可以使用這兩個(gè)方法的
bufio 包實(shí)現(xiàn)原理
bufio 源碼分析
Reader對象
bufio.Reader 是bufio中對io.Reader 的封裝
// Reader implements buffering for an io.Reader object.
type Reader struct {
buf []byte
rd io.Reader // reader provided by the client
r, w int // buf read and write positions
err error
lastByte int
lastRuneSize int
}
bufio.Read(p []byte) 相當(dāng)于讀取大小len(p)的內(nèi)容,思路如下:
- 當(dāng)緩存區(qū)有內(nèi)容的時(shí),將緩存區(qū)內(nèi)容全部填入p并清空緩存區(qū)
- 當(dāng)緩存區(qū)沒有內(nèi)容的時(shí)候且len(p)>len(buf),即要讀取的內(nèi)容比緩存區(qū)還要大,直接去文件讀取即可
- 當(dāng)緩存區(qū)沒有內(nèi)容的時(shí)候且len(p)len(buf),即要讀取的內(nèi)容比緩存區(qū)小,緩存區(qū)從文件讀取內(nèi)容充滿緩存區(qū),并將p填滿(此時(shí)緩存區(qū)有剩余內(nèi)容)
- 以后再次讀取時(shí)緩存區(qū)有內(nèi)容,將緩存區(qū)內(nèi)容全部填入p并清空緩存區(qū)(此時(shí)和情況1一樣)
以下是源碼
// Read reads data into p.
// It returns the number of bytes read into p.
// The bytes are taken from at most one Read on the underlying Reader,
// hence n may be less than len(p).
// At EOF, the count will be zero and err will be io.EOF.
func (b *Reader) Read(p []byte) (n int, err error) {
n = len(p)
if n == 0 {
return 0, b.readErr()
}
if b.r == b.w {
if b.err != nil {
return 0, b.readErr()
}
if len(p) >= len(b.buf) {
// Large read, empty buffer.
// Read directly into p to avoid copy.
n, b.err = b.rd.Read(p)
if n 0 {
panic(errNegativeRead)
}
if n > 0 {
b.lastByte = int(p[n-1])
b.lastRuneSize = -1
}
return n, b.readErr()
}
// One read.
// Do not use b.fill, which will loop.
b.r = 0
b.w = 0
n, b.err = b.rd.Read(b.buf)
if n 0 {
panic(errNegativeRead)
}
if n == 0 {
return 0, b.readErr()
}
b.w += n
}
// copy as much as we can
n = copy(p, b.buf[b.r:b.w])
b.r += n
b.lastByte = int(b.buf[b.r-1])
b.lastRuneSize = -1
return n, nil
}
說明:
reader內(nèi)部通過維護(hù)一個(gè)r, w 即讀入和寫入的位置索引來判斷是否緩存區(qū)內(nèi)容被全部讀出
Writer對象
bufio.Writer 是bufio中對io.Writer 的封裝
// Writer implements buffering for an io.Writer object.
type Writer struct {
err error
buf []byte
n int
wr io.Writer
}
bufio.Write(p []byte) 的思路如下
- 判斷buf中可用容量是否可以放下 p
- 如果能放下,直接把p拼接到buf后面,即把內(nèi)容放到緩沖區(qū)
- 如果緩沖區(qū)的可用容量不足以放下,且此時(shí)緩沖區(qū)是空的,直接把p寫入文件即可
- 如果緩沖區(qū)的可用容量不足以放下,且此時(shí)緩沖區(qū)有內(nèi)容,則用p把緩沖區(qū)填滿,把緩沖區(qū)所有內(nèi)容寫入文件,并清空緩沖區(qū)
- 判斷p的剩余內(nèi)容大小能否放到緩沖區(qū),如果能放下(此時(shí)和步驟1情況一樣)則把內(nèi)容放到緩沖區(qū)
- 如果p的剩余內(nèi)容依舊大于緩沖區(qū),(注意此時(shí)緩沖區(qū)是空的,情況和步驟2一樣)則把p的剩余內(nèi)容直接寫入文件
以下是源碼
// Write writes the contents of p into the buffer.
// It returns the number of bytes written.
// If nn len(p), it also returns an error explaining
// why the write is short.
func (b *Writer) Write(p []byte) (nn int, err error) {
for len(p) > b.Available() b.err == nil {
var n int
if b.Buffered() == 0 {
// Large write, empty buffer.
// Write directly from p to avoid copy.
n, b.err = b.wr.Write(p)
} else {
n = copy(b.buf[b.n:], p)
b.n += n
b.flush()
}
nn += n
p = p[n:]
}
if b.err != nil {
return nn, b.err
}
n := copy(b.buf[b.n:], p)
b.n += n
nn += n
return nn, nil
}
說明:
b.wr 存儲的是一個(gè)io.writer對象,實(shí)現(xiàn)了Write()的接口,所以可以使用b.wr.Write(p) 將p的內(nèi)容寫入文件
b.flush() 會將緩存區(qū)內(nèi)容寫入文件,當(dāng)所有寫入完成后,因?yàn)榫彺鎱^(qū)會存儲內(nèi)容,所以需要手動(dòng)flush()到文件
b.Available() 為buf可用容量,等于len(buf) - n
下圖解釋的是其中一種情況,即緩存區(qū)有內(nèi)容,剩余p大于緩存區(qū)
以上就是本文的全部內(nèi)容,希望對大家的學(xué)習(xí)有所幫助,也希望大家多多支持腳本之家。
您可能感興趣的文章:- golang中bufio.SplitFunc的深入理解
- golang bufio包中Write方法的深入講解