Golang的channel底层实现

Sat, Sep 18, 2021 阅读时间 1 分钟

Channel的底层数据结构

channel是golang在语言层面提供的goroutine通信机制,也是我们经常使用的数据结构,它的数据结构如下:

// 在src/runtime/chan.go中定义

type hchan struct{
    // 环形队列相关
    qcount uint         // 当前队列中剩余元素的个数
    dataqsiz uint       // 环形队列的长度,即可以存放的元素个数
    buf unsafe.Pointer  // 环形队列的指针
    sendx uint          // 队列下标,指示元素写入时存放到队列中的位置
    recvx uint          // 队列下标,指示元素从队列的该位置处读出
    
    // 元素信息
    elemtype *_type     // 元素类型
    elemsize uint16     // 每个元素的大小
    
    closed uint32       // 标识关闭状态
    
    // 等待队列相关
    recvq waitq         // 等待读消息的goroutine队列
    sendq waitq         // 等待写消息的goroutine队列
    
    lock mutex          // 互斥锁,chan不允许并发读写
}

如上,chan的字段可以分成5类

  • 环形队列相关
  • 存储消息的信息
  • 等待队列相关
  • 关闭状态的标识
  • 互斥锁

环形队列

chan内部使用了一个环形队列作为其缓冲区(buf字段),队列的长度就是创建chan时指定的长度(dataqsiz字段):

  • dataqsize指示了队列长度为6,即可缓存6个元素。超过6个就得阻塞,等有空位了才能插入。

  • buf指向这个环形队列的内存地址。

  • qcount表示队列中还有几个空位。

  • sendx指示后续写入的数据存储的位置,长度为6的话取值就是0-5。

  • recvx表示chan接收端从该位置处读取数据,取值也是0-5。

等待队列

当从channel中读数据,而chan中没数据,或往chan中写数据,而chan中没有空位时(即qcount=0),当前这个goroutine会被阻塞。被阻塞的goroutine将会挂在channel的等待队列中。

等待队列有两个:recvq就是读阻塞的等待队列,sendq就是写阻塞的等待队列。

  • 因读阻塞的goroutine将会被向chan中写入数据的goroutine唤醒

    读阻塞是因为channel中没数据,当有goroutine向chan中写入数据时,读操作自然就解阻塞了。

  • 因写阻塞的goroutine将会被从chan中读数据的goroutine唤醒

    写阻塞是因为channel满了,写不了,当有goroutine从chan中读出一个数据时,自然就有空位去写了。

如上图,每个G都是一个goroutine,这几个goroutine都挂在recvq这个读等待队列中,即chan中没数据,所有的goroutine想从chan中读时都阻塞在这了。

一般情况下,recvq和sendq中至少一个为空的,即要么都在阻塞读,要么都在阻塞写。

消息的相关信息

chan结构体中有两个字段用于标识chan中存储的消息信息:elemtype和elemsize

  • elemtype代表消息的数据类型,用于数据传递过程中的赋值
  • elemsize代表消息的大小,用于在buf中定位元素的位置

lock字段是一个mutex,明显channel是并发安全的。channel同一时刻仅允许被一个goroutine读写,每次读写都要先获取到锁。用完了再释放。

channel的读写过程

写数据的过程

写数据可以分成三种情况:有goroutine在读阻塞、没有goroutine在读阻塞、缓冲区满了。

有goroutine读阻塞

当读等待队列recvq不为空,说明有goroutine在阻塞,此时说明缓冲区没有数据或者这个channel没有缓冲区,这种情况下写入时会从recvq中取出一个G,然后把数据写入到缓冲区,最后把这个G唤醒,结束发送过程。

即该情形下,不仅要写入缓冲区,还要唤醒阻塞的goroutine。

没有goroutine读阻塞

这种情况比较简单,没有读阻塞就说明缓冲区有空余位置,直接将数据写入缓冲区,就可以结束发送过程。

缓冲区满了

如果缓冲区没有空余位置,则此时写入时就是写阻塞,需要将当前G加入到sendq中,同时该goroutine进入睡眠状态,等待被唤醒,被唤醒后才能接着写。

读数据的过程

读数据分为四种情况:有写阻塞且chan没有缓冲区、有写阻塞且chan有缓冲区、没有写阻塞且缓冲区中有数据、没有写阻塞且缓冲区中无数据。

有写阻塞且chan没有缓冲区

chan没有缓冲区的情况,每个写入都会是写阻塞,每个读取都是读阻塞,此时不管是要写数据还是读数据,都需要另一个goroutine同时在读或写。换句话说,没有缓冲区的chan的读写,实际上就是一个goroutine把数据直接交给了另一个goroutine。

所以这种情况下读数据,一定要有另一个goroutine在写阻塞中才能读到,此时本goroutine会直接从sendq中取出第一个写阻塞的G,从G中取出数据,然后把G唤醒,即可。

有写阻塞且chan有缓冲区

chan有缓冲区,且写阻塞,此时一定是chan的缓冲区满了,此时需要先从缓冲区的头部取出一个数据,然后把sendq中第一个写阻塞的G的数据写入到缓冲区的尾部,最后唤醒这个G即可。

没有写阻塞且缓冲区中有数据

这种是最简单的情况,也是最常见的情况,这种情况直接从缓冲区头部取出一条数据,即可。

没有写阻塞且缓冲区中无数据

这种情况下可能是刚开始创建chan时,还没有goroutine向chan中写入数据,此时从chan中读取数据就会被阻塞,这个goroutine会把自己的G写入到recvq中,同时自己进入睡眠状态,等待被写操作的G唤醒。

Channel的关闭的问题

关闭channel时会对等待队列中的G做如下操作:

  • 把读阻塞recvq中的G全部唤醒,并向这些G中发送chan数据类型的0值。
  • 把sendq中的G全部唤醒,但是这些写入的G都会panic。

channel引发panic的场景

  • 关闭一个值为nil的channel
  • 关闭已经关闭的channel
  • 向已经关闭的channel写数据

从一个已关闭的channel读数据的情形

  • 如果这个chan中还有值,那么会把这些值读完
  • 如果这个chan的值已被读完,那么依然可以读取到这个chan中存储数据类型的基本值,如int会读出0,string会读出"",bool会读出false

从chan中读数据可以用两个变量接收,第二个变量为bool值,表示接收到的值是不是有效的,为true是有效:

c, ok := <- channel
if ok{
    有效
}

Channel的常见用法

单向chan

指只用于发送,或者只用于接收的chan,实际上没有单向的chan,这里说的只是使用限制,即限制一个chan在一个函数内为只读或者只写,通过函数传参时指定:

func readChan(c <- chan int){} // 通过形参指定函数中只能读c的数据
func writeChan(c chan<- int){} // 通过形参限定函数内部只能写入c 

配合select多路复用

select多路复用可以监控多个channel,当其中某个chan有数据时,就从中读取数据:

for{
    select {
    case a := chan1:
        // do something
    case b := chan2:
        // do something
    default:
        // if chan1 and chan2 has block, go this way
    }
}

配合range

通过range可以持续的从一个chan中取出数据,像是在遍历一个数组一样,当channel中没有数据时则会阻塞在某一次读取中

for e := range chan1{
    fmt.Println(e)
}