首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 其他教程 > 操作系统 >

epoll在LT和ET模式上的读写方式

2012-10-08 
epoll在LT和ET模式下的读写方式ET模型的逻辑:内核的读buffer有内核态主动变化时,内核会通知你, 无需再去mo

epoll在LT和ET模式下的读写方式

ET模型的逻辑:内核的读buffer有内核态主动变化时,内核会通知你, 无需再去mod。写事件是给用户使用的,最开始add之后,内核都不会通知你了,你可以强制写数据(直到EAGAIN或者实际字节数小于 需要写的字节数),当然你可以主动mod OUT,此时如果句柄可以写了(send buffer有空间),内核就通知你。
这里内核态主动的意思是:内核从网络接收了数据放入了读buffer(会通知用户IN事件,即用户可以recv数据)
并且这种通知只会通知一次,如果这次处理(recv)没有到刚才说的两种情况(EAGIN或者实际字节数小于 需要读写的字节数),则该事件会被丢弃,直到下次buffer发生变化。
与LT的差别就在这里体现,LT在这种情况下,事件不会丢弃,而是只要读buffer里面有数据可以让用户读,则不断的通知你。

另外对于ET而言,当然也不一定非send/recv到前面所述的结束条件才结束,用户可以自己随时控制,即用户可以在自己认为合适的时候去设置IN和OUT事件:
1 如果用户主动epoll_mod OUT事件,此时只要该句柄可以发送数据(发送buffer不满),则epoll
_wait就会响应(有时候采用该机制通知epoll_wai醒过来)。
2 如果用户主动epoll_mod IN事件,只要该句柄还有数据可以读,则epoll_wait会响应。
这种逻辑在普通的服务里面都不需要,可能在某些特殊的情况需要。?但是请注意,如果每次调用的时候都去epoll mod将显著降低效率,已经吃过几次亏了!

因此采用et写服务框架的时候,最简单的处理就是:
建立连接的时候epoll_add IN和OUT事件, 后面就不需要管了
每次read/write的时候,到两种情况下结束:
1 发生EAGAIN
2 read/write的实际字节数小于 需要读写的字节数
对于第二点需要注意两点:
A:如果是UDP服务,处理就不完全是这样,必须要recv到发生EAGAIN为止,否则就丢失事件了
因为UDP和TCP不同,是有边界的,每次接收一定是一个完整的UDP包,当然recv的buffer需要至少大于一个UDP包的大小
随便再说一下,一个UDP包到底应该多大?
对于internet,由于MTU的限制,UDP包的大小不要超过576个字节,否则容易被分包,对于公司的IDC环境,建议不要超过1472,否则也比较容易分包。

B 如果发送方发送完数据以后,就close连接,这个时候如果recv到数据是实际字节数小于读写字节数,根据开始所述就认为到EAGIN了从而直接返回,等待下一次事件,这样是有问题的,close事件丢失了!
因此如果依赖这种关闭逻辑的服务,必须接收数据到EAGIN为止,例如lb。

?

在一个非阻塞的socket上调用read/write函数, 返回EAGAIN或者EWOULDBLOCK(注: EAGAIN就是EWOULDBLOCK)

从字面上看, 意思是:


* EAGAIN: 再试一次

* EWOULDBLOCK: 如果这是一个阻塞socket, 操作将被block

* perror输出: ?Resource temporarily unavailable


总结:

这个错误表示资源暂时不够, 可能read时, 读缓冲区没有数据, 或者, write时,

写缓冲区满了. ?

遇到这种情况, 如果是阻塞socket, read/write就要阻塞掉.

而如果是非阻塞socket, read/write立即返回-1, 同?时errno设置为EAGAIN.

所以, 对于阻塞socket, read/write返回-1代表网络出错了.

但对于非阻塞socket, read/write返回-1不一定网络真的出错了.

可能是Resource temporarily unavailable. 这时你应该再试, 直到Resource available.

?

综上, 对于non-blocking的socket, ?正确的读写操作为:

读: 忽略掉errno = EAGAIN的错误, 下次继续读 

写:?忽略掉errno = EAGAIN的错误, 下次继续写 

?

对于select和epoll的LT模式, 这种读写方式是没有问题的. 但对于epoll的ET模式, 这种方式还有漏洞.

?

epoll的两种模式 LT 和 ET

二者的差异在于 level-trigger 模式下只要某个 socket 处于 readable/writable 状态,无论什么时候

进行 epoll_wait 都会返回该 socket;而 edge-trigger 模式下只有某个 socket 从 unreadable 变为 readable 或从unwritable 变为 writable 时,epoll_wait 才会返回该 socket。

?

如下两个示意图:

从socket读数据:

epoll在LT和ET模式上的读写方式

?

?

?

往socket写数据

epoll在LT和ET模式上的读写方式

所以, 在epoll的ET模式下, 正确的读写方式为:

读: 只要可读, 就一直读, 直到返回0, 或者 errno = EAGAIN

写: 只要可写, 就一直写, 直到数据发送完, 或者 errno = EAGAIN

?

正确的读:

?

C代码??epoll在LT和ET模式上的读写方式
  • n?=?0;??
  • while?((nread?=?read(fd,?buf?+?n,?BUFSIZ-1))?>?0)?{??
  • ????n?+=?nread;??
  • }??
  • if?(nread?==?-1?&&?errno?!=?EAGAIN)?{??
  • ????perror("read?error");??
  • }??

    ?正确的写:

    ?

    C代码??epoll在LT和ET模式上的读写方式
  • int?nwrite,?data_size?=?strlen(buf);??
  • n?=?data_size;??
  • while?(n?>?0)?{??
  • ????nwrite?=?write(fd,?buf?+?data_size?-?n,?n);??
  • ????if?(nwrite?<?n)?{??
  • ????????if?(nwrite?==?-1?&&?errno?!=?EAGAIN)?{??
  • ????????????perror("write?error");??
  • ????????}??
  • ????????break;??
  • ????}??
  • ????n?-=?nwrite;??
  • }??

    ?

    正确的accept,accept 要考虑 2 个问题

    (1) 阻塞模式 accept 存在的问题

    考虑这种情况: TCP 连接被客户端夭折,即在服务器调用 accept 之前,客户端主动发送 RST 终止

    连接,导致刚刚建立的连接从就绪队列中移出,如果套接口被设置成阻塞模式,服务器就会一直阻塞

    在 accept 调用上,直到其他某个客户建立一个新的连接为止。但是在此期间,服务器单纯地阻塞在

    accept 调用上,就绪队列中的其他描述符都得不到处理.

    ?

    解决办法是把监听套接口设置为非阻塞,当客户在服务器调用 accept 之前中止某个连接时,accept 调用

    可以立即返回 -1, 这时源自 Berkeley 的实现会在内核中处理该事件,并不会将该事件通知给 epool,

    而其他实现把 errno 设置为 ECONNABORTED 或者 EPROTO 错误,我们应该忽略这两个错误。

    ?

    (2) ET 模式下 accept 存在的问题

    考虑这种情况:多个连接同时到达,服务器的 TCP 就绪队列瞬间积累多个就绪连接,由于是边缘触发模式,

    ?epoll 只会通知一次,accept 只处理一个连接,导致 TCP 就绪队列中剩下的连接都得不到处理。

    ?

    ?解决办法是用 while 循环抱住 accept 调用,处理完 TCP 就绪队列中的所有连接后再退出循环。如何知道

    ?是否处理完就绪队列中的所有连接呢? accept??返回 -1 并且 errno 设置为 EAGAIN 就表示所有连接都处理完。

    ?

    综合以上两种情况,服务器应该使用非阻塞地 accept, accept 在 ET 模式下 的正确使用方式为:

    ?

    C代码??epoll在LT和ET模式上的读写方式
  • while?((conn_sock?=?accept(listenfd,(struct?sockaddr?*)?&remote,???
  • ????????????????(size_t?*)&addrlen))?>?0)?{??
  • ????handle_client(conn_sock);??
  • }??
  • if?(conn_sock?==?-1)?{??
  • ????if?(errno?!=?EAGAIN?&&?errno?!=?ECONNABORTED???
  • ????????????&&?errno?!=?EPROTO?&&?errno?!=?EINTR)???
  • ????????perror("accept");??
  • }??

    ?

    ?

    一道腾讯后台开发的面试题

    使用Linux epoll模型,水平触发模式;当socket可写时,会不停的触发 socket 可写的事件,如何处理?

    ?

    第一种最普遍的方式:

    需要向 socket 写数据的时候才把 socket 加入 epoll ,等待可写事件。

    接受到可写事件后,调用 write 或者 send 发送数据。。。

    当所有数据都写完后,把 socket 移出 epoll。

    ?

    这种方式的缺点是,即使发送很少的数据,也要把 socket 加入 epoll,写完后在移出 epoll,有一定操作代价。

    ?

    一种改进的方式:

    开始不把 socket 加入 epoll,需要向 socket 写数据的时候,直接调用 write 或者 send 发送数据。

    如果返回 EAGAIN,把 socket 加入 epoll,在 epoll 的驱动下写数据,全部数据发送完毕后,再移出 epoll。

    ?

    这种方式的优点是:数据不多的时候可以避免 epoll 的事件处理,提高效率。

    ?

    ?

    ?

    最后贴一个使用epoll, ET模式的简单HTTP服务器代码:

    ?

    C代码??epoll在LT和ET模式上的读写方式
  • #include?<sys/socket.h>??
  • #include?<sys/wait.h>??
  • #include?<netinet/in.h>??
  • #include?<netinet/tcp.h>??
  • #include?<sys/epoll.h>??
  • #include?<sys/sendfile.h>??
  • #include?<sys/stat.h>??
  • #include?<unistd.h>??
  • #include?<stdio.h>??
  • #include?<stdlib.h>??
  • #include?<string.h>??
  • #include?<strings.h>??
  • #include?<fcntl.h>??
  • #include?<errno.h>???
  • ??
  • #define?MAX_EVENTS?10??
  • #define?PORT?8080??
  • ??
  • //设置socket连接为非阻塞模式??
  • void?setnonblocking(int?sockfd)?{??
  • ????int?opts;??
  • ??
  • ????opts?=?fcntl(sockfd,?F_GETFL);??
  • ????if(opts?<?0)?{??
  • ????????perror("fcntl(F_GETFL)\n");??
  • ????????exit(1);??
  • ????}??
  • ????opts?=?(opts?|?O_NONBLOCK);??
  • ????if(fcntl(sockfd,?F_SETFL,?opts)?<?0)?{??
  • ????????perror("fcntl(F_SETFL)\n");??
  • ????????exit(1);??
  • ????}??
  • }??
  • ??
  • int?main(){??
  • ????struct?epoll_event?ev,?events[MAX_EVENTS];??
  • ????int?addrlen,?listenfd,?conn_sock,?nfds,?epfd,?fd,?i,?nread,?n;??
  • ????struct?sockaddr_in?local,?remote;??
  • ????char?buf[BUFSIZ];??
  • ??
  • ????//创建listen?socket??
  • ????if(?(listenfd?=?socket(AF_INET,?SOCK_STREAM,?0))?<?0)?{??
  • ????????perror("sockfd\n");??
  • ????????exit(1);??
  • ????}??
  • ????setnonblocking(listenfd);??
  • ????bzero(&local,?sizeof(local));??
  • ????local.sin_family?=?AF_INET;??
  • ????local.sin_addr.s_addr?=?htonl(INADDR_ANY);;??
  • ????local.sin_port?=?htons(PORT);??
  • ????if(?bind(listenfd,?(struct?sockaddr?*)?&local,?sizeof(local))?<?0)?{??
  • ????????perror("bind\n");??
  • ????????exit(1);??
  • ????}??
  • ????listen(listenfd,?20);??
  • ??
  • ????epfd?=?epoll_create(MAX_EVENTS);??
  • ????if?(epfd?==?-1)?{??
  • ????????perror("epoll_create");??
  • ????????exit(EXIT_FAILURE);??
  • ????}??
  • ??
  • ????ev.events?=?EPOLLIN;??
  • ????ev.data.fd?=?listenfd;??
  • ????if?(epoll_ctl(epfd,?EPOLL_CTL_ADD,?listenfd,?&ev)?==?-1)?{??
  • ????????perror("epoll_ctl:?listen_sock");??
  • ????????exit(EXIT_FAILURE);??
  • ????}??
  • ??
  • ????for?(;;)?{??
  • ????????nfds?=?epoll_wait(epfd,?events,?MAX_EVENTS,?-1);??
  • ????????if?(nfds?==?-1)?{??
  • ????????????perror("epoll_pwait");??
  • ????????????exit(EXIT_FAILURE);??
  • ????????}??
  • ??
  • ????????for?(i?=?0;?i?<?nfds;?++i)?{??
  • ????????????fd?=?events[i].data.fd;??
  • ????????????if?(fd?==?listenfd)?{??
  • ????????????????while?((conn_sock?=?accept(listenfd,(struct?sockaddr?*)?&remote,???
  • ????????????????????????????????(size_t?*)&addrlen))?>?0)?{??
  • ????????????????????setnonblocking(conn_sock);??
  • ????????????????????ev.events?=?EPOLLIN?|?EPOLLET;??
  • ????????????????????ev.data.fd?=?conn_sock;??
  • ????????????????????if?(epoll_ctl(epfd,?EPOLL_CTL_ADD,?conn_sock,??
  • ????????????????????????????????&ev)?==?-1)?{??
  • ????????????????????????perror("epoll_ctl:?add");??
  • ????????????????????????exit(EXIT_FAILURE);??
  • ????????????????????}??
  • ????????????????}??
  • ????????????????if?(conn_sock?==?-1)?{??
  • ????????????????????if?(errno?!=?EAGAIN?&&?errno?!=?ECONNABORTED???
  • ????????????????????????????&&?errno?!=?EPROTO?&&?errno?!=?EINTR)???
  • ????????????????????????perror("accept");??
  • ????????????????}??
  • ????????????????continue;??
  • ????????????}????
  • ????????????if?(events[i].events?&?EPOLLIN)?{??
  • ????????????????n?=?0;??
  • ????????????????while?((nread?=?read(fd,?buf?+?n,?BUFSIZ-1))?>?0)?{??
  • ????????????????????n?+=?nread;??
  • ????????????????}??
  • ????????????????if?(nread?==?-1?&&?errno?!=?EAGAIN)?{??
  • ????????????????????perror("read?error");??
  • ????????????????}??
  • ????????????????ev.data.fd?=?fd;??
  • ????????????????ev.events?=?events[i].events?|?EPOLLOUT;??
  • ????????????????if?(epoll_ctl(epfd,?EPOLL_CTL_MOD,?fd,?&ev)?==?-1)?{??
  • ????????????????????perror("epoll_ctl:?mod");??
  • ????????????????}??
  • ????????????}??
  • ????????????if?(events[i].events?&?EPOLLOUT)?{??
  • ????????????????sprintf(buf,?"HTTP/1.1?200?OK\r\nContent-Length:?%d\r\n\r\nHello?World",?11);??
  • ????????????????int?nwrite,?data_size?=?strlen(buf);??
  • ????????????????n?=?data_size;??
  • ????????????????while?(n?>?0)?{??
  • ????????????????????nwrite?=?write(fd,?buf?+?data_size?-?n,?n);??
  • ????????????????????if?(nwrite?<?n)?{??
  • ????????????????????????if?(nwrite?==?-1?&&?errno?!=?EAGAIN)?{??
  • ????????????????????????????perror("write?error");??
  • ????????????????????????}??
  • ????????????????????????break;??
  • ????????????????????}??
  • ????????????????????n?-=?nwrite;??
  • ????????????????}??
  • ????????????????close(fd);??
  • ????????????}??
  • ????????}??
  • ????}??
  • ??
  • ????return?0;??
  • } ?

  • 热点排行