将map的输出传给reduce的过程称为shuffle,可以成为MapReduce的心脏。
map获取的数据,首先会进到内存缓冲区(默认100Mb),超出的数据会放进磁盘。
在放进磁盘之前,会对数据进行排序。
reduce通过http方式,对map输出的数据进行复制,同样,超出的数据会放进磁盘。
reduce进一步对数据进行合并排序。
最终输出到reduce方法。
Last updated 2 years ago