MapReduce

工作机制

shuffle

将map的输出传给reduce的过程称为shuffle,可以成为MapReduce的心脏。

  1. map获取的数据,首先会进到内存缓冲区(默认100Mb),超出的数据会放进磁盘。

  2. 在放进磁盘之前,会对数据进行排序。

  3. reduce通过http方式,对map输出的数据进行复制,同样,超出的数据会放进磁盘。

  4. reduce进一步对数据进行合并排序。

  5. 最终输出到reduce方法。

Last updated