MapReduce错误任务失败处理

MapReduce的作业失败主要分三个层次，即jobtracker失败,tasktracker,子任务实例

1，jobtracker失败

jobtracker失败应该说是最严重的一种失败方式了，而且在hadoop中存在单点故障的情况下是相当严重的，因为在这种情况下作业最终失败，尽管这种故障的概率极小但是还是应该避免，可以通过启动多个jobtracker，在这种情况只运行一个主的jobtracker.通过一种机制来确定那个是主的jobtracker.

2，tasktacker失败

作业运行期间，tasktracker会通过心跳机制不断与系统jobtracker通信，如果某个tasktracker运行缓慢或者失败，出现故障。tasktracker就会停止或者很少想jobtracker发送心跳，jobtracker会注意到此tasktracker发送心跳的情况，从而将此tasktracker从等待任务调度的tasktracker池中移除，jobtracker会安排此tasktracker上一成功运行的map任务返回，

①，如果他们属于为完成的作业的化，reduce阶段无法获取改tasktracker上的本地map输出文件，任何任务都需要重新调度---即只要是mapping阶段必然是重新执行

②，如果是reduce阶段呢，如果是reduce阶段自然就是执行为完成的reduce任务了，因为reduce只要执行完了的就会把输出写到Hdfs上

3，子任务失败，这个是不是可以理解为JVM级别的

①，当map或者reduce子任务中的代码抛出异常，JVM进程会在退出之前向服进程tasktracker进程发送错误报告，，tasktracker会将此（任务尝试）task attempt标记为failed状态，释放一个槽以便运行另外一个任务

②，对于流任务，如果流进程以非零退出代码退出运行则会标记为failed。

③，子JVM突然退出，即JVM错误，这时tasktracker会注意到进程已经退出，标记为failed

tasktracker将子任务标记为失败后会将自身计数器减一，以便想jobtracker申请新的任务，也是通过心跳告知jobtracker本地的一个任务尝试失败。jobtracker接到任务失败的通知后，会将其重新加入到调度队列重新分配给其他的tasktracker执行（避免将失败的任务分配给执行失败的tasktracker），但是这个尝试也是有次数限制的，默认情况下任务尝试4次后仍然没有完成，就不会再重试（jobtracker会将其标记为killed），此时整个作业就执行失败了。

4，jobcleanup,recoverymanager,taskcleanup,expiretrackers,expirelaunchingtasks,监测失效，清除恢复，还有好多后台线程。。。。

作者：luyee2010 发表于2013-3-25 1:56:46 原文链接

阅读：95 评论：0 查看评论

MapReduce错误任务失败处理

Trending Articles

《沈冰自述——我和周永康的故事》全本

Moog - Subsequent 25

出售: 林憶蓮•回來愛的身邊 (東芝1A1頭版)

筆記 - 使用 PowerShell 清除停用 AD 帳號與 OU

df-dferh-01 中国区 Android 安装 Google Play Store 后报错的解决办法

「一棒接一棒、棒棒強棒」108學年度家長會長交接典禮

吸烟与MBTI类型判断捷径 (豆瓣 INFJ的奇幻之旅小组)

acermark龍璿國際展出多款包裝設備

枋寮北勢寮隆山宮睽違12年再辦迎王祭典

日本女优有村千佳COS集锦：狂三&黑白岩&亚丝娜&绫波丽

有遇到过这个问题么。/jsb-videoplayer.js not found, possible missing file.

MAS v2.8 magicgenius 汉化版 - 11.11更新

出售: Monster Cable Interlink Reference 2

福建佛教人士望云和尚(林斌)的九仙禅寺被强行收走，望云妈妈被赶出寺庙

R 语言中的OpenBLAS*和英特尔® 数学核心函数库的性能比较

[转载]煞貢、直星、人專吉日\金神七煞歌

HAKERS哈克士戶外 12月8~14日廠拍

OBS Studio 23.2.1 免安裝中文版 - 免費網路實況廣播軟體實況主必備軟體取代Fraps

<請教>行駛中安卓機會重新開機

Udp2raw-tunnel 及其一键安装脚本