定时任务服务器宕机了怎么办？99%的人答不全

小熊学Java大约 20 分钟面试场景题

一、从一个面试问题说起

在技术面试中，当候选人讲到"我们系统的某某功能是通过定时任务实现的"时，面试官往往会抛出一个直击灵魂的问题：

"如果跑定时任务的服务器宕机了，你如何解决？"

很多候选人会下意识回答："重启服务器，重新跑任务。"但这个答案显然不够完善。面试官期待的是一个系统性的解决方案，需要从兜底策略、幂等性、断点续跑等多个维度综合考虑。

记下来我们一起结合实际业务场景，深入剖析定时任务容灾的完整技术方案。

二、问题本质：宕机的两种场景

服务器宕机可以分为两种截然不同的场景，它们的解决思路完全不同：

第一种是非运行时宕机：定时任务还没开始执行，服务器就挂了。比如凌晨 2 点要执行任务，但凌晨 1 点服务器就宕机了。

第二种是运行时宕机：定时任务正在执行过程中，服务器突然挂了。比如任务执行到一半，突然断电或者进程崩溃。

image

三、非运行时宕机：去单点化才是王道

非运行时宕机的核心问题是单点故障。如果只有一台服务器运行定时任务，它挂了任务就无法执行。解决方案很直接：集群化部署，去单点化。

目前业界主流的方案有两种：SpringTask 配合分布式锁，或者使用 XXL-JOB 这样的分布式任务调度平台。

方案一：SpringTask + Redis 分布式锁

这种方案的思路很简单：集群中的每台服务器在定时任务触发时都会尝试执行，但通过 Redis 分布式锁保证只有一台服务器能够真正执行业务逻辑。哪怕某台服务器宕机，其他服务器仍可获取锁并执行任务。

image

下面是核心代码实现。我们使用 Redisson 客户端来实现分布式锁，它的优势是自动续期和防止死锁。在 @Scheduled 注解的方法中，首先尝试获取锁，获取成功才执行业务逻辑，最后在 finally 块中释放锁：

@Component
public class UserActiveScheduledTask {

    @Autowired
    private RedissonClient redissonClient;

    @Autowired
    private UserService userService;

    /**
     * 每天凌晨2点执行
     * 集群中的每台服务器都会执行这个方法
     * 但只有获取到锁的服务器才会真正执行业务逻辑
     */
    @Scheduled(cron = "0 0 2 * * ?")
    public void markActiveUsers() {
        String lockKey = "scheduled:task:mark-active-users";
        RLock lock = redissonClient.getLock(lockKey);

        try {
            // 尝试获取锁，最多等待0秒，锁定60分钟后自动释放
            boolean isLocked = lock.tryLock(0, 60, TimeUnit.MINUTES);

            if (!isLocked) {
                log.info("未获取到分布式锁，任务由其他服务器执行");
                return;
            }

            log.info("成功获取分布式锁，开始执行定时任务");

            // 执行业务逻辑：标记昨天下单的用户为活跃用户
            userService.markActiveUsers();

        } catch (InterruptedException e) {
            log.error("获取分布式锁异常", e);
            Thread.currentThread().interrupt();
        } finally {
            // 确保释放锁，避免死锁
            if (lock.isHeldByCurrentThread()) {
                lock.unlock();
                log.info("释放分布式锁");
            }
        }
    }
}

方案二：XXL-JOB 故障转移

XXL-JOB 是一个成熟的分布式任务调度平台。它的工作模式是：调度中心负责任务调度，选择一台执行器（服务器）执行任务。如果该执行器无响应，自动切换到其他执行器，这就是故障转移模式。

image

XXL-JOB 的优势在于提供了可视化的管理界面，可以方便地查看任务执行情况、执行日志、执行器状态等。下面是代码实现，我们只需要定义一个任务处理器，然后在 XXL-JOB 管理后台配置任务的执行时间即可：

@Component
public class MarkActiveUsersJob {

    @Autowired
    private UserService userService;

    /**
     * XXL-JOB 任务处理器
     * 在管理后台配置任务时，指定这个 Handler 的名称
     * 调度中心会自动选择一个可用的执行器来运行这个方法
     */
    @XxlJob("markActiveUsersHandler")
    public void execute() {
        XxlJobHelper.log("开始执行标记活跃用户任务");

        try {
            userService.markActiveUsers();
            XxlJobHelper.log("任务执行成功");
        } catch (Exception e) {
            XxlJobHelper.log("任务执行失败：" + e.getMessage());
            XxlJobHelper.handleFail("任务执行异常");
        }
    }
}

配置文件中指定调度中心的地址和执行器信息：

xxl:
  job:
    admin:
      addresses: http://xxl-job-admin:8080/xxl-job-admin
    executor:
      appname: user-service
      port: 9999

这两种方案都能很好地解决非运行时宕机问题。但有同学可能会问：单台定时任务服务器配合监控告警不行吗？让工程师收到告警后手动重启。理论上可以，但现实情况是很多业务系统的定时任务都在半夜执行，就算告警了也可能叫不醒熟睡的人。

四、运行时宕机：场景决定策略

运行时宕机的情况要复杂得多，因为它涉及到数据一致性问题。我们需要根据具体的业务场景来选择不同的策略。

场景一：标记活跃用户

假设这样一个业务场景：凌晨 2 点执行定时任务，将昨天在电商平台下过单的用户标记为"活跃用户"。

这种场景的特点是可以重复执行，不会产生副作用。重复标记一个用户为活跃用户并不会造成问题。因此解决方案很简单：在数据库中设置一个任务执行情况的标志位，根据标志位的状态决定是否重复执行即可。

image

代码实现的核心思路是：执行任务前先检查任务状态，如果已完成就跳过；如果未完成或失败，就继续执行。这样即使服务器宕机重启，任务也能自动恢复执行：

@Service
public class UserActiveService {

    @Autowired
    private TaskStatusMapper taskStatusMapper;

    @Autowired
    private UserMapper userMapper;

    @Transactional(rollbackFor = Exception.class)
    public void markActiveUsers() {
        String taskDate = LocalDate.now().minusDays(1).toString();
        String taskId = "mark_active_users_" + taskDate;

        // 检查任务是否已完成
        TaskStatus taskStatus = taskStatusMapper.selectByTaskId(taskId);
        if (taskStatus != null && "COMPLETED".equals(taskStatus.getStatus())) {
            log.info("任务已完成，跳过执行：{}", taskId);
            return;
        }

        // 创建或更新任务状态为执行中
        if (taskStatus == null) {
            taskStatus = new TaskStatus();
            taskStatus.setTaskId(taskId);
            taskStatus.setStatus("RUNNING");
            taskStatus.setStartTime(LocalDateTime.now());
            taskStatusMapper.insert(taskStatus);
        } else {
            taskStatus.setStatus("RUNNING");
            taskStatusMapper.updateById(taskStatus);
        }

        try {
            // 执行业务逻辑
            List<Long> userIds = userMapper.selectOrderUsersByDate(taskDate);
            for (Long userId : userIds) {
                userMapper.updateUserActive(userId, true);
            }

            // 更新任务状态为已完成
            taskStatus.setStatus("COMPLETED");
            taskStatus.setEndTime(LocalDateTime.now());
            taskStatusMapper.updateById(taskStatus);

        } catch (Exception e) {
            // 更新任务状态为失败，下次可以重试
            taskStatus.setStatus("FAILED");
            taskStatus.setErrorMsg(e.getMessage());
            taskStatusMapper.updateById(taskStatus);
            throw e;
        }
    }
}

对应的数据库表结构很简单，就是记录任务的执行状态：

CREATE TABLE `task_status` (
  `id` BIGINT NOT NULL AUTO_INCREMENT,
  `task_id` VARCHAR(100) NOT NULL COMMENT '任务ID',
  `status` VARCHAR(20) NOT NULL COMMENT '状态：RUNNING/COMPLETED/FAILED',
  `start_time` DATETIME COMMENT '开始时间',
  `end_time` DATETIME COMMENT '结束时间',
  `error_msg` TEXT COMMENT '错误信息',
  PRIMARY KEY (`id`),
  UNIQUE KEY `uk_task_id` (`task_id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4;

场景二：发放积分

再假设另一个业务场景：凌晨 2 点执行定时任务，给昨天在电商平台下过单的用户增加相应的积分。

这种场景就完全不同了。如果简单粗暴地重复执行任务，会给已经增加过积分的用户再次增加积分，从而造成公司的经济损失。这就要求我们必须将执行定时任务的业务代码做到幂等性。

幂等性（Idempotence）是指任意一个操作的多次重复执行，对系统所产生的结果是相同的。保证幂等性的核心思想是：通过某个唯一值进行幂等性校验。

image

具体做法是：在数据库中创建一个"积分明细表"，把"当天日期 + 分隔符 + 用户 ID"组合起来作为该表中的字段，并为该字段创建一个唯一索引。这样一来，即使定时任务重复执行，同一个用户在同一天也只会被插入一次记录，从而保证积分只发放一次：

@Service
public class PointsGrantService {

    @Autowired
    private PointsDetailMapper pointsDetailMapper;

    @Autowired
    private UserPointsMapper userPointsMapper;

    public void grantPointsToOrderUsers() {
        String grantDate = LocalDate.now().minusDays(1).toString();
        List<UserOrderInfo> orderUsers = queryOrderUsers(grantDate);

        int successCount = 0;
        int skipCount = 0;

        for (UserOrderInfo userOrder : orderUsers) {
            try {
                int points = (int) (userOrder.getOrderAmount() * 0.01);
                boolean granted = tryGrantPoints(userOrder.getUserId(), points, grantDate);

                if (granted) {
                    successCount++;
                } else {
                    skipCount++;
                }
            } catch (Exception e) {
                log.error("发放积分失败，用户ID：{}", userOrder.getUserId(), e);
            }
        }

        log.info("积分发放完成，成功：{}，跳过：{}", successCount, skipCount);
    }

    /**
     * 尝试发放积分（保证幂等性）
     * 关键点：通过唯一索引保证同一用户在同一天只能被发放一次积分
     */
    @Transactional(rollbackFor = Exception.class)
    public boolean tryGrantPoints(Long userId, int points, String grantDate) {
        // 构造幂等键：日期_用户ID，例如：2024-11-06_1001
        String idempotentKey = grantDate + "_" + userId;

        try {
            // 插入积分明细，唯一索引保证幂等
            PointsDetail detail = new PointsDetail();
            detail.setIdempotentKey(idempotentKey);
            detail.setUserId(userId);
            detail.setPoints(points);
            detail.setGrantDate(grantDate);
            detail.setCreateTime(LocalDateTime.now());

            pointsDetailMapper.insert(detail);

            // 增加用户积分余额
            userPointsMapper.increasePoints(userId, points);

            return true;

        } catch (DuplicateKeyException e) {
            // 唯一索引冲突，说明已经发放过了，直接跳过
            log.info("积分已发放过，跳过，用户ID：{}", userId);
            return false;
        }
    }
}

积分明细表的设计是幂等性的关键。idempotent_key 字段设置了唯一索引，确保相同的幂等键无法重复插入：

CREATE TABLE `points_detail` (
  `id` BIGINT NOT NULL AUTO_INCREMENT,
  `idempotent_key` VARCHAR(100) NOT NULL COMMENT '幂等键：日期_用户ID',
  `user_id` BIGINT NOT NULL COMMENT '用户ID',
  `points` INT NOT NULL COMMENT '积分数',
  `grant_date` VARCHAR(20) NOT NULL COMMENT '发放日期',
  `create_time` DATETIME NOT NULL COMMENT '创建时间',
  PRIMARY KEY (`id`),
  UNIQUE KEY `uk_idempotent_key` (`idempotent_key`),
  KEY `idx_user_id` (`user_id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4;

幂等性的保证机制可以用序列图清晰地展示：

image

场景三：2 亿用户发积分

目前我们的定时任务已经具备了兜底策略和幂等性，是不是就任何业务场景都通吃了？其实还不是。

再假设一个更极端的业务场景：凌晨 2 点执行定时任务，给电商平台的 2 亿用户全部添加相应的积分。

这种情况下，虽然我们的定时任务具备了兜底策略和幂等性，但如果在定时任务马上就执行完成的时候服务器宕机了，难道还要将这个大任务整个重跑吗？要知道，给 2 亿用户发积分是一个非常耗时的操作，就算每小时能处理 1000 万用户，也得 20 个小时才能完成。如果在第 19 个小时宕机，重新跑又要 20 小时，这意味着需要延期整整一天，公司的业务部门是不能接受的。

这时我们需要引入断点续跑机制。

image

断点续跑的核心思想是：任务按用户 ID 升序处理，每处理一批用户就记录已处理的最大用户 ID。宕机恢复后，从上次记录的最大用户 ID 继续处理，而不是从头开始。下面是完整的代码实现：

@Service
public class MassPointsGrantService {

    @Autowired
    private PointsDetailMapper pointsDetailMapper;

    @Autowired
    private UserMapper userMapper;

    @Autowired
    private TaskCheckpointMapper checkpointMapper;

    private static final int BATCH_SIZE = 1000;

    public void grantPointsToAllUsers() {
        String grantDate = LocalDate.now().minusDays(1).toString();
        String taskId = "grant_points_all_users_" + grantDate;

        // 查找断点位置：如果有断点就从断点继续，没有就从头开始
        Long startUserId = findCheckpoint(taskId);
        log.info("开始批量发放积分，起始用户ID：{}", startUserId);

        long processedCount = 0;
        Long currentMaxUserId = startUserId;

        while (true) {
            // 分批查询用户（按ID升序，每批1000条）
            List<User> users = userMapper.selectBatchByIdGreaterThan(
                currentMaxUserId, BATCH_SIZE
            );

            if (users.isEmpty()) {
                log.info("所有用户处理完成，总计：{}", processedCount);
                break;
            }

            // 批量发放积分（带幂等性保证）
            for (User user : users) {
                try {
                    int points = 100; // 每人100积分
                    tryGrantPoints(user.getId(), points, grantDate);
                    currentMaxUserId = Math.max(currentMaxUserId, user.getId());
                } catch (Exception e) {
                    log.error("发放积分失败，用户ID：{}", user.getId(), e);
                }
            }

            processedCount += users.size();

            // 保存断点：记录当前处理到的最大用户ID
            saveCheckpoint(taskId, currentMaxUserId, grantDate);

            log.info("当前批次处理完成，已处理：{}，当前最大用户ID：{}",
                processedCount, currentMaxUserId);
        }

        // 任务完成，清除断点标记
        clearCheckpoint(taskId);
    }

    /**
     * 查找断点位置
     * 优先从断点表查询，如果没有则从积分明细表查询最大用户ID
     */
    private Long findCheckpoint(String taskId) {
        TaskCheckpoint checkpoint = checkpointMapper.selectByTaskId(taskId);

        if (checkpoint != null) {
            log.info("发现断点，从用户ID {} 继续执行", checkpoint.getLastUserId());
            return checkpoint.getLastUserId();
        }

        // 如果没有断点，从积分明细表查找最大用户ID
        Long maxUserId = pointsDetailMapper.selectMaxUserIdByDate(
            LocalDate.now().minusDays(1).toString()
        );

        return maxUserId != null ? maxUserId : 0L;
    }

    /**
     * 保存断点
     * 每处理一批用户就保存一次，确保宕机后能从这里继续
     */
    @Transactional(rollbackFor = Exception.class)
    private void saveCheckpoint(String taskId, Long lastUserId, String grantDate) {
        TaskCheckpoint checkpoint = checkpointMapper.selectByTaskId(taskId);

        if (checkpoint == null) {
            checkpoint = new TaskCheckpoint();
            checkpoint.setTaskId(taskId);
            checkpoint.setLastUserId(lastUserId);
            checkpoint.setGrantDate(grantDate);
            checkpoint.setUpdateTime(LocalDateTime.now());
            checkpointMapper.insert(checkpoint);
        } else {
            checkpoint.setLastUserId(lastUserId);
            checkpoint.setUpdateTime(LocalDateTime.now());
            checkpointMapper.updateById(checkpoint);
        }
    }

    /**
     * 清除断点
     * 任务完成后清除断点，下次执行会从头开始
     */
    private void clearCheckpoint(String taskId) {
        checkpointMapper.deleteByTaskId(taskId);
        log.info("任务完成，清除断点：{}", taskId);
    }
}

断点表的设计也很简单，只需要记录任务 ID 和最后处理的用户 ID：

CREATE TABLE `task_checkpoint` (
  `id` BIGINT NOT NULL AUTO_INCREMENT,
  `task_id` VARCHAR(100) NOT NULL COMMENT '任务ID',
  `last_user_id` BIGINT NOT NULL COMMENT '最后处理的用户ID',
  `grant_date` VARCHAR(20) NOT NULL COMMENT '发放日期',
  `update_time` DATETIME NOT NULL COMMENT '更新时间',
  PRIMARY KEY (`id`),
  UNIQUE KEY `uk_task_id` (`task_id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4;

断点续跑的效果对比非常明显。下图展示了两种方案的耗时差异：

image

可以看到，不使用断点续跑需要总共 38 小时（第一次 19 小时 + 重跑 19 小时），而使用断点续跑只需要 20 小时（第一次 19 小时 + 续跑 1 小时）。这种优化对于大批量任务来说是质的飞跃。

五、完整技术方案总结

通过前面的分析，我们已经系统地讲解了定时任务容灾的完整解决方案。现在让我们用一张决策树来总结所有场景：

image

我们可以把所有技术要点整理一下：

|
场景

核心技术

关键点

适用范围

| |
| |

非运行时宕机

集群化部署

分布式锁/故障转移

所有定时任务

|
|

可重复执行任务

状态标志位

任务状态表

无副作用任务

|
|

有副作用任务

幂等性设计

唯一索引

中小规模数据

|
|

大批量任务

断点续跑

进度记录 + 幂等性

亿级数据处理

在实际生产环境中，我们通常会采用分层防护的策略，将多种技术方案组合使用：

image

六、最佳实践与代码模板

基于前面的讨论，我们可以提炼出一个定时任务的最佳实践模板。这个模板整合了集群化、幂等性、断点续跑等所有技术要点，可以应对绝大多数场景：

/**
 * 定时任务最佳实践模板
 * 集成了分布式锁、状态管理、断点续跑、幂等性等所有核心能力
 */
@Component
public class BestPracticeScheduledTask {

    @Autowired
    private RedissonClient redissonClient;

    @Autowired
    private TaskStatusMapper taskStatusMapper;

    @Autowired
    private TaskCheckpointMapper checkpointMapper;

    @Scheduled(cron = "0 0 2 * * ?")
    public void execute() {
        String lockKey = "scheduled:task:best-practice";
        RLock lock = redissonClient.getLock(lockKey);

        try {
            // 第一步：获取分布式锁（集群化保证）
            if (!lock.tryLock(0, 60, TimeUnit.MINUTES)) {
                log.info("未获取到锁，任务由其他服务器执行");
                return;
            }

            // 第二步：检查任务状态（防重复执行）
            if (isTaskCompleted()) {
                log.info("任务已完成，跳过执行");
                return;
            }

            // 第三步：标记任务开始
            markTaskRunning();

            // 第四步：查找断点（大批量任务支持）
            Long checkpoint = findCheckpoint();
            log.info("从断点继续执行，checkpoint: {}", checkpoint);

            // 第五步：执行业务逻辑（保证幂等性）
            executeBusiness(checkpoint);

            // 第六步：标记任务完成
            markTaskCompleted();

            // 第七步：清除断点
            clearCheckpoint();

            log.info("定时任务执行成功");

        } catch (Exception e) {
            log.error("定时任务执行异常", e);
            markTaskFailed(e.getMessage());
            sendAlert(e); // 发送告警通知
        } finally {
            // 第八步：释放锁
            if (lock.isHeldByCurrentThread()) {
                lock.unlock();
            }
        }
    }

    private boolean isTaskCompleted() {
        // 检查任务是否已完成
        String taskId = generateTaskId();
        TaskStatus status = taskStatusMapper.selectByTaskId(taskId);
        return status != null && "COMPLETED".equals(status.getStatus());
    }

    private void markTaskRunning() {
        String taskId = generateTaskId();
        TaskStatus status = new TaskStatus();
        status.setTaskId(taskId);
        status.setStatus("RUNNING");
        status.setStartTime(LocalDateTime.now());
        taskStatusMapper.insertOrUpdate(status);
    }

    private void markTaskCompleted() {
        String taskId = generateTaskId();
        taskStatusMapper.updateStatus(taskId, "COMPLETED", LocalDateTime.now());
    }

    private void markTaskFailed(String errorMsg) {
        String taskId = generateTaskId();
        taskStatusMapper.updateStatusWithError(taskId, "FAILED", errorMsg);
    }

    private Long findCheckpoint() {
        String taskId = generateTaskId();
        TaskCheckpoint checkpoint = checkpointMapper.selectByTaskId(taskId);
        return checkpoint != null ? checkpoint.getLastProcessedId() : 0L;
    }

    private void executeBusiness(Long checkpoint) {
        // 实现具体的业务逻辑，记得保证幂等性
    }

    private void clearCheckpoint() {
        String taskId = generateTaskId();
        checkpointMapper.deleteByTaskId(taskId);
    }

    private void sendAlert(Exception e) {
        // 发送告警通知到钉钉、邮件等
    }

    private String generateTaskId() {
        return "task_" + LocalDate.now().toString();
    }
}

这个模板看起来代码量不少，但它已经覆盖了所有容灾场景。你只需要根据实际业务需求选择性地删减即可。比如如果是小任务，可以去掉断点续跑部分；如果业务本身就是幂等的，可以简化状态检查部分。

七、监控与告警

完善的技术方案离不开监控和告警。我们需要知道定时任务的执行情况，以便在出现问题时及时发现和处理。

建议监控以下关键指标：

@Component
public class ScheduledTaskMetrics {

    @Autowired
    private MeterRegistry meterRegistry;

    /**
     * 记录任务执行指标
     * 包括执行次数、成功率、执行时长等
     */
    public void recordTaskExecution(String taskName, long duration, boolean success) {
        // 记录执行次数（区分成功和失败）
        meterRegistry.counter(
            "scheduled.task.executions",
            "task", taskName,
            "status", success ? "success" : "failed"
        ).increment();

        // 记录执行时长
        meterRegistry.timer(
            "scheduled.task.duration",
            "task", taskName
        ).record(duration, TimeUnit.MILLISECONDS);

        // 记录失败次数
        if (!success) {
            meterRegistry.counter(
                "scheduled.task.failures",
                "task", taskName
            ).increment();
        }
    }
}

这些指标可以接入 Prometheus + Grafana 实现可视化监控，也可以配置告警规则。比如当任务连续失败 3 次、或者执行时长超过阈值时自动发送告警。

此外，还可以实现一个简单的心跳监控。定时任务执行成功后更新心跳时间，监控程序定期检查心跳，如果发现任务长时间没有执行就发送告警：

@Component
public class ScheduledTaskMonitor {

    @Autowired
    private AlarmService alarmService;

    @Autowired
    private RedisTemplate<String, String> redisTemplate;

    /**
     * 定时任务心跳监控
     * 每隔5分钟检查一次任务是否正常执行
     */
    @Scheduled(cron = "0 */5 * * * ?")
    public void monitorTaskExecution() {
        String taskKey = "scheduled:task:heartbeat:mark-active-users";
        String lastExecuteTime = redisTemplate.opsForValue().get(taskKey);

        if (lastExecuteTime == null) {
            // 任务从未执行过，或者执行后没有更新心跳
            alarmService.sendAlert(
                "定时任务监控告警",
                "标记活跃用户任务可能未执行，请立即检查！"
            );
            return;
        }

        // 检查上次执行时间距离现在是否超过阈值
        LocalDateTime lastTime = LocalDateTime.parse(lastExecuteTime);
        long hoursSinceLastExecution = ChronoUnit.HOURS.between(lastTime, LocalDateTime.now());

        if (hoursSinceLastExecution > 25) { // 任务应该每天执行，超过25小时就告警
            alarmService.sendAlert(
                "定时任务监控告警",
                String.format("标记活跃用户任务已经%d小时未执行，请立即检查！", hoursSinceLastExecution)
            );
        }
    }
}

八、面试深入问题解答

Q1: 为什么不直接用定时任务框架的失败重试机制？

框架的重试机制通常是简单的整体重试，无法做到细粒度的断点续跑、业务级别的幂等性保证、灵活的失败处理策略。两者应该配合使用而不是替代。框架的重试机制用于处理临时性故障，而我们讨论的方案用于处理更复杂的容灾场景。

Q2: 幂等性设计会不会影响性能？

影响很小。唯一索引的查询和插入都是 O(log n) 复杂度，对于百万级数据几乎无感知。反而能避免重复数据，提升数据质量。如果确实存在性能问题，可以考虑先在内存中用布隆过滤器做一次快速判断，再进行数据库操作。

Q3: 断点续跑的粒度如何选择？

建议按照任务执行时长来决定：小任务（< 1 小时）不需要断点续跑；中等任务（1-4 小时）每 10-30 分钟保存一次断点；大任务（> 4 小时）每 5-10 分钟保存一次断点。过于频繁的断点保存会影响性能，过于稀疏的断点又达不到容灾效果。

Q4: 分布式锁的超时时间如何设置？

建议公式是：超时时间 = 任务正常执行时长 × 1.5 + 缓冲时间（10-30 分钟）。例如任务正常需要 40 分钟，则设置：40 × 1.5 + 20 = 80 分钟。这样既能防止死锁，又能容忍一定的性能波动。

Q5: XXL-JOB 和 SpringTask 如何选择？

如果是小型项目、任务数量少（< 10 个）、团队规模小，建议使用 SpringTask + Redis 锁，简单够用。如果是中大型项目、任务数量多、需要可视化管理、需要复杂的调度策略（如依赖调度、分片执行等），建议使用 XXL-JOB。

Q6: 如何保证断点数据的可靠性？

断点数据本身也需要可靠性保证。建议将断点信息持久化到数据库而不是 Redis，因为 Redis 可能出现数据丢失。同时，断点信息的更新要和业务数据在同一个事务中，保证一致性。如果对性能要求极高，可以采用先写 Redis 再异步刷盘到数据库的方案。

Q7: 集群环境下如何保证任务不被重复执行？

这正是我们使用分布式锁的原因。无论是 Redis 分布式锁还是 XXL-JOB 的调度机制，都能保证同一时刻只有一台服务器执行任务。需要注意的是，分布式锁一定要设置合理的超时时间，避免死锁；同时要确保在 finally 块中释放锁。

九、总结

回到文章开头的面试问题："如果跑定时任务的服务器宕机了，你要如何解决？"

现在我们可以给出一个完整的答案：

首先要区分是非运行时宕机还是运行时宕机。非运行时宕机通过集群化部署解决，可以用 SpringTask 配合 Redis 分布式锁，或者使用 XXL-JOB 的故障转移机制。

运行时宕机则要根据业务特性选择方案。如果业务允许重复执行，使用任务状态标志位即可。如果不允许重复执行，必须保证幂等性，通过唯一索引来防止重复操作。如果是大批量任务，还需要引入断点续跑机制，避免宕机后从头重跑的高昂代价。

在实际生产环境中，通常会采用分层防护策略，将这些技术方案组合使用，再配合监控告警作为最后的兜底。

image

这样的回答既展现了系统设计能力，又体现了实际的工程经验，足以应对大多数面试场景。更重要的是，这些方案都是经过线上验证的，可以直接应用到实际项目中。

技术选型建议：小型项目用 SpringTask + Redis，中大型项目用 XXL-JOB，超大规模项目用 XXL-JOB + 自研分片。具体选择要根据团队规模、项目复杂度、运维能力等综合考虑。

最后，定时任务虽然看似简单，但要做到真正的高可用、高可靠，需要考虑的细节还有很多。希望本文能帮助你建立起完整的定时任务容灾体系，在面试和实际工作中都能游刃有余。

关键要点回顾：

“
💡 非运行时宕机 → 集群化部署（分布式锁/故障转移）
💡 运行时宕机 + 可重复执行 → 任务状态标志位
💡 运行时宕机 + 有副作用 → 幂等性设计（唯一索引）
💡 大批量任务 → 断点续跑 + 分片并行 + 幂等性
💡 终极方案 → 分层防护 + 监控告警 + 人工兜底

如果觉得本文对你有帮助，欢迎点赞、收藏、转发！有任何问题欢迎在评论区讨论。