How Skrull Boosts Long-Context Fine‑Tuning Speed Up to 7.5×

The Skrull system, accepted at NeurIPS 2025, dynamically schedules long and short sequences during each training iteration, overlapping communication and computation to achieve up to 7.54× speedup for long‑context fine‑tuning of large language models while maintaining stability through load‑balancing and rollback mechanisms.

Dynamic Data SchedulingLong Context Fine-TuningModel Training Optimization

0 likes · 8 min read

How Skrull Boosts Long-Context Fine‑Tuning Speed Up to 7.5×

Baidu Geek Talk

May 10, 2023 · Artificial Intelligence

Baidu's AI Infrastructure for Large-Scale LLM Training: Architecture, Challenges, and Optimization

Baidu’s AI infrastructure combines a massive InfiniBand‑linked GPU cluster, Kunlun chips, the PaddlePaddle framework, and the Wenxin model suite with 4D hybrid parallelism, elastic fault tolerance, and a two‑stage training pipeline to overcome computation, memory, and communication walls, delivering world‑leading MLPerf performance for large‑scale LLMs.

GPU clusterInfiniBandLarge Language Model

0 likes · 15 min read

Baidu's AI Infrastructure for Large-Scale LLM Training: Architecture, Challenges, and Optimization

Alibaba Cloud Big Data AI Platform

Mar 8, 2023 · Artificial Intelligence

How DeepRec Cut Ximalaya AI Cloud Training Time by 50% and Boosted CTR

Ximalaya’s AI Cloud platform leverages Alibaba’s DeepRec to tackle high‑dimensional sparse feature challenges, accelerate model training by over 50%, enable minute‑level model updates, and improve recommendation metrics, while outlining implementation details, multi‑tier storage, real‑time training, and future inference enhancements.

AI cloudDeepRecModel Training Optimization

0 likes · 12 min read

How DeepRec Cut Ximalaya AI Cloud Training Time by 50% and Boosted CTR