Search Results for author: Wanzin Yazar

Found 1 papers, 0 papers with code

Self-Selected Attention Span for Accelerating Large Language Model Inference

no code implementations • 14 Apr 2024 • Tian Jin, Wanzin Yazar, Zifei Xu, Sayeh Sharify, Xin Wang

We demonstrate that using this custom CUDA kernel improves the throughput of LLM inference by 28%.

Language Modelling Large Language Model

Paper
Add Code

Cannot find the paper you are looking for? You can Submit a new open access paper.