Y. X. Wei

Orcid: 0009-0001-3926-923X

According to our database1, Y. X. Wei authored at least 4 papers between 2024 and 2025.

Collaborative distances:
  • Dijkstra number2 of four.
  • Erdős number3 of four.

Timeline

Legend:

Book 
In proceedings 
Article 
PhD thesis 
Dataset
Other 

Links

On csauthors.net:

Bibliography

2025
Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention.
CoRR, February, 2025

DeepSeek-R1 incentivizes reasoning in LLMs through reinforcement learning.
, , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , ,
Nat., 2025

Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures.
Proceedings of the 52nd Annual International Symposium on Computer Architecture, 2025

2024
DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model.
, , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , ,
CoRR, 2024


  Loading...