Nouveau🚀 Modèle Open-Source de 1T de Paramètres - Contexte 256K, Mode de Raisonnement Profond

Kimi K2 Thinking : IA de Raisonnement Profond avec Contexte Étendu

Un modèle MoE de mille milliards de paramètres conçu pour le raisonnement profond en plusieurs étapes et la compréhension de contexte étendu. Avec une fenêtre de contexte de 256K tokens et un mode de réflexion natif, Kimi K2 Thinking offre des performances de pointe sur les tâches de raisonnement complexes tout en maintenant une efficacité économique. Entièrement open-source sous licence MIT Modifiée.

Avis

Ce que les Développeurs Disent de Kimi K2 Thinking

Regardez des critiques techniques et des démonstrations pratiques de chercheurs en IA, développeurs et experts techniques explorant les capacités de Kimi K2 Thinking

Kimi K2 Thinking is CRAZY... (HUGE UPDATE)

en attente d'une distillation 20B

Kimi K2 Thinking Is The BEST Open Source Model - First Look & Testing

L'écriture de Kimi est toujours excellente. Elle est naturelle et rarement détectée par les détecteurs d'IA.

Kimi K2 explained in 5 minutes

Petite correction : le matériel recommandé sur le site de MoonShot AI pour exécuter k2-base est de 8 unités h100 pour la version quantifiée, donc le coût est au moins 8 fois supérieur à ce que j'ai calculé ici. C'est encore un peu en retard en termes de faisabilité, mais le point demeure que l'écart va changer. Je m'excuse pour l'erreur de calcul !

Comparaison des Benchmarks de Performance

Découvrez comment Kimi K2 Thinking se compare aux principaux modèles d'IA sur les benchmarks clés de raisonnement, de codage et d'agents.

Performance Across Key Categories

Kimi K2 Thinking Benchmark Comparison - Agentic Coding, Tool Use, Math & STEM

Comprehensive performance comparison across Agentic & Competitive Coding, Tool Use, and Math & STEM benchmarks

Coding Tasks

Software engineering and competitive programming benchmarks

Benchmark	K2 Thinking	GPT-5 (High)	Claude Sonnet 4.5	K2 0905	DeepSeek-V3.2
SWE-bench Verified (w/ tools)	71.3	74.9	77.2	69.2	67.8
SWE-bench Multilingual (w/ tools)	61.1	55.3*	68.0	55.9	57.9
LiveCodeBench v6 (no tools)	83.1	87.0*	64.0*	56.1*	74.1
OJ-Bench (cpp) (no tools)	48.7	56.2*	30.4*	25.5*	38.2*
Terminal-Bench (w/ simulated tools)	47.1	43.8	51.0	44.5	37.7

Reasoning Tasks

Multi-step reasoning, mathematics, and STEM problem-solving

Benchmark	K2 Thinking	GPT-5 (High)	Claude Sonnet 4.5	K2 0905	DeepSeek-V3.2	Grok-4
HLE (w/ tools)	44.9	41.7*	32.0*	21.7	20.3*	41.0
AIME25 (w/ python)	99.1	99.6	100.0	75.2	58.1*	98.8
HMMT25 (w/ python)	95.1	96.7	88.8*	70.4	49.5*	93.9
GPQA (no tools)	84.5	85.7	83.4	74.2	79.9	87.5

* indicates values from third-party reports or unofficial sources

Data source: Official Kimi K2 Thinking Model Card

Guide de Démarrage Rapide

Déployez Kimi K2 Thinking sur votre infrastructure en utilisant vLLM. Configuration simple en 5 étapes pour une inférence prête pour la production.

Hardware Requirements

Minimum setup for deploying Kimi K2 Thinking:

•8x GPUs with Tensor Parallel (NVIDIA H200 recommended)
•Supports INT4 quantized weights with 256k context length

Install vLLM

Install vLLM inference framework:

bash

pip install vllm

Download Model

Download the model from Hugging Face:

bash

huggingface-cli download moonshotai/Kimi-K2-Thinking --local-dir ./kimi-k2-thinking

Launch vLLM Server

Start the inference server with essential parameters:

vLLM Deployment

bash

vllm serve moonshotai/Kimi-K2-Thinking \
  --tensor-parallel-size 8 \
  --tool-call-parser kimi_k2 \
  --reasoning-parser kimi_k2 \
  --max-num-batched-tokens 32768

Test Deployment

Verify the deployment is working:

Test API

bash

curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "moonshotai/Kimi-K2-Thinking",
    "messages": [
      {"role": "user", "content": "Hello, what is 1+1?"}
    ]
  }'

For complete deployment guide including SGLang and KTransformers:

Official Deployment Guide

Capacités Clés de Kimi K2 Thinking

Découvrez les fonctionnalités puissantes qui rendent Kimi K2 Thinking idéal pour les flux de travail de raisonnement complexes et de développement.

Raisonnement Profond par Chaîne de Pensée

Entraîné de bout en bout pour le raisonnement multi-étapes avec mode de réflexion natif. Maintient une logique cohérente sur 200-300 appels d'outils séquentiels pour la résolution de problèmes complexes.

Compréhension de Contexte Étendu

Fenêtre de contexte de 256K tokens leader du secteur permettant le traitement de bases de code complètes, de documents volumineux et de projets multi-fichiers tout en préservant le contexte complet.

Architecture MoE de Mille Milliards de Paramètres

Conception Mixture-of-Experts de 1 billion de paramètres avec 32B de paramètres actifs par passe avant, offrant des performances exceptionnelles avec un coût de calcul efficace.

Capacités Supérieures de Codage et d'Agent

Atteint 71,3% sur SWE-bench Verified et 83,1% sur LiveCodeBench v6. Excelle dans les tâches agentiques avec 60,2% sur BrowseComp et 44,9% sur Humanity's Last Exam.

Quantification INT4 Native

L'entraînement conscient de la quantification permet une accélération d'inférence 2x avec une précision INT4 tout en maintenant la qualité du modèle pour le déploiement en production.

Open-Source et Rentable

Publié sous licence MIT Modifiée avec tarification API à 0,60 $/M de tokens d'entrée (0,15 $ avec cache) et 2,50 $/M de sortie - 60-80% moins cher que GPT-4 et Claude.

Réactions de la Communauté sur X

Rejoignez la conversation sur Kimi K2 Thinking et découvrez ce que la communauté des développeurs partage sur leurs expériences

🚀 Hello, Kimi K2 Thinking!
The Open-Source Thinking Agent Model is here.

🔹 SOTA on HLE (44.9%) and BrowseComp (60.2%)
🔹 Executes up to 200 – 300 sequential tool calls without human interference
🔹 Excels in reasoning, agentic search, and coding
🔹 256K context window

Built… pic.twitter.com/lZCNBIgbV2
— Kimi.ai (@Kimi_Moonshot) November 6, 2025

Kimi K2 Thinking is the new leading open weights model: it demonstrates particular strength in agentic contexts but is very verbose, generating the most tokens of any model in completing our Intelligence Index evals@Kimi_Moonshot's Kimi K2 Thinking achieves a 67 in the… pic.twitter.com/m6SvpW7iif
— Artificial Analysis (@ArtificialAnlys) November 7, 2025

The new 1 Trillion parameter Kimi K2 Thinking model runs well on 2 M3 Ultras in its native format - no loss in quality!

The model was quantization aware trained (qat) at int4.

Here it generated ~3500 tokens at 15 toks/sec using pipeline-parallelism in mlx-lm: pic.twitter.com/oH5DPi7kAg
— Awni Hannun (@awnihannun) November 7, 2025

If Kimi K2 Thinking was truly trained with only $4.6 million, the close AI labs are cooked. pic.twitter.com/LPbSL0v1U5
— Yuchen Jin (@Yuchenj_UW) November 7, 2025

Give me 1 reason why I shouldn't buy this top of the line Mac Studio, download Kimi K2 Thinking (best AI model in the world right now), and let it control the computer autonomously 24/7

A full employee working for me year round

Would anyone want to this live streamed? pic.twitter.com/6vZd7dyAoP
— Alex Finn (@AlexFinn) November 7, 2025

Kimi K2 Thinking : IA de Raisonnement Profond avec Contexte Étendu

Ce que les Développeurs Disent de Kimi K2 Thinking

Kimi K2 Thinking is CRAZY... (HUGE UPDATE)

Kimi K2 Thinking Is The BEST Open Source Model - First Look & Testing

Kimi K2 explained in 5 minutes

Comparaison des Benchmarks de Performance

Performance Across Key Categories

Coding Tasks

Reasoning Tasks

Guide de Démarrage Rapide

Hardware Requirements

Install vLLM

Download Model

Launch vLLM Server

Test Deployment

Capacités Clés de Kimi K2 Thinking

Raisonnement Profond par Chaîne de Pensée

Compréhension de Contexte Étendu

Architecture MoE de Mille Milliards de Paramètres

Capacités Supérieures de Codage et d'Agent

Quantification INT4 Native

Open-Source et Rentable

Réactions de la Communauté sur X

FAQ

Qu'est-ce que Kimi K2 Thinking et en quoi diffère-t-il du K2 standard ?

Comment fonctionne le mode de réflexion ?

Pour quels cas d'usage Kimi K2 Thinking est-il le mieux adapté ?

Comment puis-je accéder et utiliser Kimi K2 Thinking ?

Quelle est la structure tarifaire ?

Comment Kimi K2 Thinking se compare-t-il aux modèles de raisonnement comme o1 et DeepSeek R1 ?

Comment Kimi K2 Thinking équilibre-t-il la profondeur de raisonnement avec la vitesse et le coût ?

Puis-je déployer Kimi K2 Thinking localement, et quelles sont les exigences ?

Quelles sont les meilleures pratiques pour utiliser Kimi K2 Thinking efficacement ?