신규🚀 1T 파라미터 오픈소스 모델 - 256K 컨텍스트, 딥 추론 모드

Kimi K2 Thinking: 확장된 컨텍스트를 갖춘 딥 추론 AI

깊은 다단계 추론과 확장된 컨텍스트 이해를 위해 설계된 1조 파라미터 MoE 모델입니다. 256K 토큰 컨텍스트 윈도우와 네이티브 사고 모드를 갖춘 Kimi K2 Thinking은 비용 효율성을 유지하면서 복잡한 추론 작업에서 최첨단 성능을 제공합니다. Modified MIT 라이선스로 완전 오픈소스입니다.

리뷰

개발자들이 Kimi K2 Thinking에 대해 말하는 것

AI 연구자, 개발자, 기술 전문가들이 Kimi K2 Thinking의 기능을 탐구하는 기술 리뷰와 실습 데모를 시청하세요

Kimi K2 Thinking is CRAZY... (HUGE UPDATE)

Kimi K2 Thinking is CRAZY... (HUGE UPDATE)

이제 20B 디스틸레이션을 기다리고 있습니다

Kimi K2 Thinking Is The BEST Open Source Model - First Look & Testing

Kimi K2 Thinking Is The BEST Open Source Model - First Look & Testing

Kimi의 글쓰기는 항상 훌륭합니다. 인간과 같아서 AI 탐지기에서 거의 감지되지 않습니다.

Kimi K2 explained in 5 minutes

Kimi K2 explained in 5 minutes

빠른 수정: MoonShot AI 사이트에서 k2-base 실행을 위한 권장 하드웨어는 양자화 버전의 경우 h100 8대이므로 비용은 여기서 계산한 것보다 최소 8배입니다. 여전히 실현 가능성 측면에서 약간 뒤처지지만, 격차가 변할 것이라는 요점은 유효합니다. 계산 착오에 대해 사과드립니다!

성능 벤치마크 비교

Kimi K2 Thinking이 주요 추론, 코딩 및 에이전트 벤치마크에서 선도적인 AI 모델들과 어떻게 비교되는지 확인해보세요.

Performance Across Key Categories

Kimi K2 Thinking Benchmark Comparison - Agentic Coding, Tool Use, Math & STEM

Comprehensive performance comparison across Agentic & Competitive Coding, Tool Use, and Math & STEM benchmarks

Coding Tasks

Software engineering and competitive programming benchmarks

BenchmarkK2 ThinkingGPT-5 (High)Claude Sonnet 4.5K2 0905DeepSeek-V3.2
SWE-bench Verified (w/ tools)71.374.977.269.267.8
SWE-bench Multilingual (w/ tools)61.155.3*68.055.957.9
LiveCodeBench v6 (no tools)83.187.0*64.0*56.1*74.1
OJ-Bench (cpp) (no tools)48.756.2*30.4*25.5*38.2*
Terminal-Bench (w/ simulated tools)47.143.851.044.537.7

Reasoning Tasks

Multi-step reasoning, mathematics, and STEM problem-solving

BenchmarkK2 ThinkingGPT-5 (High)Claude Sonnet 4.5K2 0905DeepSeek-V3.2Grok-4
HLE (w/ tools)44.941.7*32.0*21.720.3*41.0
AIME25 (w/ python)99.199.6100.075.258.1*98.8
HMMT25 (w/ python)95.196.788.8*70.449.5*93.9
GPQA (no tools)84.585.783.474.279.987.5

* indicates values from third-party reports or unofficial sources

Data source: Official Kimi K2 Thinking Model Card

빠른 시작 가이드

vLLM을 사용하여 인프라에 Kimi K2 Thinking을 배포하세요. 프로덕션 준비 추론을 위한 간단한 5단계 설정입니다.

1

Hardware Requirements

Minimum setup for deploying Kimi K2 Thinking:

  • 8x GPUs with Tensor Parallel (NVIDIA H200 recommended)
  • Supports INT4 quantized weights with 256k context length
2

Install vLLM

Install vLLM inference framework:

bash
pip install vllm
3

Download Model

Download the model from Hugging Face:

bash
huggingface-cli download moonshotai/Kimi-K2-Thinking --local-dir ./kimi-k2-thinking
4

Launch vLLM Server

Start the inference server with essential parameters:

vLLM Deployment
bash
vllm serve moonshotai/Kimi-K2-Thinking \
  --tensor-parallel-size 8 \
  --tool-call-parser kimi_k2 \
  --reasoning-parser kimi_k2 \
  --max-num-batched-tokens 32768
5

Test Deployment

Verify the deployment is working:

Test API
bash
curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "moonshotai/Kimi-K2-Thinking",
    "messages": [
      {"role": "user", "content": "Hello, what is 1+1?"}
    ]
  }'

For complete deployment guide including SGLang and KTransformers:

Official Deployment Guide

Kimi K2 Thinking의 핵심 기능

Kimi K2 Thinking을 복잡한 추론 및 개발 워크플로우에 이상적으로 만드는 강력한 기능을 발견하세요.

깊은 사고의 연쇄 추론

네이티브 사고 모드를 갖춘 다단계 추론을 위한 엔드투엔드 훈련. 복잡한 문제 해결을 위해 200-300개의 순차적 도구 호출에서 일관된 논리를 유지합니다.

확장된 컨텍스트 이해

업계 최고 수준의 256K 토큰 컨텍스트 윈도우를 통해 전체 컨텍스트를 유지하면서 전체 코드베이스, 긴 문서 및 다중 파일 프로젝트를 처리할 수 있습니다.

1조 파라미터 MoE 아키텍처

순방향 패스당 320억 활성 파라미터를 갖춘 1조 파라미터 Mixture-of-Experts 설계로 효율적인 컴퓨팅 비용으로 뛰어난 성능을 제공합니다.

우수한 코딩 및 에이전트 기능

SWE-bench Verified에서 71.3%, LiveCodeBench v6에서 83.1%를 달성합니다. BrowseComp에서 60.2%, Humanity's Last Exam에서 44.9%로 에이전트 작업에서 탁월합니다.

네이티브 INT4 양자화

양자화 인식 훈련을 통해 프로덕션 배포를 위한 모델 품질을 유지하면서 INT4 정밀도로 2배 추론 가속화를 가능하게 합니다.

오픈소스 및 비용 효율적

Modified MIT 라이선스로 출시되었으며 API 가격은 입력 토큰당 $0.60/M(캐시 사용 시 $0.15), 출력 $2.50/M - GPT-4 및 Claude보다 60-80% 저렴합니다.

FAQ