๐ฅ๏ธ Mac Studio 512GB RAM โ ๋ก์ปฌ LLM ์ข ํฉ ๋น๊ตํ
M3 Ultra (80์ฝ์ด GPU, 819GB/s) ๊ธฐ์ค ยท GLM / Kimi ์๋ฆฌ์ฆ ํฌํจ ยท ๋น๊ต ๊ธฐ์ค: Gemini 2.5 Pro (~156 tok/s API)
โ ๏ธ ๊ธฐ์ค ์๋ด
โข ์ฑ๋ฅ %: ์ข
ํฉ ๋ฒค์น๋งํฌ(MMLU, SWE-bench, AIME, GPQA ๋ฑ) ํ๊ท ๊ธฐ์ค ์ถ์ ์น
โข ํ ํฐ ์๋: Q4_K_M ์์ํ, ์งง์ ์ปจํ
์คํธ(~4K) ๊ธฐ์ค. MLX ๋๋ llama.cpp ์ฌ์ฉ
โข ๋ฐ์์๋ %: Gemini 2.5 Pro API(~156 tok/s, TTFT ~1.3s) ๋๋น ์ฒด๊ฐ ๋น์จ
โข โ
= MoE(ํผํฉ์ ๋ฌธ๊ฐ) ๋ชจ๋ธ โ ํ์ฑ ํ๋ผ๋ฏธํฐ๋ง ์ฐ์ฐํ๋ฏ๋ก ํฌ๊ธฐ ๋๋น ๋น ๋ฆ
โข GLM = Z.AI(Zhipu AI) ์๋ฆฌ์ฆ ยท Kimi = Moonshot AI ์๋ฆฌ์ฆ
์ฑ๋ฅ์ ๋ก์ปฌ LLM ๋น๊ต (512GB์ ์ฌ๋ฆด ์ ์๋ ๋ชจ๋ธ)
| ๋ชจ๋ธ๋ช | ๋ถ๋ฅ | ์ฑ๋ฅ (vs Gemini 2.5 Pro) |
ํ์ RAM (Q4) |
์ถ๋ ฅ์๋ (tok/s) |
๋ฐ์์๋ (vs Gemini) |
512GB ํ์ฌ |
ํ๊ฐ |
|---|---|---|---|---|---|---|---|
| ๐ด ์ด๋ํ (600B+ ํ๋ผ๋ฏธํฐ) โ ๋๋ฆฌ์ง๋ง ์ต๊ณ ์ฑ๋ฅ | |||||||
| Kimi K2.5 โ 1T ํ๋ผ๋ฏธํฐ (32B ํ์ฑ) ยท MoEKIMI | ๋ฒ์ฉ/์์ด์ ํธ | ~93% | ~380 GB | 8โ14 | ~7% | โ | ๐ ์ต๊ฐ ์คํ์์ค |
| Kimi K2 Thinking โ 1T ํ๋ผ๋ฏธํฐ (32B ํ์ฑ) ยท MoEKIMI | ์ถ๋ก ํนํ | ~90% | ~380 GB | 8โ14 | ~7% | โ | ๊ฐ๋ ฅ ์ถ๋ก |
| DeepSeek R1 671B โ 671B (37B ํ์ฑ) ยท MoEMOE | ์ถ๋ก ํนํ | ~88% | ~405 GB | 17โ20 | ~12% | โ | ๊ฒ์ฆ๋ ์ถ๋ก |
| DeepSeek V3.1 671B โ 671B (37B ํ์ฑ) ยท MoEMOE | ๋ฒ์ฉ | ~85% | ~405 GB | 18โ22 | ~13% | โ | ๊ณ ํ์ง ๋ฒ์ฉ |
| ๐ ๋ํ (200~400B) โ ์ฑ๋ฅ๊ณผ ์๋์ ๊ท ํ | |||||||
| GLM-4.7 358B โ 358B ํ๋ผ๋ฏธํฐ ยท MoE ยท ๋ฉํฐ๋ชจ๋ฌGLM | ๋ฒ์ฉ/์ฝ๋ฉ | ~84% | ~140 GB | 15โ22 | ~12% | โ | GLM ํ๋๊ทธ์ญ |
| Qwen3-235B-A22B โ 235B (22B ํ์ฑ) ยท MoEMOE | ๋ฒ์ฉ/์ฝ๋ฉ | ~80% | ~88 GB | 25โ35 | ~20% | โ | โญ ๊ฐ์ฑ๋น ์ต๊ณ |
| Llama 4 Maverick 400B โ 400B (~17B ํ์ฑ) ยท MoEMOE | ๋ฒ์ฉ | ~77% | ~220 GB | 20โ30 | ~17% | โ | Meta ์ต์ |
| ๐ก ์คํ (60~150B) โ ์ค์ฉ์ ์ ํ์ง | |||||||
| Mistral Large 3 123B123B ยท DenseDENSE | ๋ฒ์ฉ | ~68% | ~72 GB | 12โ16 | ~9% | โ | ์ ๋ฝ ๋ํ |
| GPT-OSS 120B โ 120B (~6B ํ์ฑ) ยท MoEMOE | ๋ฒ์ฉ | ~75% | ~65 GB | 40โ55 | ~30% | โ | โญ ๋น ๋ฅด๊ณ ์ฐ์ |
| Llama 3.3 70B70B ยท DenseDENSE | ๋ฒ์ฉ | ~72% | ~42 GB | 15โ22 | ~12% | โ | ๊ฒ์ฆ๋ ์ํฌํธ์ค |
| ๐ข ์ค์ํ (25~40B) โ ๋น ๋ฅธ ์ผ์ ์ฌ์ฉ | |||||||
| Qwen3-32B32B ยท DenseDENSE | ๋ฒ์ฉ/์ฝ๋ฉ | ~70% | ~20 GB | 30โ42 | ~25% | โ | โญ ์ผ์ ์ถ์ฒ |
| GLM-4.7 Flash 30B โ 30B (3B ํ์ฑ) ยท MoEGLM | ์ฝ๋ฉ/์์ด์ ํธ | ~66% | ~18 GB | 60โ90 | ~45% | โ | โญโญ OpenClaw ์ต์ |
| Qwen3-30B-A3B โ 30B (3B ํ์ฑ) ยท MoEMOE | ๊ฒฝ๋ ๋ฒ์ฉ | ~62% | ~20 GB | 80โ110 | ~60% | โ | โญโญ ๊ฐ์ฅ ๋น ๋ฆ |
| Gemma 3 27B27B ยท DenseDENSE | ๋ฒ์ฉ/๋น์ | ~58% | ~17 GB | 33โ41 | ~25% | โ | ๋น์ ๊ฐ์ |
| ๐ ๋น๊ต ๊ธฐ์ค (ํด๋ผ์ฐ๋ API) | |||||||
| **Gemini 2.5 Pro (API)**๋น๊ณต๊ฐ ยท Google ์๋ฒ ์ธํ๋ผ | ๊ธฐ์ค | 100% | - | ~156 | 100% | - | ํด๋ผ์ฐ๋ ๊ธฐ์ค |
80%+ (S๊ธ)
70~79% (A๊ธ)
60~69% (B๊ธ)
60%โ (C๊ธ)
GLMZ.AI
KIMIMoonshot
MOEํผํฉ์ ๋ฌธ๊ฐ
OpenClaw ์ฐ๋ ์ ์ฒด๊ฐ ๋ฐ์์๋ ์์ธ
OpenClaw = ์คํ์์ค AI ์์ด์ ํธ (Ollama/LM Studio ๊ฒฝ์ ). ์์ด์ ํธ ์ค๋ฒํค๋(๋๊ตฌ ํธ์ถ, ๋ฉ๋ชจ๋ฆฌ ๊ฒ์ ๋ฑ)๋ก ์์ ์ถ๋ก ๋๋น ~30~50% ์ถ๊ฐ ์ง์ฐ ๋ฐ์.
| ๋ชจ๋ธ | ์์ ์๋ | OpenClaw ์ฒด๊ฐ์๋ |
vs Gemini (๋ฐ์ %) |
TTFT | ํ๊ฐ |
|---|---|---|---|---|---|
| Kimi K2.5 โ KIMI | ~11 tok/s | ~7 tok/s | ~5% | 8~20์ด | ์ต๊ณ ์ฑ๋ฅ, ๋งค์ฐ ๋๋ฆผ |
| Kimi K2 Thinking โ KIMI | ~11 tok/s | ~7 tok/s | ~5% | 8~20์ด | ์ถ๋ก ์ต๊ฐ, ๋๋ฆผ |
| DeepSeek R1 671B โ | ~18 tok/s | ~12 tok/s | ~8% | 5~15์ด | ๋๋ฆผ, ๋ณต์ก์ถ๋ก ๋ง |
| DeepSeek V3.1 671B โ | ~20 tok/s | ~14 tok/s | ~9% | 4~12์ด | ๊ณ ํ์ง, ๋๋ฆผ |
| GLM-4.7 358B โ GLM | ~18 tok/s | ~12 tok/s | ~8% | 4~10์ด | ์ฝ๋ฉ ๊ฐ์ , ๋๋ฆผ |
| Qwen3-235B โ | ~30 tok/s | ~20 tok/s | ~13% | 2~5์ด | โญ ๊ฐ์ฑ๋น ์ต๊ณ |
| Llama 4 Maverick โ | ~25 tok/s | ~17 tok/s | ~11% | 3~8์ด | ์ํธ |
| GPT-OSS 120B โ | ~48 tok/s | ~33 tok/s | ~22% | 1~3์ด | โญ ๋น ๋ฅด๊ณ ์ฐ์ |
| Llama 3.3 70B | ~18 tok/s | ~12 tok/s | ~8% | 2~4์ด | ๋๋ฆฌ์ง๋ง ์์ ์ |
| Qwen3-32B | ~36 tok/s | ~25 tok/s | ~16% | 1~2์ด | โญ ์ผ์ ์ถ์ฒ |
| GLM-4.7 Flash 30B โ GLM | ~75 tok/s | ~50 tok/s | ~33% | <1์ด | โญโญ OpenClaw ์ต์ |
| Qwen3-30B-A3B โ | ~100 tok/s | ~65 tok/s | ~43% | <1์ด | โญโญ ๊ฐ์ฅ ๋น ๋ฆ |
| Gemma 3 27B | ~37 tok/s | ~25 tok/s | ~16% | 1~2์ด | ๋น์ ์์ ์ฉ |
| Gemini 2.5 Pro (API) | ~156 tok/s | ~150 tok/s | 100% | ~1.3์ด | ๊ธฐ์ค (ํด๋ผ์ฐ๋) |
GLM ยท Kimi ์๋ฆฌ์ฆ ์์ธ ์ ๋ณด
| ๋ชจ๋ธ | ํ๋ผ๋ฏธํฐ | ํ์ฑ ํ๋ผ๋ฏธํฐ | ์ํคํ ์ฒ | ์ปจํ ์คํธ | Q4 ํฌ๊ธฐ | ๋ผ์ด์ ์ค | ํน๊ธฐ |
|---|---|---|---|---|---|---|---|
| GLM-4.7 | 358B | MoE (๋น๊ณต๊ฐ) | MoE + ๋ฉํฐ๋ชจ๋ฌ | 200K | ~140 GB | MIT | ์ฝ๋ฉ, "Vibe Coding", ๋น์ |
| GLM-4.7 Flash | 30B | ~3B | MoE (MLA) | 128K | ~18 GB | MIT | SWE-bench 59.2%, ์์ด์ ํธ ํนํ |
| Kimi K2.5 | 1.04T | ~32B | MoE + ๋น์ | 128K+ | ~380 GB | MIT (์์ ) | Agent Swarm, ๋ฉํฐ๋ชจ๋ฌ, HLE 1์ |
| Kimi K2 (Thinking) | 1.04T | ~32B | MoE | 128K | ~380 GB | MIT (์์ ) | ์ถ๋ก ํนํ, GPT-5๊ธ ๋ฒค์น๋งํฌ |
| Kimi K2 (Instant) | 1.04T | ~32B | MoE | 128K | ~380 GB | MIT (์์ ) | ๋น ๋ฅธ ์๋ต ๋ชจ๋ |
๐ก ์ถ์ฒ ์กฐํฉ (์ ๋ฐ์ดํธ)
๐ ์ต๊ณ ์ฑ๋ฅ (์๋ ํฌ์) โ Kimi K2.5 (Q4, ~380GB) โ ์คํ์์ค ์ต๊ฐ, GPT-5๊ธ ยท ๋๋ฆฌ์ง๋ง ์๋์
๐ง ์ต๊ณ ์ถ๋ก โ DeepSeek R1 671B (Q4, ~405GB) โ ์ํยท๋
ผ๋ฆฌ ์ต๊ฐ, ๊ฒ์ฆ๋ ๋ชจ๋ธ
โก ๊ฐ์ฑ๋น ์ต๊ณ โ Qwen3-235B (Q4, ~88GB) โ ์ฑ๋ฅ 80%์ 30 tok/s, RAM ์ฌ์
๐ป ์ฝ๋ฉ ์์ด์ ํธ โ GLM-4.7 Flash (Q8, ~18GB) โ SWE-bench 59.2%, ์ด๊ณ ์ 60~90 tok/s, OpenClaw ์ต์
๐ ์ผ์ ๋ง๋ฅ โ Qwen3-32B (Q8, ~36GB) โ ๊ท ํ์กํ ์ฑ๋ฅ, 30+ tok/s
โก ์ต๊ณ ์ โ Qwen3-30B-A3B (Q8, ~20GB) โ 100+ tok/s, ์ค์๊ฐ ๋ํ๊ฐ
๐ ๋ฉํฐ ๋ชจ๋ธ โ GLM-4.7 Flash(18GB) + Qwen3-235B(88GB) + Qwen3-32B(36GB) = ~142GB โ ๋๋จธ์ง๋ก OSยท์ฑ ์ฌ์
- Kimi K2.5/K2๋ 1T ํ๋ผ๋ฏธํฐ(32B ํ์ฑ) MoE๋ก Mac Studio 512GB์ Q4๋ก ๊ฐ์ ํ ํ์ฌ ๊ฐ๋ฅ(~380GB). ์ปจํ ์คํธ๋ ์ ํ์ .
- GLM-4.7 Flash๋ SWE-bench์์ 30B๊ธ ์ต๊ณ ์ฑ๋ฅ(59.2%)์ด๋, ์์ ์ถ๋ก /์ผ๋ฐ ์ง์์ Qwen3-32B๋ณด๋ค ์ฝํ ์ ์์.
- GLM-4.7 Flash๋ OpenClaw์์ ํนํ ์ข์ ํ๊ฐ โ ์์ด์ ํธ ๋๊ตฌ ํธ์ถ, ํจ์ ์ฝ๋ง ์ฑ๋ฅ์ด ์ฐ์.
- Kimi K2.5์ "Agent Swarm"์ API ํ๊ฒฝ์์ ์ต์ ํ๋ ๊ธฐ๋ฅ์ผ๋ก, ๋ก์ปฌ ๋จ๋ ์ถ๋ก ์์๋ ํจ๊ณผ ์ ํ์ .
- ๋ชจ๋ ์์น๋ ์ปค๋ฎค๋ํฐ ๋ฒค์น๋งํฌยท์ค์ธก ๊ธฐ๋ฐ ์ถ์ ์น์ด๋ฉฐ ์์ํยท์ปจํ ์คํธยทํ๋ ์์ํฌ์ ๋ฐ๋ผ ๋ฌ๋ผ์ง๋๋ค.