# 🖥️ Mac Studio 512GB RAM — 로컬 LLM 종합 비교표

- **작성자:** 관리자
- **날짜:** 2026-02-09 08:53
- **게시판:** 팁 & 스킬스
- **조회:** 103

---

M3 Ultra (80코어 GPU, 819GB/s) 기준 · GLM / Kimi 시리즈 포함 · 비교 기준: Gemini 2.5 Pro (\~156 tok/s API)

**⚠️ 기준 안내**
• 성능 %: 종합 벤치마크(MMLU, SWE-bench, AIME, GPQA 등) 평균 기준 추정치
• 토큰 속도: Q4\_K\_M 양자화, 짧은 컨텍스트(\~4K) 기준. MLX 또는 llama.cpp 사용
• 반응속도 %: Gemini 2.5 Pro API(\~156 tok/s, TTFT \~1.3s) 대비 체감 비율
• ★ = MoE(혼합전문가) 모델 — 활성 파라미터만 연산하므로 크기 대비 빠름
• **GLM** = Z.AI(Zhipu AI) 시리즈 · **Kimi** = Moonshot AI 시리즈

성능순 로컬 LLM 비교 (512GB에 올릴 수 있는 모델)


| 모델명                                                       | 분류          | 성능<br/>(vs Gemini 2.5 Pro) | 필요 RAM<br/>(Q4) | 출력속도<br/>(tok/s) | 반응속도<br/>(vs Gemini) | 512GB<br/>탑재 | 평가               |
| ------------------------------------------------------------ | ------------- | ---------------------------- | ----------------- | -------------------- | ------------------------ | -------------- | ------------------ |
| 🔴 초대형 (600B+ 파라미터) — 느리지만 최고 성능             |               |                              |                   |                      |                          |                |                    |
| **Kimi K2.5 ★**1T 파라미터 (32B 활성) · MoE**KIMI**        | 범용/에이전트 | **\~93%**                    | \~380 GB          | 8–14                | **\~7%**                 | ✅             | 🏆 최강 오픈소스   |
| **Kimi K2 Thinking ★**1T 파라미터 (32B 활성) · MoE**KIMI** | 추론특화      | **\~90%**                    | \~380 GB          | 8–14                | **\~7%**                 | ✅             | 강력 추론          |
| **DeepSeek R1 671B ★**671B (37B 활성) · MoE**MOE**         | 추론특화      | **\~88%**                    | \~405 GB          | 17–20               | **\~12%**                | ✅             | 검증된 추론        |
| **DeepSeek V3.1 671B ★**671B (37B 활성) · MoE**MOE**       | 범용          | **\~85%**                    | \~405 GB          | 18–22               | **\~13%**                | ✅             | 고품질 범용        |
| 🟠 대형 (200\~400B) — 성능과 속도의 균형                    |               |                              |                   |                      |                          |                |                    |
| **GLM-4.7 358B ★**358B 파라미터 · MoE · 멀티모달**GLM**   | 범용/코딩     | **\~84%**                    | \~140 GB          | 15–22               | **\~12%**                | ✅             | GLM 플래그십       |
| **Qwen3-235B-A22B ★**235B (22B 활성) · MoE**MOE**          | 범용/코딩     | **\~80%**                    | \~88 GB           | 25–35               | **\~20%**                | ✅             | ⭐ 가성비 최고     |
| **Llama 4 Maverick 400B ★**400B (\~17B 활성) · MoE**MOE**  | 범용          | **\~77%**                    | \~220 GB          | 20–30               | **\~17%**                | ✅             | Meta 최신          |
| 🟡 중형 (60\~150B) — 실용적 선택지                          |               |                              |                   |                      |                          |                |                    |
| **Mistral Large 3 123B**123B · Dense**DENSE**               | 범용          | **\~68%**                    | \~72 GB           | 12–16               | **\~9%**                 | ✅             | 유럽 대표          |
| **GPT-OSS 120B ★**120B (\~6B 활성) · MoE**MOE**            | 범용          | **\~75%**                    | \~65 GB           | 40–55               | **\~30%**                | ✅             | ⭐ 빠르고 우수     |
| **Llama 3.3 70B**70B · Dense**DENSE**                       | 범용          | **\~72%**                    | \~42 GB           | 15–22               | **\~12%**                | ✅             | 검증된 워크호스    |
| 🟢 중소형 (25\~40B) — 빠른 일상 사용                        |               |                              |                   |                      |                          |                |                    |
| **Qwen3-32B**32B · Dense**DENSE**                           | 범용/코딩     | **\~70%**                    | \~20 GB           | 30–42               | **\~25%**                | ✅             | ⭐ 일상 추천       |
| **GLM-4.7 Flash 30B ★**30B (3B 활성) · MoE**GLM**          | 코딩/에이전트 | **\~66%**                    | \~18 GB           | 60–90               | **\~45%**                | ✅             | ⭐⭐ OpenClaw 최적 |
| **Qwen3-30B-A3B ★**30B (3B 활성) · MoE**MOE**              | 경량 범용     | **\~62%**                    | \~20 GB           | 80–110              | **\~60%**                | ✅             | ⭐⭐ 가장 빠름     |
| **Gemma 3 27B**27B · Dense**DENSE**                         | 범용/비전     | **\~58%**                    | \~17 GB           | 33–41               | **\~25%**                | ✅             | 비전 강점          |
| 📊 비교 기준 (클라우드 API)                                  |               |                              |                   |                      |                          |                |                    |
| **Gemini 2.5 Pro (API)**비공개 · Google 서버 인프라         | 기준          | **100%**                     | -                 | \~156                | **100%**                 | -              | 클라우드 기준      |

80%+ (S급)

70\~79% (A급)

60\~69% (B급)

60%↓ (C급)

**GLM**Z.AI

**KIMI**Moonshot

**MOE**혼합전문가

OpenClaw 연동 시 체감 반응속도 상세

**OpenClaw** = 오픈소스 AI 에이전트 (Ollama/LM Studio 경유). 에이전트 오버헤드(도구 호출, 메모리 검색 등)로 순수 추론 대비 **\~30\~50% 추가 지연** 발생.


| 모델                             | 순수 속도   | OpenClaw<br/>체감속도 | vs Gemini<br/>(반응 %) | TTFT    | 평가                 |
| -------------------------------- | ----------- | --------------------- | ---------------------- | ------- | -------------------- |
| **Kimi K2.5 ★** **KIMI**        | \~11 tok/s  | \~7 tok/s             | **\~5%**               | 8\~20초 | 최고 성능, 매우 느림 |
| **Kimi K2 Thinking ★** **KIMI** | \~11 tok/s  | \~7 tok/s             | **\~5%**               | 8\~20초 | 추론 최강, 느림      |
| **DeepSeek R1 671B ★**          | \~18 tok/s  | \~12 tok/s            | **\~8%**               | 5\~15초 | 느림, 복잡추론만     |
| **DeepSeek V3.1 671B ★**        | \~20 tok/s  | \~14 tok/s            | **\~9%**               | 4\~12초 | 고품질, 느림         |
| **GLM-4.7 358B ★** **GLM**      | \~18 tok/s  | \~12 tok/s            | **\~8%**               | 4\~10초 | 코딩 강점, 느림      |
| **Qwen3-235B ★**                | \~30 tok/s  | \~20 tok/s            | **\~13%**              | 2\~5초  | ⭐ 가성비 최고       |
| **Llama 4 Maverick ★**          | \~25 tok/s  | \~17 tok/s            | **\~11%**              | 3\~8초  | 양호                 |
| **GPT-OSS 120B ★**              | \~48 tok/s  | \~33 tok/s            | **\~22%**              | 1\~3초  | ⭐ 빠르고 우수       |
| **Llama 3.3 70B**                | \~18 tok/s  | \~12 tok/s            | **\~8%**               | 2\~4초  | 느리지만 안정적      |
| **Qwen3-32B**                    | \~36 tok/s  | \~25 tok/s            | **\~16%**              | 1\~2초  | ⭐ 일상 추천         |
| **GLM-4.7 Flash 30B ★** **GLM** | \~75 tok/s  | \~50 tok/s            | **\~33%**              | <1초    | ⭐⭐ OpenClaw 최적   |
| **Qwen3-30B-A3B ★**             | \~100 tok/s | \~65 tok/s            | **\~43%**              | <1초    | ⭐⭐ 가장 빠름       |
| **Gemma 3 27B**                  | \~37 tok/s  | \~25 tok/s            | **\~16%**              | 1\~2초  | 비전 작업용          |
| **Gemini 2.5 Pro (API)**         | \~156 tok/s | \~150 tok/s           | **100%**               | \~1.3초 | 기준 (클라우드)      |

GLM · Kimi 시리즈 상세 정보


| 모델                   | 파라미터 | 활성 파라미터 | 아키텍처       | 컨텍스트 | Q4 크기  | 라이선스   | 특기                           |
| ---------------------- | -------- | ------------- | -------------- | -------- | -------- | ---------- | ------------------------------ |
| **GLM-4.7**            | 358B     | MoE (비공개)  | MoE + 멀티모달 | 200K     | \~140 GB | MIT        | 코딩, "Vibe Coding", 비전      |
| **GLM-4.7 Flash**      | 30B      | \~3B          | MoE (MLA)      | 128K     | \~18 GB  | MIT        | SWE-bench 59.2%, 에이전트 특화 |
| **Kimi K2.5**          | 1.04T    | \~32B         | MoE + 비전     | 128K+    | \~380 GB | MIT (수정) | Agent Swarm, 멀티모달, HLE 1위 |
| **Kimi K2 (Thinking)** | 1.04T    | \~32B         | MoE            | 128K     | \~380 GB | MIT (수정) | 추론 특화, GPT-5급 벤치마크    |
| **Kimi K2 (Instant)**  | 1.04T    | \~32B         | MoE            | 128K     | \~380 GB | MIT (수정) | 빠른 응답 모드                 |

💡 추천 조합 (업데이트)

**🏆 최고 성능 (속도 희생)** → **Kimi K2.5** (Q4, \~380GB) — 오픈소스 최강, GPT-5급 · 느리지만 압도적
**🧠 최고 추론** → **DeepSeek R1 671B** (Q4, \~405GB) — 수학·논리 최강, 검증된 모델
**⚡ 가성비 최고** → **Qwen3-235B** (Q4, \~88GB) — 성능 80%에 30 tok/s, RAM 여유
**💻 코딩 에이전트** → **GLM-4.7 Flash** (Q8, \~18GB) — SWE-bench 59.2%, 초고속 60\~90 tok/s, OpenClaw 최적
**🚀 일상 만능** → **Qwen3-32B** (Q8, \~36GB) — 균형잡힌 성능, 30+ tok/s
**⚡ 최고속** → **Qwen3-30B-A3B** (Q8, \~20GB) — 100+ tok/s, 실시간 대화감
**🔀 멀티 모델** → GLM-4.7 Flash(18GB) + Qwen3-235B(88GB) + Qwen3-32B(36GB) = \~142GB → 나머지로 OS·앱 여유

* Kimi K2.5/K2는 1T 파라미터(32B 활성) MoE로 Mac Studio 512GB에 Q4로 **간신히** 탑재 가능(\~380GB). 컨텍스트는 제한적.
* GLM-4.7 Flash는 SWE-bench에서 30B급 최고 성능(59.2%)이나, 순수 추론/일반 지식은 Qwen3-32B보다 약할 수 있음.
* GLM-4.7 Flash는 OpenClaw에서 특히 좋은 평가 — 에이전트 도구 호출, 함수 콜링 성능이 우수.
* Kimi K2.5의 "Agent Swarm"은 API 환경에서 최적화된 기능으로, 로컬 단독 추론 시에는 효과 제한적.
* 모든 수치는 커뮤니티 벤치마크·실측 기반 **추정치**이며 양자화·컨텍스트·프레임워크에 따라 달라집니다.

---

## 관련 링크

- https://claude.ai/public/artifacts/2e7910d4-190b-4e17-b5ea-d2e2b67d0fd9

---
*원본: https://www.openclaw.kr/boards/free/posts/Mac-Studio-512GB-RAM-%EB%A1%9C%EC%BB%AC-LLM-%EC%A2%85%ED%95%A9-%EB%B9%84%EA%B5%90%ED%91%9C-h259j*