AI Perks

AI Perks cung cấp quyền truy cập vào các ưu đãi, tín dụng và khuyến mãi độc quyền cho công cụ AI, dịch vụ đám mây và API để giúp startup và nhà phát triển tiết kiệm chi phí.

Khám phá tất cả AI Perks

AI mã nguồn mở đã bắt kịp GPT-5 và Claude vào năm 2026

Vào tháng 4 năm 2026, sáu họ mô hình mã nguồn mở đã cung cấp các mô hình trọng lượng mở cạnh tranh, sánh ngang hoặc vượt trội so với các lựa chọn đóng trên các tác vụ thực tế. DeepSeek V4 dẫn đầu các bài kiểm tra hiệu năng thô (83,7% SWE-bench Verified, 99,4% AIME 2026). Qwen 3.6 vượt trội so với hạng cân của nó. Llama 4 trải dài từ quy mô nhỏ đến tiên tiến. Khoảng cách "mã nguồn mở so với đóng" đang thu hẹp nhanh chóng.

Điểm mấu chốt: các mô hình mã nguồn mở tốt nhất có quy mô khổng lồ. DeepSeek V4 với khoảng 1T tham số yêu cầu nhiều GPU H100 để tự lưu trữ. Qwen 3.6-35B-A3B là mô hình mã nguồn mở cạnh tranh tiên tiến duy nhất chạy trên một GPU tiêu dùng duy nhất. Chọn sai mô hình có nghĩa là phải trả phí API cao cấp hoặc vật lộn với cơ sở hạ tầng.

Hướng dẫn này xếp hạng các mô hình AI mã nguồn mở hàng đầu vào năm 2026 theo khả năng, yêu cầu phần cứng và chi phí thực tế. Ngoài ra còn có cách lưu trữ chúng với giá cả phải chăng bằng cách sử dụng tín dụng AWS / Google / Together AI miễn phí trị giá 5.000 - 200.000 USD trở lên thông qua AI Perks.

Tiết kiệm ngân sách của bạn cho AI Credits

Tìm ưu đãi cho

OpenAI,

Anthropic,

Lovable,

Notion

Tìm ưu đãi cho

OpenAI,

Anthropic,

Lovable,

Notion

Software	Ước Tinh Tin Dụng	Diều Kiện	Chỉ Số Phe Duyệt	Hanh Dộng

Quảng bá SaaS của bạn

Tiếp cận hơn 90.000 nhà sáng lập toàn cầu đang tìm kiếm các công cụ như của bạn

Đăng ký ngay

Danh sách các cấp bậc mô hình AI mã nguồn mở năm 2026

Cấp bậc	Mô hình	Kích thước	Trường hợp sử dụng tốt nhất	Chi phí tự lưu trữ
Cấp S	DeepSeek V4	~1T tham số	Suy luận + lập trình tiên tiến	5-15 USD/giờ (nhiều H100)
Cấp S	Qwen 3.6 235B	235B (MoE, 22B hoạt động)	Tiên tiến tổng quát	2-5 USD/giờ (một H100)
Cấp A	Llama 4 Maverick	400B	Mạnh mẽ tổng quát	3-8 USD/giờ
Cấp A	Llama 4 Scout	109B (MoE, 17B hoạt động)	Cửa sổ ngữ cảnh 10M	1-3 USD/giờ
Cấp A	Qwen 3.6-35B-A3B	35B (MoE, 3B hoạt động)	Tiên tiến trên một GPU	0,50-1,50 USD/giờ
Cấp A	GLM-5.1	100B+	Xuất sắc tiếng Trung	1-3 USD/giờ
Cấp B	Gemma 4-26B-A4B	26B	GPU tiêu dùng giá rẻ	0,30-0,80 USD/giờ
Cấp B	Mistral Small 4	22B	Giấy phép thân thiện với EU	0,30-0,80 USD/giờ
Cấp B	Llama 4 8B	8B	Triển khai biên	Có thể chạy trên CPU cục bộ

AI Perks

Khám phá tất cả AI Perks

Cấp S: DeepSeek V4

DeepSeek V4 là mô hình mã nguồn mở cạnh tranh tiên tiến vào năm 2026. Được phát hành vào đầu năm 2026, nó dẫn đầu về lập trình (83,7% SWE-bench Verified, 90% HumanEval) và suy luận (99,4% AIME 2026, 92,8% MMLU-Pro).

Điểm mạnh của DeepSeek V4

Vượt trội GPT-4.1 và Claude Sonnet trên nhiều bài kiểm tra hiệu năng
Cửa sổ ngữ cảnh 1 triệu với bộ nhớ Engram
Cộng đồng nghiên cứu năng động
Giấy phép dễ dãi cho mục đích sử dụng thương mại
Khả năng tác nhân mạnh mẽ (gần với GPT-5.5)

Yêu cầu phần cứng của DeepSeek V4

Lượng tử hóa	Cấu hình GPU	Chi phí hàng giờ (Đám mây)
FP16	8x H100 80GB	25-40 USD/giờ
INT8	4x H100 80GB	12-20 USD/giờ
INT4	2x H100 80GB	6-10 USD/giờ
Lưu trữ (Together AI, Fireworks)	API	0,27-2,20 USD/1 triệu token

Chi phí tự lưu trữ DeepSeek V4 với chất lượng tiên tiến là 6-40 USD/giờ. Các API được lưu trữ (Together AI, Fireworks, DeepSeek Direct) có giá rẻ hơn đáng kể đối với các tác vụ có lưu lượng biến đổi.

Khi nào nên sử dụng DeepSeek V4

Suy luận tiên tiến với chi phí API thấp hơn Claude/GPT
Quy trình làm việc nặng về lập trình
Cần giấy phép mã nguồn mở dễ dãi
Nhạy cảm với quyền riêng tư (có thể tự lưu trữ)

Cấp S: Qwen 3.6-235B

Qwen 3.6-235B là mô hình tiên tiến của Alibaba với kiến trúc MoE (22B tham số hoạt động). Khả năng suy luận mạnh mẽ trên nhiều ngôn ngữ, với hiệu suất đặc biệt ấn tượng trên mỗi tham số hoạt động.

Điểm mạnh của Qwen 3.6-235B

22B tham số hoạt động (suy luận rẻ hơn DeepSeek V4)
Xuất sắc đa ngôn ngữ (đặc biệt là tiếng Trung, tiếng Anh, mã)
Giấy phép Apache 2.0
Hỗ trợ gọi công cụ trưởng thành
Mạnh mẽ trên AIME 2026 (92,7%) và GPQA (86%)

Phần cứng Qwen 3.6 (235B)

Lượng tử hóa	Cấu hình GPU
FP16	4x H100 80GB
INT8	2x H100 80GB
INT4	1x H100 80GB

Kiến trúc MoE có nghĩa là chỉ có 22B tham số được kích hoạt cho mỗi token, làm cho suy luận rẻ hơn đáng kể so với các mô hình dày đặc 235B.

Cấp A: Qwen 3.6-35B-A3B (Tiên tiến trên một GPU)

Qwen 3.6-35B-A3B là mô hình mã nguồn mở cạnh tranh tiên tiến duy nhất chạy trên một GPU tiêu dùng duy nhất với lượng tử hóa. 35B tham số, 3B hoạt động cho mỗi token.

Tại sao điều này quan trọng

Bài kiểm tra hiệu năng	Qwen 3.6-35B-A3B
SWE-bench Verified	73,4%
GPQA Diamond	86,0%
AIME 2026	92,7%
MMLU-Pro	87%

Những con số này sánh ngang GPT-4.1 và Claude Sonnet 4.6 - trên một mô hình vừa với một GPU A10G (1,21 USD/giờ trên AWS).

Chi phí tự lưu trữ

AWS g5.2xlarge (1x A10G 24GB): 1,21 USD/giờ = ~870 USD/tháng cho 24/7
Lượng tử hóa thành INT4: Cần 16GB VRAM (vừa với A10G)

Đối với một startup chạy suy luận liên tục, một A10G duy nhất với giá 1,21 USD/giờ mang lại chất lượng Claude Sonnet với chi phí API thấp hơn nhiều.

Cấp A: Gia đình Llama 4

Llama 4 bao gồm nhiều kích cỡ - Scout (109B/17B hoạt động), Maverick (400B) và các biến thể nhỏ hơn. Cách tiếp cận gia đình rộng của Meta làm cho Llama 4 trở thành tùy chọn mã nguồn mở linh hoạt nhất.

Llama 4 Scout: Cửa sổ ngữ cảnh 10 triệu

Tính năng nổi bật của Llama 4 Scout: cửa sổ ngữ cảnh 10 triệu token. Điều này chưa từng có đối với các mô hình mã nguồn mở. Đối với các tác vụ yêu cầu toàn bộ cơ sở mã hoặc xử lý tài liệu lớn, Scout là vô song.

Llama 4 Maverick: Tiên tiến tổng quát

400B tham số bao phủ các tác vụ tổng quát. Cạnh tranh với GPT-4.1 trên hầu hết các bài kiểm tra hiệu năng nhưng thua DeepSeek V4 và Qwen 3.6-235B về lập trình/suy luận.

Khi nào nên sử dụng Llama 4

Cần cửa sổ ngữ cảnh 10 triệu (Scout)
Muốn hệ sinh thái và công cụ của Meta
Quen thuộc với gia đình Llama từ các phiên bản trước
Triển khai đa đám mây (AWS, GCP, Azure đều hỗ trợ Llama)

Lưu trữ so với Tự lưu trữ: Quyết định thực sự

Đối với hầu hết các nhóm, truy cập API được lưu trữ vào các mô hình mã nguồn mở sẽ rẻ hơn tự lưu trữ trừ khi bạn có thông lượng liên tục rất cao.

Giá lưu trữ (Tháng 4 năm 2026)

Nhà cung cấp	Mô hình	Giá
Together AI	Llama 4, Qwen 3, DeepSeek V4	0,27-2,20 USD/1 triệu token
Fireworks AI	Llama 4, Qwen 3, DeepSeek	0,20-2,00 USD/1 triệu token
DeepInfra	Đa mô hình	0,10-1,50 USD/1 triệu token
Replicate	Đa mô hình	Giá theo giây
fal.ai	Đa mô hình	Giá theo giây

Đối với các tác vụ dưới ~50 triệu token/tháng, API được lưu trữ sẽ rẻ hơn. Trên mức đó, tự lưu trữ sẽ kinh tế hơn (giả sử bạn có năng lực kỹ thuật).

Khi nào mã nguồn mở vượt trội Claude/GPT

Trường hợp sử dụng	Mã nguồn mở thắng thế	Lý do
Nhạy cảm về chi phí ở quy mô lớn	DeepSeek V4 / Qwen 3.6	Rẻ hơn 5-10 lần so với Claude Opus
Ngữ cảnh tối đa (>1 triệu token)	Llama 4 Scout	Cửa sổ 10 triệu token
Quyền riêng tư / lưu giữ dữ liệu	Tự lưu trữ bất kỳ	Không có dữ liệu rời khỏi hạ tầng của bạn
Tùy chỉnh / tinh chỉnh	Llama 4 / Qwen 3.6	Trọng lượng mở cho SFT, LoRA
Triển khai biên	Llama 4 8B / Gemma 4	Chạy trên phần cứng tiêu dùng
Suy luận tiên tiến với chi phí thấp	DeepSeek V4	Vượt trội GPT-4.1, rẻ hơn

Khi nào mô hình đóng vẫn thắng thế

Hệ sinh thái tác nhân tốt nhất (Claude Code, Codex Skills)
Đa phương tiện được đánh bóng (GPT-5.5 hợp nhất văn bản/hình ảnh/âm thanh/video)
Lập trình tiên tiến (Claude Opus 4.7, GPT-5.5)
Trải nghiệm nhà phát triển dễ dàng nhất (không cần cơ sở hạ tầng)
Nghiên cứu an toàn + khả năng diễn giải cao nhất (Claude)

Đối với hầu hết các nhà xây dựng, sử dụng cả hai là câu trả lời đúng - mô hình đóng cho công việc nhạy cảm, hướng tới khách hàng; mã nguồn mở cho suy luận giá rẻ, lưu lượng cao.

Tín dụng miễn phí cung cấp năng lượng cho việc lưu trữ mã nguồn mở

Nguồn tín dụng	Tín dụng có sẵn	Cung cấp năng lượng
AWS Activate	1.000 - 100.000 USD	GPU EC2 (H100, A100, A10G)
Google Cloud	1.000 - 25.000 USD	GPU GCE + lưu trữ Vertex
Chương trình Khởi nghiệp Together AI	15.000 - 50.000 USD	Lưu trữ Llama 4, Qwen, DeepSeek
Microsoft Founders Hub	500 - 1.000 USD	GPU Azure + Azure ML
Đăng ký Replicate / fal.ai	Biến đổi	API đa mô hình

Tổng tiềm năng: 17.500 - 176.000 USD trở lên dưới dạng tín dụng miễn phí cho việc lưu trữ mã nguồn mở.

Một startup với 50.000 USD tín dụng xếp chồng có thể chạy nhiều phiên bản Qwen 3.6-235B 24/7 trong hơn 6 tháng mà không tốn một xu.

Từng bước: Triển khai AI mã nguồn mở với tín dụng miễn phí

Bước 1: Nhận tín dụng miễn phí

Đăng ký AI Perks và đăng ký AWS Activate, Google Cloud, Chương trình Khởi nghiệp Together AI và Microsoft Founders Hub.

Bước 2: Chọn phương pháp lưu trữ của bạn

API được lưu trữ (dễ nhất): Together AI, Fireworks, DeepInfra
GPU đám mây (linh hoạt): AWS EC2, GCP GCE, Máy ảo Azure
Kubernetes tự quản lý (nâng cao): Chạy máy chủ suy luận của riêng bạn

Bước 3: Chọn mô hình của bạn

Bài kiểm tra hiệu năng tiên tiến: DeepSeek V4
Tiên tiến trên một GPU: Qwen 3.6-35B-A3B
Ngữ cảnh dài: Llama 4 Scout (cửa sổ 10 triệu)
Đa mục đích: Qwen 3.6-235B
Biên / di động: Llama 4 8B / Gemma 4

Bước 4: Thiết lập suy luận

Sử dụng vLLM, TGI hoặc SGLang để phục vụ thông lượng cao. Hoặc sử dụng API được lưu trữ và bỏ qua hoàn toàn cơ sở hạ tầng.

Bước 5: Tối ưu hóa

Lượng tử hóa thành INT8 hoặc INT4 để lưu trữ rẻ hơn. Sử dụng bộ nhớ đệm nhắc (prompt caching) khi có thể. Theo dõi mức tiêu thụ token.

Bước 6: Kết hợp với các mô hình đóng

Sử dụng các mô hình đóng (Claude, GPT-5.5) cho các công việc nhạy cảm, hướng tới khách hàng. Sử dụng mã nguồn mở cho xử lý nội bộ/theo lô lưu lượng cao. Định tuyến thông minh giúp giảm tổng chi phí 70-90%.

Câu hỏi thường gặp

Mô hình AI mã nguồn mở tốt nhất vào năm 2026 là gì?

DeepSeek V4 dẫn đầu các bài kiểm tra hiệu năng thô (83,7% SWE-bench, 99,4% AIME). Qwen 3.6-235B cạnh tranh với chi phí tính toán thấp hơn. Qwen 3.6-35B-A3B là lựa chọn tốt nhất trên một GPU. Llama 4 Scout có cửa sổ ngữ cảnh 10 triệu. "Tốt nhất" phụ thuộc vào phần cứng và tác vụ của bạn. Tín dụng miễn phí qua AI Perks cho phép bạn thử nghiệm cả ba.

Các mô hình mã nguồn mở có thể cạnh tranh với GPT-5.5 và Claude Opus 4.7 không?

Trên nhiều bài kiểm tra hiệu năng, có. DeepSeek V4 vượt trội GPT-4.1 về lập trình và suy luận. Qwen 3.6 sánh ngang Claude Sonnet 4.6 về các tác vụ tổng quát. Các mô hình đóng vẫn dẫn đầu về sự trưởng thành của hệ sinh thái tác nhân (Claude Code, Codex), đa phương tiện (GPT-5.5) và trải nghiệm nhà phát triển. Sử dụng cả hai - nhiều nhà xây dựng đang làm như vậy.

Llama 4 có miễn phí sử dụng thương mại không?

Có, Llama 4 được cấp phép sử dụng thương mại theo giấy phép dễ dãi của Meta. Có thể tự lưu trữ và thông qua các nhà cung cấp đám mây (AWS Bedrock, GCP Vertex, v.v.). Một số hạn chế áp dụng cho các công ty rất lớn (hơn 700 triệu người dùng hoạt động hàng tháng). Hầu hết các startup có toàn quyền sử dụng thương mại.

Chi phí tự lưu trữ DeepSeek V4 là bao nhiêu?

Tự lưu trữ DeepSeek V4 ở FP16 yêu cầu 8x GPU H100 với giá 25-40 USD/giờ. Lượng tử hóa INT4 giảm chi phí này xuống còn 2x H100 với giá 6-10 USD/giờ. Đối với hầu hết các tác vụ, các API được lưu trữ (Together AI, Fireworks) với giá 0,27-2,20 USD/1 triệu token rẻ hơn tự lưu trữ. Tín dụng miễn phí qua AI Perks bao gồm cả hai lựa chọn.

Tôi có thể chạy AI mã nguồn mở trên một GPU không?

Có - Qwen 3.6-35B-A3B chạy trên một A10G duy nhất (VRAM 24GB) với lượng tử hóa INT4. Gemma 4-26B và Mistral Small 4 cũng vừa với các GPU tiêu dùng đơn lẻ. AWS g5.2xlarge (1,21 USD/giờ) là đủ. Với tín dụng AWS Activate qua AI Perks, điều này là miễn phí.

Tôi có nên tinh chỉnh mô hình mã nguồn mở không?

Hãy tinh chỉnh nếu bạn có một tác vụ chuyên biệt và >10.000 ví dụ chất lượng cao. Nếu không, kỹ thuật nhắc (prompt engineering) trên một mô hình cơ sở mạnh mẽ (DeepSeek V4, Qwen 3.6) thường tốt hơn việc tinh chỉnh một mô hình nhỏ hơn. Chi phí tinh chỉnh từ 50-5.000 USD thời gian GPU tùy thuộc vào kích thước mô hình.

API mã nguồn mở được lưu trữ rẻ nhất là gì?

Together AI, Fireworks và DeepInfra đều cạnh tranh ở mức 0,20-2,20 USD/1 triệu token cho các mô hình mã nguồn mở hàng đầu. DeepInfra thường thắng về giá thuần túy. Together AI có chương trình tín dụng khởi nghiệp mạnh nhất (15.000 - 50.000 USD qua AI Perks). Hãy thử nghiệm nhiều nhà cung cấp - tín dụng miễn phí giúp bạn không mất phí.

Chạy AI mã nguồn mở với chất lượng tiên tiến, chi phí bằng không

Cảnh quan AI mã nguồn mở năm 2026 là mạnh mẽ nhất từ trước đến nay. DeepSeek V4 vượt trội GPT-4.1 trên nhiều bài kiểm tra hiệu năng. Qwen 3.6 sánh ngang Claude Sonnet. Llama 4 trải rộng toàn bộ phổ quy mô. AI Perks đảm bảo bạn có thể chạy tất cả chúng mà không phải trả phí lưu trữ:

1.000 - 100.000 USD trở lên trong AWS Activate (lưu trữ GPU)
1.000 - 25.000 USD trở lên trong Google Cloud (lưu trữ Vertex AI)
15.000 - 50.000 USD trở lên trong tín dụng Together AI (API được lưu trữ)
Hơn 200 ưu đãi khởi nghiệp bổ sung

Đăng ký tại getaiperks.com →

AI mã nguồn mở sánh ngang các mô hình đóng vào năm 2026. Chạy miễn phí tại getaiperks.com.