Đang tải quảng cáo...

Giới thiệu dự án Xiaozhi ESP32 — Nền tảng mã nguồn mở mà Loa AI đang sử dụng

adminQuản trị viên
👁️ 8👍 0
Giới thiệu

Tìm hiểu chi tiết dự án GitHub xiaozhi-esp32: chatbot AI trên ESP32, giao thức MCP, tính năng, phần cứng hỗ trợ và cách Loa AI Việt Nam xây dựng trên nền tảng này.

Đang tải quảng cáo...

Xiaozhi ESP32 là gì?

xiaozhi-esp32 là dự án mã nguồn mở trên GitHub do cộng đồng phát triển, biến các board vi mạch ESP32 thành loa AI / chatbot giọng nói có thể giao tiếp tự nhiên với người dùng. Dự án được mô tả là "An MCP-based chatbot" — tức chatbot dựa trên giao thức MCP (Model Context Protocol) để mở rộng khả năng AI.

Tính đến 2026, dự án đã thu hút hơn 27.000 sao (stars) trên GitHub, giấy phép MIT (miễn phí sử dụng, kể cả mục đích thương mại). Đây là một trong những dự án phần cứng AI mã nguồn mở phổ biến nhất cho ESP32 trên thế giới.

Sơ đồ kiến trúc Xiaozhi ESP32: ASR, LLM, TTS và giao thức MCP

Vì sao Xiaozhi ESP32 nổi tiếng?

Xiaozhi không chỉ là "một con loa nói chuyện". Nó kết hợp:

  • Phần cứng rẻ, dễ tiếp cận: ESP32-C3, ESP32-S3, ESP32-P4
  • AI đám mây mạnh: kết nối LLM như Qwen, DeepSeek…
  • Giao tiếp giọng nói thời gian thực: ASR (nhận dạng giọng nói) → LLM (xử lý AI) → TTS (tổng hợp giọng nói)
  • MCP: mở rộng AI điều khiển thiết bị, smart home, tìm kiếm…

Nhờ đó, maker, startup và nhà sản xuất thiết bị có thể tự xây loa AI mà không cần viết lại toàn bộ stack từ đầu.

Tính năng chính của dự án

1. Giao tiếp giọng nói thông minh

  • Đánh thức offline bằng ESP-SR (không cần internet để nghe từ khóa)
  • Hỗ trợ nhận dạng người nói (speaker recognition)
  • Codec âm thanh OPUS — nén hiệu quả, phù hợp IoT
  • Hỗ trợ đa ngôn ngữ: Trung, Anh, Nhật (bản gốc); cộng đồng Việt Nam bổ sung tiếng Việt

2. Kết nối & giao thức

  • Wi-Fi hoặc 4G Cat.1 (ML307)
  • Hai giao thức truyền thông: WebSocket hoặc MQTT + UDP
  • Kiến trúc streaming ASR + LLM + TTS — phản hồi nhanh, tự nhiên

3. MCP — điểm khác biệt lớn nhất

MCP (Model Context Protocol) cho phép AI không chỉ trả lời, mà còn thực hiện hành động:

  • Device-side MCP: điều khiển loa, LED, servo, GPIO ngay trên thiết bị
  • Cloud-side MCP: mở rộng sang smart home, thao tác PC, tìm kiếm tri thức, email…

Đây chính là nền tảng giúp Xiaozhi trở thành "trợ lý thực thụ" thay vì chỉ chatbot.

4. Giao diện & cá nhân hóa

  • Màn hình OLED / LCD hiển thị emoji, trạng thái
  • Quản lý pin và nguồn
  • Tùy chỉnh từ đánh thức, font, emoji, nền qua công cụ xiaozhi-assets-generator

5. Hỗ trợ phần cứng rộng

Dự án hỗ trợ hơn 70 board mã nguồn mở, bao gồm:

  • Espressif ESP32-S3-BOX3
  • M5Stack CoreS3, AtomS3R + Echo Base
  • LILYGO T-Circle-S3, T-Display-S3
  • Waveshare ESP32-S3 Touch AMOLED
  • LiChuang ESP32-S3, Xingzhi, SenseCAP Watcher…

Bạn có thể tự lắp trên breadboard hoặc mua board có sẵn.

Loa AI sử dụng nền tảng Xiaozhi ESP32 mã nguồn mở

Kiến trúc hoạt động (dễ hiểu)

  1. Bạn nói → mic trên ESP32 thu âm
  2. ASR chuyển giọng nói thành chữ
  3. Chữ được gửi lên server AI qua WebSocket/MQTT
  4. LLM (mô hình ngôn ngữ lớn) xử lý và trả lời
  5. TTS chuyển câu trả lời thành giọng nói
  6. Loa phát âm thanh; màn hình hiển thị emoji/trạng thái
  7. MCP cho phép AI gọi thêm công cụ (bật đèn, tra cứu, điều khiển app…)

Phiên bản & firmware

  • v2 là phiên bản hiện tại, không nâng cấp OTA từ v1 (khác partition table)
  • v1 ổn định: 1.9.2; có thể chuyển về nhánh v1 nếu cần
  • Firmware mặc định kết nối server xiaozhi.me (có thể đăng ký dùng Qwen miễn phí)
  • Có hướng dẫn flash firmware không cần cài môi trường dev

Hệ sinh thái mã nguồn mở liên quan

Xiaozhi ESP32 không đứng một mình — có cả hệ sinh thái server và client:

Loa AI và Xiaozhi ESP32 — mối quan hệ thế nào?

Loa AI (loaai.me) là nền tảng và thương hiệu tại Việt Nam xây dựng trên nền tảng xiaozhi-esp32. Nói đơn giản:

  • Xiaozhi ESP32 = "động cơ" mã nguồn mở (firmware + giao thức)
  • Loa AI = "phiên bản Việt hóa + dịch vụ riêng" dành cho người dùng Việt Nam (Vẫn sử dụng server xiaozhi để làm bộ nảo Ai để trò chuyện)

Loa AI đang dùng Xiaozhi như thế nào?

  • Firmware tiếng Việt: Loa AI phát triển và phân phối firmware Xiaozhi bản Việt, tối ưu cho người dùng Việt Nam tại loaai.me/flash
  • Server dịch vụ riêng: thiết bị Loa AI kết nối về loaai.me sẽ giúp thiết bị có thêm nhiều tín năng
  • Thiết bị hỗ trợ: C1, C1+, S1, Chat tròn, Chat vuông, Module AI, Đồng Hồ AI…
  • Loại firmware: Chat, WeChat, Văn phòng — tùy nhu cầu sử dụng
  • Tính năng mở rộng trên Loa AI:
    • Quản lý thiết bị trên web
    • Đổi giao diện, emoji, đồng hồ tùy chỉnh (custom clock style)
    • Đặt vai trò / tính cách cho trợ lý
    • Phát nhạc YouTube, radio, tin tức
    • Firmware văn phòng, OTA cập nhật
    • Kho emoji cộng đồng
  • Cộng đồng: nhóm Facebook Xiaozhi Việt Nam, hỗ trợ flash, sửa lỗi, hướng dẫn

Vì sao Loa AI chọn Xiaozhi?

  1. Mã nguồn mở MIT — tự do tùy biến, phát triển thương mại
  2. Cộng đồng lớn — cập nhật nhanh, nhiều board hỗ trợ
  3. Kiến trúc MCP hiện đại — dễ mở rộng tính năng Việt Nam
  4. Chi phí phần cứng thấp — ESP32 giúp sản phẩm giá tốt
  5. Đã chứng minh — hàng chục nghìn thiết bị trên thế giới chạy Xiaozhi

Ai nên quan tâm dự án này?

  • Người dùng phổ thông: muốn mua/mua loa AI giá rẻ, nói tiếng Việt → chọn Loa AI (firmware Xiaozhi Việt)
  • Maker / DIY: tự lắp loa AI từ ESP32 → clone repo GitHub và flash firmware
  • Developer: muốn tích hợp MCP, xây server riêng → dùng xiaozhi-esp32-server
  • Startup phần cứng: tận dụng MIT license để sản xuất thiết bị AI

Bắt đầu với Xiaozhi ESP32

Nếu bạn dùng Loa AI (khuyến nghị cho người Việt)

  1. Mua thiết bị Loa AI hoặc board tương thích
  2. Vào loaai.me/flash để flash firmware tiếng Việt
  3. Đăng ký tài khoản tại loaai.me và thêm thiết bị
  4. Tùy chỉnh giao diện, emoji, đồng hồ trên trang quản lý

Nếu bạn là developer

  1. Clone github.com/78/xiaozhi-esp32
  2. Cài ESP-IDF 5.4+, VSCode/Cursor + plugin ESP-IDF
  3. Đọc docs: custom board, MCP protocol, WebSocket/MQTT
  4. Build và flash lên board ESP32 của bạn

Kết luận

Xiaozhi ESP32 là nền tảng mã nguồn mở quan trọng giúp AI giọng nói đến gần hơn với người dùng phổ thông — chỉ cần một chip ESP32 vài trăm nghìn đồng. Loa AI đã lấy nền tảng này, Việt hóa và xây hệ sinh thái dịch vụ riêng, mang Xiaozhi đến hàng nghìn người dùng Việt Nam qua loa thông minh, đồng hồ AI và cộng đồng hỗ trợ tích cực.

Nếu bạn muốn tìm hiểu sâu kỹ thuật, hãy ghé GitHub xiaozhi-esp32. Nếu muốn dùng ngay bằng tiếng Việt, hãy bắt đầu từ Loa AI.

Đang tải quảng cáo...
👁️8 lượt xem