Apex B. OpenClaw, Local Embeddings.

Published: (February 22, 2026 at 04:09 PM EST)
2 min read
Source: Dev.to

Source: Dev.to

Por default, el memory search de OpenClaw envía texto a un embedding API externo (típicamente Anthropic u OpenAI) para generar vector embeddings para semantic search. Esto funciona bien, pero tiene dos downsides: cuesta dinero por query, y tu memory content sale de tu máquina.

Si quieres memory search completamente local, gratis y privado, puedes configurar OpenClaw para usar local embeddings vía node-llama-cpp con un embedding model GGUF pequeño. Esto corre totalmente en tu Mac Mini — sin API calls, sin data saliendo de la máquina.

openclaw config set memory.search.enable true

Configurar el proveedor de embeddings a local

openclaw config set memory.search.provider local

Reiniciar el gateway para aplicar los cambios

openclaw gateway restart

OpenClaw descargará automáticamente un lightweight GGUF embedding model y empezará a indexar tus memory files. Con 16 GB de RAM en la Mac Mini base, esto corre cómodamente — los embedding models son tiny comparados con full LLMs.

El first‑time indexing de 1,000+ files toma unos minutos. Después, los nuevos files se indexan incrementalmente.

La calidad de búsqueda es muy buena para keyword y topic matching. No va a igualar la calidad de frontier embedding APIs para queries semánticas sutiles, pero para búsquedas tipo “what did I decide about X”, es más que suficiente.

Zero ongoing cost. Zero data leaving your machine.

Cuándo usar Local vs. API Embeddings

Local (recomendado para la mayoría)

  • Gratis y privado.
  • Suficientemente rápido para la mayoría de los casos.
  • Ideal si estás air‑gapping tu setup o manteniendo costos al mínimo.

API‑based (Anthropic, OpenAI o Gemini)

  • Mejor calidad semántica para memory stores grandes.
  • Úsalo si tienes miles de files y necesitas recall preciso en queries matizadas, y no te molesta el costo o que la data salga de tu máquina.

Gemini free tier (punto medio)

  • Si ya tienes una Gemini API key configurada, es el fallback API‑based más barato con calidad decente.
0 views
Back to Blog

Related posts

Read more »