AI 브라우저 업데이트: 우리는 얼마나 왔는가?

발행: (2025년 12월 7일 오후 01:29 GMT+9)
8 min read
원문: Dev.to

Source: Dev.to

📊 현재 상황

  • ✅ 귀중한 피드백과 제안을 받음
  • ✅ 개발자들이 프로젝트를 팔로우하고 탐색하기 시작함
  • ✅ 크로스‑플랫폼 지원 (Mac, Windows) 안정적으로 실행 중

🎉 최근에 만든 것

1. 히스토리 재생 + 대화 이어하기

이전 문제점: 히스토리가 읽기 전용이라 이어서 할 수 없었음.

현재:

  • ✅ 과거 작업을 클릭하면 전체 실행을 재생 (타이프라이터 효과 포함)
  • ✅ 재생/일시정지/속도 제어
  • 대화를 중단했던 지점부터 이어서 진행
  • ✅ 첨부 파일을 바로 미리보기

기술 구현

PlaybackEngine을 만들어 메시지 스트림을 원자 단위(AtomicFragment)로 분할했습니다. 이는 가장 작은 재생 가능한 단위이며, 재생 진행 및 속도를 정밀하게 제어할 수 있게 합니다. 작업 데이터는 IndexedDB에 저장돼 오프라인에서도 볼 수 있습니다. 이어서 실행할 때는 전체 실행 컨텍스트(워크플로, 단계, 첨부 파일 등)를 복원해 매끄러운 연속성을 보장합니다.

2. 인간 상호작용 기능

시나리오: AI가 인간의 결정을 필요로 하는 상황에 직면함.

해결책:

  • ✅ AI가 실행 중에 질문을 할 수 있음
  • ✅ 사용자가 응답하면 AI가 계속 진행
  • ✅ 로그인 확인, 옵션 선택 등에서 유용

예시:

Task: Help me collect data from a login‑required website

AI: Login required. Are you logged in?
You: Yes, already logged in
AI: Got it, continuing data collection...

기술 구현

eko 프레임워크의 HumanInteraction 메시지 타입을 기반으로, AI가 실행 중에 상호작용 요청을 시작할 수 있습니다. 메인 프로세스와 렌더러 프로세스 사이에 Electron IPC를 이용해 양방향 통신 채널을 구축했습니다. AI가 질문이 필요하면 워크플로가 일시 정지하고 사용자 응답을 기다립니다. IPC를 통해 응답이 전달되면 에이전트가 실행을 재개합니다. 이 과정에는 전체 상태 관리와 오류 처리 로직이 포함됩니다.

3. 음성 입력 지원

기능:

  • ✅ 작업에 대한 음성 입력 (타이핑 불필요)
  • ✅ Vosk를 이용한 오프라인 음성 인식
  • ✅ 언어에 따라 인식 모델 자동 전환

기술 구현

기본적으로 Vosk 로컬 오프라인 엔진을 사용해 인터넷 없이도 동작하며, 사용자 프라이버시를 보호합니다. 언어에 맞는 모델(중국어/영어 등)이 자동으로 로드됩니다. 향후 Microsoft Azure와 iFlytek 클라우드 서비스를 통한 지원도 예정되어 있습니다.

4. 다국어 국제화

지원:

  • ✅ 중국어/영어 인터페이스 전환
  • ✅ 전체 번역 적용
  • ✅ 날짜/시간 현지화

기술 구현

i18next + react-i18next 기반으로 구현했습니다. 번역 리소스는 모듈별(main.json, history.json, agent-config.json 등)로 구성되고 네임스페이스가 분리됩니다. 언어 전환은 Zustand 전역 상태를 사용해 페이지 새로고침 없이 즉시 적용됩니다. 날짜·시간 포맷은 date-fns의 로케일 기능을 활용합니다. 새로운 언어를 추가하려면 JSON 번역 파일만 추가하면 됩니다.

5. 에이전트 설정 시스템

기능:

  • ✅ 에이전트 프롬프트 커스터마이징
  • ✅ MCP 도구 관리(CRUD)
  • ✅ 다양한 에이전트 기능 설정

이를 통해 AI Browser는 매우 유연하고 맞춤형으로 사용할 수 있습니다.

6. 툴박스 페이지

개선점:

  • ✅ 모든 시스템 기능에 대한 중앙 접근점 제공
  • ✅ 네비게이션 명확화
  • ✅ 설정, 예약 작업, 히스토리 등으로 원클릭 이동

🗺️ 앞으로의 계획

Phase 1 (단기, 1‑2 주)

  • 작업 작업 디렉터리 격리 – 각 작업마다 독립된 작업 디렉터리를 부여해 파일 충돌 방지.
  • Windows 백그라운드 실행 최적화 – 리소스 사용량 감소 및 안정성 향상.
  • 생성 파일 다운로드 지원 – AI가 만든 파일을 직접 및 일괄 다운로드.
  • 재생 속도 제어 – 히스토리 재생 시 빨리 감기/슬로 모션 기능.

Phase 2 (중기, 2‑4 주)

  • 성능 최적화 – 긴 대화를 위한 가상 스크롤링, 메모리 개선, 시작 속도 향상.
  • 다국어 강화 – 시스템 언어 자동 감지, 오프라인 언어 패키지 동적 다운로드, 온라인 음성 인식(Microsoft, iFlytek) 설정 가능.
  • 테마 커스터마이징 – 다크 모드, 다양한 색상 스킴, 사용자 정의 색상.

Phase 3 (장기, 1‑2 개월)

  • 시각적 워크플로 편집기 – 워크플로 단계 조정, 예약 작업용 워크플로 저장/불러오기.
  • 플러그인 마켓플레이스 – 공식 MCP 도구 라이브러리(HTTP, stdio, SSE), 커뮤니티 플러그인 공유, 원클릭 설치/업데이트.
  • 추가 에이전트 지원 – ShellAgent(명령 실행), EmailAgent(이메일 송수신), NotionAgent(Notion 작업) 등.

🤔 우리가 필요한 것

  1. ⭐️ 스타 – 프로젝트 가시성을 높이고, 기여자를 끌어들이며, 지속 개발 동기를 부여합니다.
  2. 💬 피드백 및 제안 – 사용 사례, 문제점, 기능 아이디어를 GitHub Issues 또는 댓글로 공유해 주세요.
  3. 🤝 코드 기여 – 버그 수정, 새로운 기능, 문서 개선을 위한 PR을 제출해 주세요.

📌 빠른 링크

  • GitHub:
  • Download:
  • Configuration Guide:
  • Issue Tracker:
Back to Blog

관련 글

더 보기 »