Sarvam AI와 함께 시각장애 학생을 위한 음성 기반 평가 플랫폼 구축

발행: (2026년 6월 11일 PM 09:58 GMT+9)
7 분 소요
원문: Dev.to

Source: Dev.to

컴퓨터 기반 평가에는 눈에 띄지 않는 접근성 문제가 있습니다. 대부분의 플랫폼은 사용자가 화면에 표시된 텍스트를 읽고, 옵션을 클릭하고, 답을 입력할 수 있다고 가정합니다. 시각 장애가 있는 학생들—특히 인도에서는—이 가정 때문에 사실상 완전히 배제됩니다.
이 문제를 해결하고 싶었습니다. 우회적인 방법이 아니라, 처음부터 음성에 최적화된 경험을 만들고 싶었습니다.

문제점

스크린 리더가 존재하지만, 사용하기 번거롭고 별도 설정이 필요하며, 인도식 이름·단어·문장 구조를 종종 어색하고 부자연스럽게 발음합니다. 경험이 금방 무너집니다. 시각 장애가 있는 인도 학생들이 실제로 필요로 하는 것은 주변 사람들이 말하듯 친숙한 억양과 자연스러운 속도로, 로봇이 매뉴얼을 읽어주는 듯하지 않은 음성 시스템입니다.
바로 그 때문에 Sarvam AI를 알게 되었습니다.

왜 Sarvam인가

이전에 다른 TTS API를 사용해 본 적이 있습니다. 기술적으로는 동작했지만 언제나 뭔가 부족했습니다—음성이 평평하고, 약간 서구식 억양이 섞이며, 힌디어에서 유래한 일반 단어들의 발음이 인도식 영어와는 거리가 있었습니다.

Sarvam의 TTS는 달랐습니다. 처음으로 테스트 질문을 넣어봤을 때, 출력된 음성이 실제 사람이 말하는 것처럼 들렸습니다. 억양은 따뜻하고 친숙했으며—인도 학생이 별다른 마찰 없이 신뢰하고 따를 수 있는 목소리였습니다. 그 순간 프로젝트에 대한 생각이 바뀌었습니다. 이제는 단순한 편의 기능이 아니라 경험의 핵심이 된 것이었습니다.

내가 만든 것

이 플랫폼은 프론트엔드에 React와 Tailwind, 백엔드에 Express.js, 사용자 데이터와 점수를 저장하는 PostgreSQL으로 구성된 풀스택 웹 앱입니다. 인터랙션 모델은 의도적으로 단순합니다. 화면 어디든 한 번 클릭하면 Sarvam TTS가 현재 질문을 읽어줍니다. 두 번 클릭하면 듣기를 시작하고 Sarvam STT를 사용해 사용자의 음성 답변을 텍스트로 변환합니다. 키보드도, 마우스 정밀도도 필요 없습니다. 두 가지 제스처만으로 전체 평가를 탐색할 수 있습니다.

데모용으로 스트레스 수준을 감지하는 심리 측정 테스트를 만들었습니다. 사용자는 로그인하고, 시스템이 각 질문을 읽어주면 답변을 말하고, 마지막에 스트레스 점수와 전체 응답 기록이 백엔드에 저장됩니다.

놀라운 점

Sarvam API를 통합하는 과정은 실제로 가장 매끄러운 부분이었습니다. 깔끔한 엔드포인트, 예측 가능한 응답, 최소한의 설정. 하지만 진짜 놀라운 것은 음성 품질이 제품의 느낌을 얼마나 크게 바꾸는가였습니다. 좋은 억양은 작은 디테일이 아니라, 사용자가 단순히 견디는 도구와 진정으로 신뢰하는 도구 사이의 차이입니다.

인도식 영어는 고유한 리듬을 가지고 있습니다. Sarvam의 TTS는 그 리듬을 포착합니다. 음성이 전체 인터페이스인 접근성 상황에서는 이것이 거의 모든 다른 기술적 결정보다 더 중요합니다.

다음에 만들 수 있는 것들

이 스택은 다양한 방향을 열어줍니다. 낮은 문해력을 가진 농촌 학생들을 위한 음성 우선 학습 플랫폼, 읽을 수 없는 환자를 위한 인도어 의료 접수 양식, 복잡한 서류 작업을 안내하는 음성 기반 정부 양식 도우미, 기존 웹 앱에 Sarvam TTS와 STT를 플러그인만으로 연결해 수백만 명에게 즉시 사용 가능하게 만드는 접근성 레이어 등.

인프라스트럭처는 단순합니다. 영향력은 그렇지 않죠. 인도를 대상으로 개발한다면, Sarvam 모델을 진지하게 검토해 볼 가치가 있습니다—인도 언어를 지원한다는 이유가 아니라, 실제로 인도 사용자의 말투와 청취 방식을 이해하고 있기 때문입니다. 이는 전혀 다른 차원의 가치입니다.

0 조회
Back to Blog

관련 글

더 보기 »