← Volver a APIs

Voice

API de Voz Médica

Reconocimiento y síntesis de voz especializada en medicina. Precisión comprobada en entornos clínicos con streaming en tiempo real.

¿Por qué voz especializada en medicina?

Los modelos STT genéricos fallan con terminología médica. Persly Voice está entrenado con vocabulario específico de salud para una precisión superior.

MedicamentosReconocimiento preciso de nombres de medicamentos
"Metformina 500mg dos veces al día"
Generic"Met for mina quinientos..."
Persly"Metformina 500mg dos veces al día"
Términos MédicosReconocimiento de terminología compleja
"Sobredosis de acetaminofén"
Generic"A ce ta mi no fen sobre..."
Persly"Sobredosis de acetaminofén"
Abreviaturas ClínicasManejo de abreviaturas en contexto
"Sospecha de rotura de LCA izquierdo"
Generic"Sospecha de L C A izquierdo..."
Persly"Sospecha de rotura de LCA izquierdo"

Vocabulario Médico

100K+ términos médicos, nombres de medicamentos y enfermedades

Comprensión Contextual

Distingue homófonos con precisión en contexto médico

Médico Multilingüe

Reconocimiento cruzado de términos médicos multilingüe

Funciones de Voz Completas

Reconocimiento de Voz (STT)

Streaming en Tiempo Real

Transcripción en vivo basada en WebSocket

Diarización de Hablantes

Separación automática de conversación médico/paciente

Marcas de Tiempo

Información temporal a nivel de oración

Puntuaciones de Confianza

Puntuación de confianza por resultado

Síntesis de Voz (TTS)

Habla Natural

Tono optimizado para transmisión de información médica

Pronunciación Médica

Pronunciación precisa de medicamentos y enfermedades

Control de Tono

Selección de tono informativo/advertencia/normal

Múltiples Voces

Varios estilos de hablante disponibles

Especificaciones Técnicas

Especificaciones STT

Idiomas Soportados70+ idiomas
Tasa de Muestreo16kHz / 48kHz
CodificaciónPCM, WebM, MP3
Latencia< 200ms (streaming)
Longitud Máx de Audio4 horas (batch) / Ilimitado (streaming)

Especificaciones TTS

Idiomas Soportados70+ idiomas
Tasa de Muestreo22.05kHz / 48kHz
Formato de SalidaPCM, MP3, OGG
Latencia Primer Byte< 150ms
Longitud Máx de Texto10,000 caracteres/solicitud

Ejemplo de Código

from persly import Voice

client = Voice(api_key="YOUR_API_KEY")

# Transcripción de archivo de audio
with open("consulta_paciente.wav", "rb") as audio:
    result = client.transcribe(
        audio=audio,
        language="es",
        medical_mode=True,  # Habilitar vocabulario médico
        stream=False
    )

print(result.text)
# "El paciente refiere dolor torácico..."

print(result.medical_entities)
# [{"text": "dolor torácico", "type": "síntoma", "icd10": "R07.9"}]

# Streaming en tiempo real
for chunk in client.transcribe_stream(
    audio_stream=microphone,
    language="es",
    medical_mode=True
):
    print(chunk.text, end="", flush=True)

Precisión de Reconocimiento de Voz Médica

Comparación de Tasa de Error de Palabras (WER) en datasets de voz médica. Menor es mejor.

Comparación de Precisión STT Médica

Persly Voice94.3
Google Medical78.2
AWS Transcribe Medical76.5
Whisper Large v362.1

Precisión Nombres de Medicamentos %

4.2%
WER Texto General

Tasa de error en conversaciones médicas generales

6.8%
WER Términos Médicos

Tasa de error en terminología médica

94.3%
Precisión Medicamentos

Reconocimiento correcto de nombres de medicamentos

<200ms
Latencia Streaming

Retraso en transcripción en tiempo real

Rendimiento en Tiempo Real

MétricaPersly VoicePromedio Competidores
Latencia Primer Resultado180ms350ms
Retraso Streaming< 200ms400-800ms
Primer Byte TTS120ms300ms

* WER = Tasa de Error de Palabras (menor es mejor) * Benchmark con 1,000 grabaciones de consultas médicas en 4 idiomas

Casos de Uso

Documentación Clínica en Tiempo Real

Transcripción en vivo de conversaciones médico-paciente, separación de hablantes, integración EMR

Agentes de Voz IA

Bots de citas hospitalarias, llamadas de recordatorio de medicación, asistentes de voz de consulta de salud

Dictado Médico

Redacción de recetas por voz, dictado de informes médicos, registro de resultados de pruebas

Educación del Paciente TTS

Guía de medicación por voz, instrucciones prequirúrgicas, información multilingüe para pacientes

Preguntas Frecuentes

¿Cuál es la diferencia entre streaming y procesamiento por lotes?

Streaming usa WebSocket para resultados en tiempo real, ideal para consultas en vivo. Batch procesa archivos de audio completos, mejor para transcribir grabaciones.

¿Cómo se actualiza el vocabulario médico?

Actualizaciones mensuales incluyen nuevos nombres de medicamentos y términos médicos. Los planes Enterprise soportan adiciones de vocabulario personalizado.

¿Es compatible con HIPAA/GDPR?

Sí. Todos los datos de voz se cifran en tránsito y se eliminan inmediatamente después del procesamiento. Cumplimos con HIPAA, GDPR y regulaciones de privacidad locales.

¿Cómo se integra con las APIs RAG existentes?

La API de Voice funciona como capa de entrada/salida para el pipeline Embed → Finder → Rerank → LLM. Usa una sola clave API para todos los servicios.

¿Listo para Construir con Persly?

Hablemos de cómo nuestras APIs pueden impulsar tu producto de salud