API de Voz Médica
Reconocimiento y síntesis de voz especializada en medicina. Precisión comprobada en entornos clínicos con streaming en tiempo real.
Los modelos STT genéricos fallan con terminología médica. Persly Voice está entrenado con vocabulario específico de salud para una precisión superior.
100K+ términos médicos, nombres de medicamentos y enfermedades
Distingue homófonos con precisión en contexto médico
Reconocimiento cruzado de términos médicos multilingüe
Transcripción en vivo basada en WebSocket
Separación automática de conversación médico/paciente
Información temporal a nivel de oración
Puntuación de confianza por resultado
Tono optimizado para transmisión de información médica
Pronunciación precisa de medicamentos y enfermedades
Selección de tono informativo/advertencia/normal
Varios estilos de hablante disponibles
| Idiomas Soportados | 70+ idiomas |
| Tasa de Muestreo | 16kHz / 48kHz |
| Codificación | PCM, WebM, MP3 |
| Latencia | < 200ms (streaming) |
| Longitud Máx de Audio | 4 horas (batch) / Ilimitado (streaming) |
| Idiomas Soportados | 70+ idiomas |
| Tasa de Muestreo | 22.05kHz / 48kHz |
| Formato de Salida | PCM, MP3, OGG |
| Latencia Primer Byte | < 150ms |
| Longitud Máx de Texto | 10,000 caracteres/solicitud |
from persly import Voice
client = Voice(api_key="YOUR_API_KEY")
# Transcripción de archivo de audio
with open("consulta_paciente.wav", "rb") as audio:
result = client.transcribe(
audio=audio,
language="es",
medical_mode=True, # Habilitar vocabulario médico
stream=False
)
print(result.text)
# "El paciente refiere dolor torácico..."
print(result.medical_entities)
# [{"text": "dolor torácico", "type": "síntoma", "icd10": "R07.9"}]
# Streaming en tiempo real
for chunk in client.transcribe_stream(
audio_stream=microphone,
language="es",
medical_mode=True
):
print(chunk.text, end="", flush=True)Comparación de Tasa de Error de Palabras (WER) en datasets de voz médica. Menor es mejor.
Precisión Nombres de Medicamentos %
Tasa de error en conversaciones médicas generales
Tasa de error en terminología médica
Reconocimiento correcto de nombres de medicamentos
Retraso en transcripción en tiempo real
| Métrica | Persly Voice | Promedio Competidores |
|---|---|---|
| Latencia Primer Resultado | 180ms | 350ms |
| Retraso Streaming | < 200ms | 400-800ms |
| Primer Byte TTS | 120ms | 300ms |
* WER = Tasa de Error de Palabras (menor es mejor) * Benchmark con 1,000 grabaciones de consultas médicas en 4 idiomas
Transcripción en vivo de conversaciones médico-paciente, separación de hablantes, integración EMR
Bots de citas hospitalarias, llamadas de recordatorio de medicación, asistentes de voz de consulta de salud
Redacción de recetas por voz, dictado de informes médicos, registro de resultados de pruebas
Guía de medicación por voz, instrucciones prequirúrgicas, información multilingüe para pacientes
Streaming usa WebSocket para resultados en tiempo real, ideal para consultas en vivo. Batch procesa archivos de audio completos, mejor para transcribir grabaciones.
Actualizaciones mensuales incluyen nuevos nombres de medicamentos y términos médicos. Los planes Enterprise soportan adiciones de vocabulario personalizado.
Sí. Todos los datos de voz se cifran en tránsito y se eliminan inmediatamente después del procesamiento. Cumplimos con HIPAA, GDPR y regulaciones de privacidad locales.
La API de Voice funciona como capa de entrada/salida para el pipeline Embed → Finder → Rerank → LLM. Usa una sola clave API para todos los servicios.
Hablemos de cómo nuestras APIs pueden impulsar tu producto de salud