一般的なSTTモデルは医学用語に弱い。Persly Voiceはヘルスケア専用の語彙で学習し、優れた精度を提供。
10万以上の医学用語、薬品名、疾患名
医療文脈で同音異義語を正確に識別
多言語医学用語クロス認識
WebSocketベースのライブ文字起こし
医師/患者の会話を自動分離
文単位の時間情報
結果ごとの信頼度スコア
医療情報伝達に最適化されたトーン
薬品名、疾患名の正確な発音
案内/警告/通常トーンの選択
様々な話者スタイル対応
| 対応言語 | 70以上の言語 |
| サンプルレート | 16kHz / 48kHz |
| エンコーディング | PCM, WebM, MP3 |
| レイテンシ | < 200ms(ストリーミング) |
| 最大音声長 | 4時間(バッチ)/ 無制限(ストリーミング) |
| 対応言語 | 70以上の言語 |
| サンプルレート | 22.05kHz / 48kHz |
| 出力形式 | PCM, MP3, OGG |
| ファーストバイトレイテンシ | < 150ms |
| 最大テキスト長 | 10,000文字/リクエスト |
import asyncio
from persly import Voice
client = Voice(api_key="YOUR_API_KEY")
async def transcribe_stream():
async for result in client.transcribe_stream(
audio_stream=microphone_stream(),
language="ja",
enable_medical_mode=True,
speaker_diarization=True
):
print(f"[{result.speaker}] {result.text}")
print(f" Confidence: {result.confidence}")
print(f" Medical terms: {result.medical_terms}")
asyncio.run(transcribe_stream())医療音声データセットでの単語エラー率(WER)比較。低いほど良い。
薬品名精度 %
一般的な医療会話の単語エラー率
医学用語の単語エラー率
薬品名の正確な認識率
リアルタイム文字起こし遅延
| 指標 | Persly Voice | 競合平均 |
|---|---|---|
| 初回結果遅延 | 180ms | 350ms |
| ストリーミング遅延 | < 200ms | 400-800ms |
| TTSファーストバイト | 120ms | 300ms |
* WER = Word Error Rate(低いほど良い) * 4言語1,000件の医療相談録音でベンチマーク
医師-患者会話のリアルタイム文字起こし、話者分離、EMR連携
病院予約ボット、服薬案内電話、健康相談音声アシスタント
処方箋の音声作成、診断書口述、検査結果記録
服薬指導音声案内、術前説明、多言語患者案内
ストリーミングはWebSocketでリアルタイム結果を受信、バッチは音声ファイル全体を一括処理します。診療中のリアルタイム記録にはストリーミング、録音ファイルの文字起こしにはバッチを推奨。
月次更新で最新の薬品名と医学用語を反映。Enterpriseプランではカスタム語彙追加もサポート。
はい。すべての音声データは転送中に暗号化され、処理後即座に削除。HIPAA、GDPR、各国のプライバシー規制に準拠。
Voice APIはEmbed → Finder → Rerank → LLMパイプラインの入出力レイヤーとして機能。1つのAPIキーですべてのサービスを利用可能。
ヘルスケアAPIがどのようにお役に立てるかご相談ください