Voice

ヘルスケア音声API

医療特化音声認識・合成。臨床現場で実証された精度とリアルタイムストリーミング。

チームに相談するコード例を見る

なぜ医療特化音声なのか？

一般的なSTTモデルは医学用語に弱い。Persly Voiceはヘルスケア専用の語彙で学習し、優れた精度を提供。

薬品名正確な薬品名認識

"メトホルミン500mg 1日2回"

✗Generic"メトホルミンゴヒャク..."

✓Persly"メトホルミン500mg 1日2回"

医学用語複雑な医学用語認識

"アセトアミノフェン過量摂取"

✗Generic"アセトアミノフェン過量..."

✓Persly"アセトアミノフェン過量摂取"

臨床略語文脈内の略語処理

"左側ACL断裂の疑い"

✗Generic"左側エーシーエル断裂..."

✓Persly"左側ACL断裂の疑い"

医療語彙

10万以上の医学用語、薬品名、疾患名

文脈理解

医療文脈で同音異義語を正確に識別

多言語医療

多言語医学用語クロス認識

包括的な音声機能

音声認識 (STT)

リアルタイムストリーミング

WebSocketベースのライブ文字起こし

話者分離

医師/患者の会話を自動分離

タイムスタンプ

文単位の時間情報

信頼度スコア

結果ごとの信頼度スコア

音声合成 (TTS)

自然な発話

医療情報伝達に最適化されたトーン

医学用語発音

薬品名、疾患名の正確な発音

トーン調整

案内/警告/通常トーンの選択

多様な音声

様々な話者スタイル対応

技術仕様

STT仕様

対応言語	70以上の言語
サンプルレート	16kHz / 48kHz
エンコーディング	PCM, WebM, MP3
レイテンシ	< 200ms（ストリーミング）
最大音声長	4時間（バッチ）/ 無制限（ストリーミング）

TTS仕様

対応言語	70以上の言語
サンプルレート	22.05kHz / 48kHz
出力形式	PCM, MP3, OGG
ファーストバイトレイテンシ	< 150ms
最大テキスト長	10,000文字/リクエスト

コード例

import asyncio
from persly import Voice

client = Voice(api_key="YOUR_API_KEY")

async def transcribe_stream():
    async for result in client.transcribe_stream(
        audio_stream=microphone_stream(),
        language="ja",
        enable_medical_mode=True,
        speaker_diarization=True
    ):
        print(f"[{result.speaker}] {result.text}")
        print(f"  Confidence: {result.confidence}")
        print(f"  Medical terms: {result.medical_terms}")

asyncio.run(transcribe_stream())

医療音声認識精度

医療音声データセットでの単語エラー率（WER）比較。低いほど良い。

医療STT精度比較

Persly Voice94.3

Google Medical78.2

AWS Transcribe Medical76.5

Whisper Large v362.1

薬品名精度 %

4.2%

一般テキストWER

一般的な医療会話の単語エラー率

6.8%

医学用語WER

医学用語の単語エラー率

94.3%

薬品名精度

薬品名の正確な認識率

<200ms

ストリーミング遅延

リアルタイム文字起こし遅延

リアルタイム性能

指標	Persly Voice	競合平均
初回結果遅延	180ms	350ms
ストリーミング遅延	< 200ms	400-800ms
TTSファーストバイト	120ms	300ms

* WER = Word Error Rate（低いほど良い） * 4言語1,000件の医療相談録音でベンチマーク

ユースケース

リアルタイム診療記録

医師-患者会話のリアルタイム文字起こし、話者分離、EMR連携

音声AIエージェント

病院予約ボット、服薬案内電話、健康相談音声アシスタント

医療ディクテーション

処方箋の音声作成、診断書口述、検査結果記録

患者教育TTS

服薬指導音声案内、術前説明、多言語患者案内

FAQ

ストリーミングとバッチ処理の違いは？

ストリーミングはWebSocketでリアルタイム結果を受信、バッチは音声ファイル全体を一括処理します。診療中のリアルタイム記録にはストリーミング、録音ファイルの文字起こしにはバッチを推奨。

医療語彙はどのように更新されますか？

月次更新で最新の薬品名と医学用語を反映。Enterpriseプランではカスタム語彙追加もサポート。

HIPAA/GDPRに準拠していますか？

はい。すべての音声データは転送中に暗号化され、処理後即座に削除。HIPAA、GDPR、各国のプライバシー規制に準拠。

既存のRAG APIとどう統合しますか？

Voice APIはEmbed → Finder → Rerank → LLMパイプラインの入出力レイヤーとして機能。1つのAPIキーですべてのサービスを利用可能。

Perslyで構築を始める準備はできましたか？

ヘルスケアAPIがどのようにお役に立てるかご相談ください