음향만으로 음성 PII 숫자열을 탐지하는 경량 CNN 김현찬, 박승진, 강진구
00 · Overview

음성에서 개인정보 숫자열을, 텍스트로 옮기지 않고 잡아낼 수 있을까

기존 방식은 음성을 먼저 STT로 텍스트화한 뒤, 그 텍스트에서 개인정보 숫자열 패턴을 찾는 구조입니다.

하지만 이 과정에서는 개인정보가 텍스트로 남을 수 있고, STT가 숫자를 잘못 전사하면 탐지 결과도 함께 흔들립니다.

그래서 우리는 질문을 바꿨습니다.

“텍스트로 옮기지 않고, 음성 신호만으로 개인정보 숫자열을 잡아낼 수 있을까?”

본 프로젝트는 음성을 log-mel 스펙트로그램으로 변환한 뒤, 60.7K 파라미터의 경량 CNN으로 PII 숫자열 포함 여부를 분류하는 접근을 실험적으로 검증했습니다.

1문제 정의 — 왜 STT를 우회하려 했는가

기존 음성 개인정보 탐지는 보통 전체 음성을 STT로 텍스트화한 뒤, 텍스트 NLP나 정규식으로 숫자열 형식을 판별하는 구조입니다.

하지만 모든 음성을 대형 STT로 전사하면 비용과 지연이 커지고, 개인정보가 포함될 수 있는 음성을 텍스트로 남긴다는 점 자체가 프라이버시 부담이 됩니다.

그래서 본 실험은 STT를 대체하는 것이 아니라, STT 이전 단계에서 동작하는 초경량 PII 후보 선별기를 목표로 했습니다.

핵심 질문은 다음과 같습니다.

“정밀 전사를 수행하기 전에, 이 클립에 PII 숫자열이 들어 있을 가능성만 먼저 빠르게 판단할 수 있을까?”

이 앞단 선별기의 핵심 지표는 정밀도보다 재현율과 연산 효율입니다. 정확한 형식 판별은 뒤로 미루고, 여기서는 위험 클립을 놓치지 않고 빠르게 걸러내는 데 집중합니다.

2가설 — 음향적으로 다른 연속 숫자열

본 실험의 가설은 단순합니다.

전화번호·주민번호·계좌번호·카드번호처럼 개인정보로 쓰이는 숫자열은 대체로 여러 자리 숫자가 연속해서 발화됩니다. 이때 일반 문장 발화와는 다른 반복적 리듬, 짧은 음절 단위의 나열, 비교적 일정한 발화 간격이 나타날 수 있습니다.

즉, 모델이 잡으려는 것은 개인정보의 의미가 아니라 연속 숫자열이 만들어내는 음향적 패턴입니다.

음성을 log-mel 스펙트로그램으로 변환하면 이러한 시간-주파수 구조가 이미지 형태로 표현됩니다. 따라서 텍스트 전사를 거치지 않더라도, CNN이 일반 발화와 긴 숫자열 발화 사이의 패턴 차이를 학습할 수 있다고 보았습니다.

3접근 — log-mel 스펙트로그램 + 경량 CNN

음성을 16kHz로 받아 log-mel 스펙트로그램(n_fft=1024, hop=512, n_mels=64)으로 변환하고, 4단의 Conv-BN-ReLU-MaxPool과 AdaptiveAvgPool을 거쳐 이진 분류합니다. 평가 시에는 슬라이딩 윈도우로 자른 뒤 각 윈도우 확률의 최댓값을 클립 점수로 삼아, 일부 구간에만 PII가 있어도 놓치지 않도록 설계했습니다.

파라미터 수
60.7K
대형 백본의 1/25 ~ 1/430
모델 크기
0.26 MB
온디바이스에 충분
윈도우당 추론
0.344 ms
GPU 기준
검증 단계
5 단계
5단계 실험
PII 발화와 비-PII 발화의 log-mel 스펙트로그램 4개 예시
모델이 보는 입력. 텍스트가 아니라 log-mel 스펙트로그램.

4실험 여정

단발성 실험이 아닌 5단계의 실험

실험 1
통제 환경
F1 0.955 달성
실험 2
화자 다양성
분산 1/3로 안정
실험 3
미학습 유형
recall 0.88~0.98
실험 4
STT+NLP 대비
상보적 관계
실험 5
자원 이득 비교
prevalence 의존도
종합
한계와 결론
합성음 한정 경계
01 · Feasibility & Controls

실험 1 — 통제 환경에서 작동하는가, 그리고 얼마나 가벼운가

가장 먼저 확인할 것은 "된다/안 된다"입니다. 화자 3명의 전화번호 데이터를 통제한 환경에서, 제안 모델이 baseline과 대형 백본 대비 어느 위치에 있는지, 그리고 그 정확도가 길이·숫자 존재 같은 손쉬운 단서(shortcut)에 기댄 것은 아닌지를 봅니다.

1왜 이 실험을 먼저 했는가

앞단 프리필터가 의미를 가지려면 두 가지가 동시에 성립해야 합니다.
(1) 음향만으로 PII 숫자열이 실제로 분리되어야 하고, (2) 뒤에 붙는 STT보다 압도적으로 가벼워야 합니다.
둘 중 하나라도 무너지면 프리필터라는 발상 자체가 성립하지 않으므로, 이 둘을 가장 통제된 조건에서 먼저 확인했습니다.

2실험 설계와 조건

실험 환경
  • 특징: log-mel n_fft 1024 / hop 512 / n_mels 64
  • 학습: AdamW · CrossEntropy · cosine · early-stopping
  • seed 42·43·44 3회 반복
  • 학습=random crop, 평가=sliding-window max
데이터셋 (v1)
  • TTS edge-tts, 화자 3명(InJoon/SunHi/Hyunsu)
  • PII 범위: 전화번호 단일, 약 2,000클립
  • 모든 숫자 한국어 자릿수 발음("공일공…")으로 통일
  • template-disjoint + length-stratified 70/15/15
비교 대상
  • baseline: majority · duration-only · acoustic-LR
  • 제안 simple_cnn (60.7K)
  • ImageNet 백본 3종(1.5M~27.8M)
  • 핵심 지표: 재현율 + 효율, hard-neg FPR

핵심 통제는 모든 클래스가 동일 화자풀·동일 코덱·노이즈 패딩을 공유하도록 강제한 것입니다. 클래스 간 차이가 음색·코덱·무음 길이·읽는 방식이 아니라 오직 스펙트로그램만 바라보게 만들어, 모델이 부수 단서를 학습하지 못하게 막았습니다.

3결과 — 가장 작은 모델이 가장 정확했다

모델 비교 (seed 평균±표준편차, controlled 평가셋)
모델Controlled F1Length-matched F1Hard-neg FPRROC-AUC
majority0.0000.0000.0000.500
duration_only0.633±.0050.6390.8120.701
acoustic_lr0.761±.0230.7720.2640.878
simple_cnn0.955±.0100.9560.0060.997
mobilenet_v3_small0.776±.0110.7770.0210.945
efficientnet_b00.867±.0100.8710.0110.994
convnext_tiny0.804±.1320.8080.0560.962

제안 모델이 최고 정확도(F1 0.955)를 내면서, 동시에 가장 작고 빠릅니다. 자연영상으로 사전학습한 대형 백본은 스펙트로그램이라는 도메인 불일치와 소규모 데이터 앞에서 이점이 사라졌고, convnext_tiny는 seed 분산이 ±0.132로 불안정했습니다.

0.70 0.78 0.85 0.93 1.00 Controlled F1 → 60.7K 1.5M 4.0M 27.8M 파라미터 수 (로그 스케일) → simple_cnn 60.7K · F1 0.955 · 0.344ms mobilenet_v3 · 0.776 efficientnet_b0 · 0.867 convnext_tiny · 0.804
좌상단이 이상적(작고 정확).
효율 — 프리필터 적합성의 핵심
모델Params크기윈도우당 지연
simple_cnn60,7060.26 MB0.344 ms
mobilenet_v3_small1.52 M6.2 MB2.03 ms
efficientnet_b04.01 M16.3 MB2.92 ms
convnext_tiny27.8 M111 MB2.32 ms

4검증 — 손쉬운 단서에 기댄 것은 아닌가

높은 F1이 진짜 신호인지, 아니면 길이·숫자 존재 같은 단서를 외운 것인지 의심하기 위해 통제 장치마다 증거를 붙였습니다.

artifact 통제와 그 증거
의심되는 shortcut통제 장치결정적 증거결론
클립 길이length-stratified + length-matched 셋duration-only ROC 0.70→0.53 vs CNN F1 0.956≈0.955비의존
숫자의 존재비-PII 숫자열 hard-negativehard-neg FPR 0.006~0.056형식/길이
읽는 방식전 클래스 자릿수 발음 통일발음이 단서가 아님통제됨
화자·코덱·무음동일 화자풀·16kHz·노이즈패딩LOSO ROC 0.99비의존
소량데이터 과적합seed 3회simple ±0.01안정

길이 하나만 쓰는 duration-only는 length-matched에서 ROC가 0.53(우연)으로 붕괴하는데, 같은 조건에서 CNN의 F1은 0.956으로 유지됩니다. 길이를 외운 것이 아니라는 증거입니다.

숫자의 존재도 마찬가지입니다. "숫자가 들어 있기만 하면 PII로 찍는 것 아니냐"는 의심을 막기 위해 비-PII 숫자열로만 구성한 hard-negative를 붙였는데, 이 셋에서 오탐률(hard-neg FPR)이 0.006~0.056에 그칩니다. 숫자의 존재 여부가 아니라 그 숫자열의 형식에 반응한다는 뜻입니다.

읽는 방식도 단서가 될 수 있어, 전 클래스의 숫자를 동일하게 자릿수 발음("공일공…")으로 통일했습니다. 같은 낭독 방식인데도 PII가 구분되므로, 모델이 읽는 방식의 차이를 외운 것이 아닙니다.

음색·코덱·무음 길이 같은 부수 조건은 모든 클래스가 동일 화자풀·16kHz·노이즈 패딩을 공유하도록 강제해 차단했습니다. 학습에 한 번도 안 나온 화자로만 평가하는 LOSO에서도 ROC 0.99를 유지하므로, 이런 부수 조건에 기댄 결과가 아닙니다.

끝으로, 소규모 데이터라 특정 초기값에 과적합됐을 가능성도 점검했습니다. seed를 3회(42·43·44) 바꿔도 simple_cnn의 성능 편차가 ±0.01에 불과하므로, 우연한 과적합이 아니라 안정적인 결과입니다.

5운용점별 거동

프리필터는 임계값(threshold)을 어디에 두느냐에 따라 재현율–정밀도가 달라집니다. 운용점마다 값을 모두 노출합니다.

v1 운용점 (합성 분포 기준 추정)
임계값재현율정밀도STT 절감*hard-neg FPR
0.2 (고재현율)0.9980.88741.6%0.089
0.30.9940.93344.9%
0.50.9270.98651.5%0.006

* 절감률은 합성 분포 기준 추정치. 고재현율 운용점(0.2)의 hard-neg FPR은 0.089이며, 0.006은 임계 0.5(재현율 0.927)에서의 값

02 · Speaker Generalization

실험 2 — 화자가 바뀌어도 버티는가

화자 3명의 점수는 과적합 의심을 피할 수 없습니다. 화자를 14명으로 늘리고, "학습에 한 번도 안 나온 화자"로만 평가하는 leave-one-speaker-out(LOSO)으로 일반화 성능을을 봤습니다. 다만 그 전에, 합성 화자가 발화마다 같은 사람으로 들리도록 만드는 선결 과제부터 풀어야 했습니다.

1왜 화자를 늘렸는가

실험 1의 LOSO ROC는 0.99로 높았지만 화자가 3명뿐이라, 한 화자가 통째로 빠지면 fold 평균이 크게 흔들립니다(분산 ±0.28). 일반화를 정직하게 말하려면 화자 표본을 늘려 이 분산을 줄여야 했습니다. 데이터셋도 v2로 바꿔 PII 유형을 전화·주민·계좌·카드 4종으로 확장했습니다.

2선결 과제 — "같은 화자"를 어떻게 보장하나

LOSO가 성립하려면 한 화자의 정체성이 발화 간 일관되어야 합니다. 그런데 TTS의 VoiceDesign만으로 14명을 만들면, 같은 화자 안의 변동이 화자 사이의 변동보다 커서(within > between) 애초에 "화자"라는 단위가 성립하지 않았습니다.

화자 일관성 방법론 비교
방식화자 내 (within)화자 간 (between)ratioLOSO
VoiceDesign 단독0.03770.02290.61불가
reference → Base voice-clone0.01060.02422.29가능

해법은 화자별로 reference 1개만 VoiceDesign으로 설계하고, 전 발화를 Base 모델로 clone하는 것이었습니다. 화자 내 변동이 1/3.5로 줄어 ratio가 0.61→2.29로 뒤집혔습니다.

0 0.02 0.04 평균 거리 0.0377 0.0106 화자 내 (작을수록 좋음) 0.0229 0.0242 화자 간 (클수록 좋음) VoiceDesign 단독 reference→clone
정직한 한계이들은 단일 Qwen 계열의 설계 합성화자입니다. 화자 간 거리가 0.024로 좁아, 실화자의 다양성을 대표하지 않습니다.

3in-distribution 결과 — 강점과 약점 발견

v2 in-distribution (14화자, 4 PII, n_test=331)
재현율정밀도정확도F1ROChard-neg FPR@0.5
0.9890.7080.7610.8260.9020.542

재현율은 0.989로 매우 높지만(331개 중 단 2개 누락), 동시에 음성 142개 중 77개를 오탐하는 hard-neg FPR 0.542라는 약점이 함께 드러납니다. 이 정밀도 약점 때문에 단독 결정기로 쓰기는 어렵고, 정밀 판별은 후단 STT+NLP가 맡습니다(실험 4).

혼동행렬 (n=331) 예측: PII 예측: 비-PII 실제 PII 실제 비-PII 187 TP · 정탐 2 FN · 누락 77 FP · 오탐 65 TN · 정상기각 재현율 0.989 정밀도 0.708
프리필터로서 "놓치지 않음"은 이상적이나, 단독 결정용으로 쓰기엔 오탐이 존재.

4LOSO — 학습에 없던 화자로만 평가

14명을 하나씩 빼고 학습한 뒤 그 화자로만 평가합니다(14-fold).
집계 결과 F1@0.5 0.861±0.102 / 재현율 0.891±0.177 / ROC 0.964±0.029입니다.

0 0.5 1.0 LOSO F1 0.616 v1 · 3화자 ±0.28 0.861 v2 · 14화자 ±0.10
화자 수가 늘자 fold 분산이 약 1/3로 줄었으나, 일부 fold(spk13 재현율 0.438)에서는 여전히 큰 화자 변동.

5왜 ROC는 0.96인데 운용점은 흔들리나

ROC-AUC는 임계와 무관한 랭킹 능력이고, 고정 0.5의 F1/FPR은 특정 운용점 성능입니다. 화자마다 점수 분포가 평행 이동하면 같은 0.5가 어떤 화자에겐 과다, 어떤 화자에겐 과소가 됩니다. 즉 랭킹은 화자에 일반화되지만, 고정 임계의 운용점은 화자별 보정 없이는 보장되지 않습니다. v2에서 14화자로 늘리자 val-튜닝 F1(0.855)과 고정 0.5(0.861)가 거의 같아져, 설계화자 풀 안에서는 운용점이 안정화됐습니다.

03 · PII-Type Generalization

실험 3 — 학습에 없던 PII 유형도 탐지되는가

화자 일반화 다음은 유형 일반화입니다. 주민·카드·계좌를 각각 통째로 학습에서 빼고 그 유형으로만 평가하면, 모델이 "유형별 숫자 패턴을 외운 것"인지 "더 일반적인 특징을 배운 것"인지가 드러납니다.

1왜 유형을 제외했는가

만약 모델이 "주민번호는 이렇게 생겼다"를 유형별로 암기했다면, 학습에서 빠진 유형은 못 잡아야 합니다. 반대로 미학습 유형도 잡힌다면, 유형을 가로지르는 공통 특징을 배운 것입니다. 이 공통 특징이 무엇인지가 곧 모델의 정체입니다.

2설계 — 평가셋 구성을 명확히

학습 구성
  • 전체 negative + (held 제외한) positive
  • 제외 대상: 주민 / 카드 / 계좌 각각
평가 구성
  • held 유형 positive 전부
  • + 전체 negative에서 무작위 추출(held의 2배)
측정의 의미
  • held recall: held positive에만 계산 → 깨끗
  • overall precision: 무작위 negative에 영향받음

여기서 두 지표의 성격이 다릅니다. held recall은 held 유형 positive에만 계산되어 negative 구성과 무관한 깨끗한 측정값입니다. 반면 overall precision은 무작위 추출된 negative(충돌형 hard-neg 포함)에 영향을 받으며, 충돌 비중을 통제하지 않았습니다.

3결과 — 미학습 유형의 높은 재현율

held-out-PII (유형 간 전이)
제외 유형held recalloverall precisionROC
주민번호 (13자리)0.9780.5700.935
카드 (16자리)0.9110.968
계좌 (10~14자리)0.8840.938
0 0.5 1.0 held recall 0.978 주민 (13) 0.911 카드 (16) 0.884 계좌 (10~14) overall precision 0.570 (주민)
한 번도 안 배운 유형도 recall은은 0.88~0.98. 그러나 점선의 overall precision은 0.570으로 낮기에 잡지만 헛집기도 많이 한다는 신호가 여기서도 반복.

4해석 — 유형을 가로지르는 특징 전이

미학습 유형이 잡힌다는 건 "유형별 숫자 패턴 암기"가 아니라 유형을 가로지르는 공통 음향 특징이 전이됨을 보입니다. 학습에서 빠진 유형도 높은 재현율로 검출되므로, 모델은 유형마다의 형식이 아니라 연속 숫자열에 공통된 음향 패턴을 학습했다고 볼 수 있습니다.

5남은 의심

지금까지의 실험에서 정밀도(오탐)가 약점으로 반복됐습니다. 그렇다면 기존 방식인 STT+NLP는 같은 데이터에서 어떤 정밀도를 내며, 이 모델과 비교해 두 경로는 경쟁 관계일지 상보 관계일지 알아보겠습니다.

04 · STT+NLP Comparison

실험 4 — 정설 STT+NLP와 정면으로 비교하면

음향 기반 CNN은 재현율은 높지만 정밀도가 약했습니다. 형식을 텍스트로 읽는 STT+NLP는 정밀도에서 앞설 것입니다. 동일 test split·동일 라벨·동일 지표로 둘을 비교했습니다.

1왜 비교했는가

CNN의 가치를 정직하게 말하려면 기존 경로와 같은 자 위에서 재야 합니다.
현존 오픈소스 최상위 모델인 Whisper-large-v3를 이용한 STT+NLP와 비교하려 합니다.
- STT=Whisper-large-v3(한국어 숫자를 아라비아로 정규화)
- NLP=규칙기반(형식: 전화 11·주민 13·카드 16·계좌 10~14, 문맥: 키워드와 NEG_KW로 형식충돌 기각).

2설계 — 공정성 장치

CNN은 연속 확률이고 STT+NLP는 규칙 이진 출력입니다. CNN을 0.5에 고정해 단일 F1만 비교하면 CNN에 불리하므로, 임계를 조정해 재현율을 STT+NLP 이상으로 맞춘 대조를 함께 보고합니다.

3결과 — 동일 분포 직접 대조

v2 동일 분포 (n=331)
접근F1재현율정밀도hard-neg FPR지연
CNN @ thr0.50.8260.9890.7080.5420.344 ms
STT+NLP (형식만)0.8830.9210.8490.218~360 ms
STT+NLP (형식+문맥)0.9350.9210.9510.063~360 ms
정밀도 (높을수록 오른쪽) → ↑ 빠름 (지연 낮음) 상단=빠름 · 우측=정밀 0.71 0.95 CNN 정밀 0.708 · 0.344ms · ≈1000× 빠름 STT+NLP 정밀 0.951 · ~360ms
둘은 대각선의 양 끝에 존재. 한쪽이 다른 쪽을 지배하지 못하기에 합치면 우상단으로 갈 여지.

4결론 — 상보적 구조

실험 4에서 STT+NLP는 예상대로 정밀도에서 앞섰습니다. 형식과 문맥을 텍스트로 직접 확인하기 때문에 hard-negative를 더 잘 걸러냈습니다.

반면 CNN은 정밀도는 낮았지만 지연 시간에서 압도적으로 유리했습니다. 0.344ms 수준으로 동작해 STT+NLP 대비 약 1000배 빠르게 후보를 선별할 수 있었습니다.

따라서 이 결과는 CNN이 STT+NLP를 대체한다는 결론이 아닙니다. CNN은 빠른 앞단 선별기, STT+NLP는 정밀한 후단 판별기입니다. 한쪽이 다른 쪽을 완전히 지배하지 않았기 때문에, 두 방식을 결합할 근거가 생겼습니다.

05 · Two-Stage Pipeline Economics

실험 5 — 합치면 비용과 정밀도가 얼마나 좋아지나

CNN 게이트 → STT+NLP 확정의 2단계를 라이브 구축 없이, 동일 데이터 위에서 측정했습니다.

2설계 — 같은 데이터 위에서 결합

결합 방식
  • CNN per-clip 확률(표준 v2)
  • + Whisper 전사 + 규칙 NLP 라벨
  • 동일 데이터에서 단계 결합
테스트 구성
  • pos 189 / hard 86 / easy 76
  • easy는 비용분석용으로 인스턴스 분할 포함
측정
  • 단계별 지연, threshold 스윕
  • prevalence 스윕(@thr0.3)

단계별 지연은 CNN 6.7ms/clip 대 STT 448ms/clip으로 66.5× 차이입니다. 게이트로 STT 호출을 줄이는 것이 절감의 원리입니다.

3결과 — 성능 손실 없이 비용과 지연을 줄일 수 있는 구간이 존재

threshold 스윕 — 게이트가 정확도를 해치지 않는 구간
게이트 임계PII 누수2단계 재현율2단계 정밀도
thr ≤ 0.200.9211.0
thr 0.5+~9%1.0

게이트를 thr≤0.2로 두면 PII 누수가 0이라 STT-전량과 동일 정확도(재현율 0.921·정밀도 1.0)를 유지하면서 비용만 줄입니다. 정밀도는 게이트와 무관하게 후단(2단계)이 결정하므로, 게이트의 유일한 대가는 재현율 누수입니다.

4결과 — 절감폭은 prevalence가 지배

prevalence 스윕 (@thr0.3)
트래픽 중 PII 비율STT 호출 절감속도 배수
1% (현실 추정)92.9%11.7×
5%89.2%8.1×
20%75.2%3.8×
50% (합성 분포)46%1.8×
10× 속도 배수 11.7× 8.1× 3.8× 1.8× 1% 5% 20% 50%(합성) 트래픽 중 PII 비율 (prevalence)
현실(PII 1~5%)에서 6~12×, 합성 50/50에서는 1.8×.

5추가 서술

  • 모든 STT 수치는 합성 best-case 상한(정밀도 1.0, STT 448ms는 상한). 실제 음성성 열화는 미반영.
  • easy-negative를 인스턴스 분할해 test에 포함했으므로 mild template 누수가 있으나, 통과율 추정엔 영향이 미미
  • prevalence·easy:hard 비율은 가정값이며, 라이브 큐잉/배칭 오버헤드는 미반영.
06 · Limitations & Conclusion

한계와 결론 — 정직하게 종합하면

다섯 단계의 결과를 모으면 하나의 인과로 수렴합니다. 모델이 반응하는 신호가 강점과 약점을 동시에 설명합니다.

1강점과 약점이 같은 원인

가장 중요한 인과입니다. 주민·카드·계좌가 모두 연속 숫자열이라 한 유형에서 다른 유형으로 전이되는 것(강점)과, 9~11자리 주문번호가 전화/계좌와 음향적으로 비슷해 구분되지 않는 것(약점)은 같은 메커니즘입니다. 그래서 calibration만으로는 정밀도가 잘 고쳐지지 않습니다
두 클래스가 입력 표현 공간에서 실제로 겹쳐 있기 때문입니다.

강점

  • 초고속·초경량 0.344ms/60.7K
  • 매우 높은 재현율 0.989
  • 통제 artifact 비의존
  • 유형을 가로지르는 특징 전이

약점

  • 운용 정밀도 낮음(FPR 0.542)
  • 형식충돌 본질 한계(order FPR 0.733)
  • 전부 합성음
  • 정밀 형식 판별은 후단(STT+NLP) 담당

3입증된 것과 입증하지 못한 것

입증된 것

  • 합성음 v1 F1 0.955 / v2 재현율 0.989 / 0.344ms·60.7K
  • 통제 artifact 비의존
  • 화자 LOSO ROC 0.96~0.99, 분산 v1→v2 1/3 감소
  • 미학습 유형 recall 0.88~0.98 (공통 특징 전이)

입증하지 못한 것

  • 실통화(잡음·코덱·리버브) 성능
  • 운용 정밀도의 충분성
  • 실화자 일반화
  • 문맥상 실제 민감성 판단
  • STT의 WER/CER 수치 반영

5최종 결론

합성음 한정으로, STT 없이, 통제 artifact에 비의존하여, 연속 숫자열을 화자·PII 유형 너머로 고재현율 선별하는 경량 검출기의 feasibility를 보였습니다. CNN(고재현율·초고속·저정밀)과 STT+NLP(고정밀·문맥강함·느림)는 상보적이며, 2단계 결합의 이득은 트래픽 prevalence가 지배합니다. 모든 절대값은 합성 best-case 상한이며, 실통화 검증은 Phase 4의 과제로 남습니다.

김현찬, 박승진, 강진구