본문 바로가기

mel spectrogram

(7)
[음성 합성]WaveNet, HiFi-GAN 1. WaveNetWaveNet은 딥러닝 기반의 오디오 생성 모델이다. 특히 사람의 음성처럼 자연스러운 오디오 파형을 직접 생성하는 데 혁신적인 발전을 가져왔으며, 기존의 음성 합성 기술의 한계를 뛰어넘는 성능을 보여주었다. 📌 특징WaveNet은 raw 오디오 파형(waveform)을 직접 생성하는 최초의 딥러닝 모델이라는 점에서 큰 의의를 가진다. 즉, 음성 신호를 중간 특징으로 변환하지 않고, 수만 개의 오디오 샘플로 이루어진 원본 파형 자체를 예측하는 방식을 취한다. 1. 자기회귀(Autoregressive) 모델WaveNet은 자기회귀 모델이다. 이는 현재 시점의 오디오 샘플 값을 예측할 때, 이전 시점까지의 모든 샘플 값에 조건화되어 예측한다는 의미이다. 즉, 하나의 오디오 샘플을 순차적으..
[음성 합성]병렬 음성 합성 모델(FastSpeech2) 1. FastSpeech2 딥러닝 기반의 TTS는 크게 자기회귀(Autoregressive) 모델과 비자기회귀(Non-Autoregressive) 모델로 나눌 수 있다. 자기회귀 모델 (Tacotron, Tacotron2): 이전 시점의 출력이 다음 시점의 입력으로 사용되는 방식이다. 이 모델들은 매우 자연스러운 음성을 생성할 수 있지만, 음성 생성 속도가 느리다는 단점이 있다. 모든 음성 프레임을 순차적으로 생성해야 하므로 긴 문장일수록 시간이 오래 걸린다. 또한 Attention 메커니즘이 특정 단어를 건너뛰거나 반복하는 등 정렬(alignment) 오류를 일으킬 가능성도 있다.FastSpeech (FastSpeech1): 각 음소(phoneme)가 얼마나 오랫동안 발음되어야 하는지(duration)..
[딥러닝]ASR 시스템, CTC, Transformer 1. ASR 시스템 구성 요소 음성 프론트엔드 (Feature Extraction)목적: 원시 파형에서 모델 학습/예측에 적합한 특징 벡터를 추출주요 기법:MFCC: 인간 청각 특성을 묘사한 Mel 스케일러 주파수 축을 변환하고, 로그 스펙트럼의 DCT 계수를 취함Mel-Spectrogram: STFT -> Mel 필터뱅크 -> 로그 스케일 -> 정규화PLP (Perceptual Linear Prediction), Filterbank Energies, Pitch & Energy Features 등어쿠스틱 모델 (Acoustic Model)목적: 추출된 특징이 특정 음소나 글자에 해당할 확률을 계산전통적 접근:HMM-GMM: 은닉 마르코프 모델(HMM)으로 시뭔스 모델링, 혼합 가우시안(GMM)으로 각 상..
[딥러닝]ANN,SLP, MLP 기본 개념 및 구조 1. ANN(Artificial Neural Network) 📌 ANN인공신경망은 인간의 뇌 구조를 모방한 기계 학습 모델로, 주로 패턴 인식, 분류, 예측 등의 문제 해결에 사용된다. SLP(Single Layer Perceptron)이진 분류 문제에서 단순한 예측 결과를 출력한다.입력 데이터 X에 대해 하드코딩된 가중치 W 와 편향 b을 적용하여 선형 변환을 수행한다.시그모이드 활성화 함수로 출력값을 계산한다.import numpy as np# 시그모이드 활성화 함수(입력값 z를 0~1 사이의 값으로 매핑)def sigmoid(z): return 1 / (1 + np.exp(-z))# SLP 구현 (하드 코딩된 가중치와 편향)def forward_slp(X, W, b): Z = np.d..
[음성 처리]MFCC, Mel-Spectrogram, STFT 1. MFCC(Mel-Frequency Cepstral Coefficient) 📌 MFCC란?MFCC는 음성 신호를 사람이 지각하는 주파수 특성에 맞춰 요약한 계수 집합이다. 음성 인식/화자 식별/감정 분석 등 음향 모델 입력 특징으로 가장 널리 쓰인다. 계산 과정은 필터뱅크, 로그, DCT 단계로 이어지며 12~13개 정도의 저차원 벡터가 한 프레임을 대표한다. 사람의 귀는 저주파에 더 민감하여 Mel 스케일을 통해 실제 주파수 축을 비선형적으로 압축해 청각 대역폭을 근사한다. Pre-emphasis고주파가 상대적으로 약한 현상을 보정하기 위해 1차 고역 통과 필터를 적용한다.Framing & Windowing20~25 ms 길이로 신호를 잘라 각 프레임에 윈도우를 곱한다.FFT(푸리에 변환..
[음성 처리]노이즈 제거(Reduction), 정규화(Normalization), 증강 기법(Augmentation) 1. 노이즈 제거(Noise Reduction/Denoising) 📌 노이즈 제거란?음성 신호에는 주변 환경 소리, 전자 장비 험, 바람 등 다양한 잡음이 함께 섞여 들어간다. 노이즈 제거는 이러한 불필요한 성분을 줄이거나 제거해 음질을 높이고 음성 인식이나 화자 인식 모델의 오류를 감소시키는 전처리 단계이다. - 정적 잡음: 마이크 험, 팬 모터음처럼 주파수 대역이 일정.- 비정적 잡음: 자동차 경적, 사람 말소리 겹침 등 시간적으로 변동이 큼. 📌알고리즘스펙트럼 서브트랙션무음 구간에서 잡음 파워 스펙트럼 N(f)을 추정한 뒤 전체 스펙트럼 X(f)에서 N(f)만큼 빼서 S(f)를 얻는다.S(f)=max(X(f)−α⋅N(f),β⋅N(f))위너 필터(Wiener Filitering)주파수별 신호 ..
[음성 처리]공개 데이터셋 활용, 데이터 전처리 개요 1. 공개 데이터셋 활용 📌 공개 데이터셋음성인식 시스템은 입력 음성 신호를 텍스트로 변환하는 기술이다. 이 시스템을 학습하기 위해서는 대량의 음성 데이터와 그에 대응하는 텍스트가 필요하다. 공개 데이터셋은 다양한 발화자와 억양, 환경을 포함한 데이터 다양성을 확보하며 비용 없이 즉시 사용가능한 학습 데이터를 제공하고 학술/산업계에서 널리 쓰이며 모델 성능 비교 기준(Benchmark)으로 활용 가능하다. 📌 데이터셋 구성 요소오디오 파일: 실제 음성 데이터텍스트 전사(transcript): 오디오와 1:1 대응되는 텍스트발화자 정보: 성별, 나이, 지역 등메타데이터: 파일명, 길이, 라벨 등 📌 대표적인 공개 음성인식 데이터셋데이터셋 이름언어크기특징LibriSpeech영어1000시간 이상오디..