Prediction of Postoperative Voice by Speech Synthesis in Benign Laryngeal Diseases.

Baek, Moo Jin; Hwang, Bu Hyun; Wang, Soo Geun

Korean Journal of Otorhinolaryngology-Head and Neck Surgery > Volume 45(3); 2002 > Article

Original Article
Head and Neck

Korean Journal of Otorhinolaryngology-Head and Neck Surgery 2002;45(3): 279-284.

Prediction of Postoperative Voice by Speech Synthesis in Benign Laryngeal Diseases.

Moo Jin Baek, Bu Hyun Hwang, Soo Geun Wang

¹Department of Otolaryngology-Head and Neck Surgery, College of Medicine, Inje University, Pusan Paik Hospital, Pusan, Korea.
²Department of Otolaryngology-Head and Neck Surgery, College of Medicine, Pusan National University, Pusan, Korea.

양성후두질환에서 합성음성을 이용한 수술 후 음성의 예측

백무진¹ · 황부현¹ · 왕수건²

인제대학교 의과대학 부산백병원 이비인후과학교실1;부산대학교 의과대학 이비인후과학교실2;

주제어: 양성후두질환ㆍ음성예측ㆍ선형예측분석.

ABSTRACT

BACKGROUND AND OBJECTIVES:
Though patients who have undergone surgery due to pathologic voice with benign laryngeal diseases are concerned about postoperative voice quality, there was no way to propose postoperative voice objectively. For this reason, the authors studied to synthesize predictive postoperative voice based on preoperative voice.
MATERIALS AND METHOD:
The authors evaluated 47 patients who experienced laryngeal microsurgery due to pathologic voice with benign laryngeal diseases. The voice was analysed by Computerized Speech Lab 4300B. Linear Prediction and Pitch Synchronous Overlap and Add methods were used to synthesize the predictive voice. Assessments for the synthetic voice were sound waves, spectrographic patterns with preoperative voice, and an acoustic evaluation of the postoperative voice.
RESULTS:
Synthetic voice showed improvement of noise component in a high frequency range that was seen in preoperative voice on spectrographic analysis. In the perceptual test, the degree of similarity in both postoperative and synthetic voice was similar and almost the same in 75% of test voice.
CONCLUSION:
The synthesized voice from this program was not completely identical to the real postoperative voice, but most of the tested synthetic voice was satisfactory in the perceptual test. So we conclude that this study is meaningful as a first trial that showed the possibility of synthesizing a postoperative voices by using its preoperative voice.

Keywords: Prediction of postoperative voiceㆍLinear prediction analysisㆍPitch synchronous overlap and add methods

교신저자：백무진, 614-735 부산광역시 부산진구 개금동 633-165 인제대학교 의과대학 부산백병원 이비인후과학교실
전화：(051) 890-6376 · 전송：(051)892-3831 · E-mail：mjbaek@ijnc.inje.ac.kr

서 론

   양성후두질환으로 인한 음성 장애로 수술을 받는 환자는 원인이 되는 병변의 완전한 제거와 함께 수술 후 음성의 회복 정도에 많은 의문을 가지게 된다. 수술 후의 음성을 예측하는 것은 이제까지의 경험과 문헌에 기술된 정보를 이용하여 환자에게 막연하게 제시할 수밖에 없었다. 수술 후의 결과를 예측하는 방법으로 성형수술 전 그래픽 시뮬레이션을 통해 수술 후의 모습을 제시해주는 경우가 있다. 이와 같이 음성 장애로 수술을 받는 환자에게는 수술 후의 결과를 음성으로 들려주는 것이 가장 효과적인 방법일 것이다.
   음성은 성대의 진동으로 형성된 후두 원음(voice source)이 성도(vocal tract)를 거치면서 공명하여 형성되며 성도의 해부학적 특성에 따라 음성만 들어도 개인을 구별할 수 있을 정도의 특이한 음색이 결정된다.¹⁾ 양성후두질환에서 병변은 성대 즉 음원부에만 국한되어 있다. 따라서 장애 음성을 음원부와 성도부로 분리하고 비정상적인 부분을 포함하고 있는 음원부 음성의 특성을 향상시킨 후 재합성하면 음질의 변화없이 음성의 개선을 가져올 수 있고 이 음성은 후두미세수술로 성대부의 이상을 제거한 후의 음성과 유사할 것이라 기대된다. 그러나 이러한 방법은 아직 시도된 바가 없는데 그 이유는 음성합성 프로그램의 개발과 이를 활용할 수 있는 시스템을 구축하기 위하여 필수적인 의학 외적인 많은 부분이 필요하기 때문이라 생각된다.
   본 연구의 목적은 양성후두질환 환자에서 수술 전 음성 분석 결과를 토대로 수술 후 음성을 예측하기 위한 음성 합성 프로그램을 개발하고자 하였고 아울러 본 프로그램에 의한 합성음과 수술 후 음성을 비교하여 합성음의 신뢰도와 임상에서의 유용성을 알아보고자 본 연구를 시행하였다.

대상 및 방법

대 상
   1998년 1월부터 2000년 3월까지 음성장애를 주소로 부산대학교병원 이비인후과에 내원하여 음성의 개선을 위해 후두미세수술을 시행받은 환자 중 수술 후 조직검사상 양성후두질환으로 확진되고, 수술 전후에 음성검사가 가능하였던 47례를 대상으로 하였다. 성별 분포는 남자 29명, 여자 18명이었고, 연령 분포는 26세부터 62세까지였으며 평균 45.3세였다. 질환 분포는 성대 용종 44례, 성대 낭종 3례였다. 각 변수의 정상치를 알아보기 위한 대조군은 구강 및 후두 질환이 없고 정상 발성이 가능한 남자 37명, 여자 13명이었고, 연령 분포는 20세부터 65세까지였으며 평균 39.5세였다.

방 법
   수술 후 예견되는 음성의 합성과 실제 수술 후 음성을 비교하기 위하여 저자들이 선택한 문장(높은 산에 올라가 푸른 하늘을 보면 … )을 수술 전과 후에 낭독시킨 후 Digital Audiotape Recorder(DAT, DTC-59ESJ, Sony, Japan)에 녹음하였다. 수술 후 예측 음성의 합성은 수술 전 녹음된 음성에서 모음 성분만을 추출한 후 모음 성분에 대한 비정상적 특성을 향상시킨(enhancement) 후 다시 자음 성분을 결합하여 원래의 문장으로 합성하였다.
   모음 성분의 특성을 향상시키는 방법은 음성 신호를 분석 후 이 신호를 선형예측분석(Linear Prediction) 및 Pitch Synchronous Overlap and Add methods(PSOLA)에 의해 각 피치별로 구분한 후 음원부의 신호를 추출한 다음 음원부의 비정상적 특성(jitter, shimmer, noise 성분)을 원음과 차이가 없는 범위내에서 수정하여 향상된 음원부의 음성을 얻은 후 성도부(vocal tract)의 신호를 더하여 전체적 음질의 변화없이 개선된 음성을 얻도록 하였다.

선형예측분석법(linear prediction, LP)과 pitch synchronous overlap and add methods(PSOLA)를 이용한 모음성분의 특성향상(Figs. 1 and 2)
   수술 전 음성에 대한 모음 성분은 여러 단계를 거쳐 이루어지게 되는데(Fig. 1) 각 단계별 설명은 다음과 같다.

프리엠퍼시스(Preemphasis)
   프리엠퍼시스 과정은 음성의 음원과 입술 방사 특성을 보완해 주기 위한 것으로 이 과정을 거쳐 성도의 스펙트럼에서 고주파 부분이 강조된다.

선형예측 분석(LPC analysis)
   선형예측 분석 과정으로 성도의 특성을 나타내는 필터 계수를 추출하는 과정이다.

선형예측 오차신호(LPC error signal)
   원래의 음성신호로부터 선형예측에 의해 예측된 신호를 뺀 것으로 음성의 음원부에 해당한다. 그러나 원래의 음원과 같지는 않고 음원의 변화와 유사한 신호가 계산된다.

PSOLA 분해(PSOLA decomposition)
   선형예측 오차신호를 개별 피치 구간에 따라 각각을 분리하는 과정이다. 분리된 개별 피치 구간에서 주기, 강도 및 잡음 성분의 이상을 교정한다. 또한 이 분해과정 자체에서 피치 성분이 강조되는 효과가 있고 jitter와 shimmer 성분의 개선 및 잡음 감소 효과가 발생한다.

PSOLA 합성(PSOLA synthesis)
   개별 피지 구간의 비정상적 요소에 대한 수정을 가한 후 다시 전체 신호를 합성하는 과정

수정된 선형예측 오차(Modified LPC error)
   선형예측 신호의 피치주기와 가중치를 변경하여 jitter, shimmer, noise 성분이 개선된 오차신호이며 LPC 합성시의 음원으로 사용된다.

선형예측 합성(LPC synthesis)
   앞서 구한 선형예측 계수를 이용한 디지털 필터에 수정된 선형예측오차(modified LPC error)를 통과시켜 개선된 음성을 합성한다.

디엠퍼시스(Deemphasis)
   프리엠퍼시스와 반대되는 과정으로 음성신호의 고주파 성분을 줄여주는 역할을 한다.

   이 과정을 실제 음성 파형으로 나타내면 Fig. 2와 같고 각 단계별 설명은 Fig. 2A는 수술 전 음성신호(상단 그림)에서 선형예측 분석법에 의해 선형예측계수를 구하여 성도부분의 신호(중간 그림)를 제거한 후 추출한 음원부의 특성을 포함하고 있는 선형예측오차신호(하단 그림)를 나타내는 것이고 Fig. 2B는 선형예측오차를 개별 피치에 따라 분리(PSOLA 분해)하는 과정이며 Fig. 2C는 분리된 선형예측오차신호를 이용하여 비정상적인 부분에 대한 특성향상을 시킨 후 개선된 예측오차신호를 합성(상단그림) 한 후 제거해 두었던 성도부 성분(Fig. 2A의 중간그림)을 추가한 후 성도부의 특성의 변화없이 음원부의 특성이 향상된 신호(하단그림)를 나타낸 것이다.
   상기의 방법을 프로그램화하여 구현할 수 있는 시뮬레이터를 제작하고 이를 통해 무작위로 추출한 20례의 술전 음성에 대한 예측 음성을 합성하였다.

합성음의 평가

청각학적 평가
   합성음과 수술 후의 음성을 청각적 검사를 이용하여 평가하였다.
   검사음성은 “높은 산에 올라가 푸른 하늘을 보면 … ” 문장으로 수술 전과 후에 녹음된 것 중 수술 후 음성과 합성된 음성을 비교하였다. 평가자는 이전에 이과적인 질환이 없었고 양측 청력이 정상인 10명을 대상으로 하였다. 각 평가자는 20례의 합성음에 대한 평가를 하였다. 음성에 대한 평가 항목은 5단계(같다, 거의 같다, 비슷하다, 다소 다르다, 다르다)로 나누었고(Table 1), 평가자는 검사 음성에 대하여 적정하다고 생각되는 범위를 하나만 선택하여 그것에 대응하는 수치를 평점으로 하였으며 평점의 평균치(mean opinion score)를 구하여 합성음을 평가하였다.

합성음과 수술 전 음성의 음성파형 및 스펙트로그램을 비교하여 수술 전 음성의 개선 정도를 확인하였다.

결     과

LP와 PSOLA을 통해 제작한 시뮬레이터
   본 연구를 위해 제작된 시뮬레이터는 Fig. 3과 같다. 이 도구를 이용해 피치성분 및 shimmer 성분의 개선 및 합성을 위해 사용하였다.
   PSOLA 분석 및 합성프로그램을 이용한 처리과정은 5단계로 구성되어 있다. 먼저 수술 전 음성의 신호를 표시하고(preoperative window) 수술 전 음성의 개별 피치구간을 단구간 에너지법에 의해 분리한다(energy window). 분리된 개별 피치구간은 선형예측법에 의해 성도부분과 예측오차신호로 분리되고 피치의 변화(pitch window)와 강도의 변화(amplitude window)를 별도로 표시된다. 장애 음성의 특성상 피치궤적과 진폭궤적이 불규칙한 형태를 나타내게 되는데 음성의 향상을 위해서는 불규칙한 형태를 규칙적인 형태로의 전환이 필요하고 피치 및 진폭의 궤적을 전체적으로 평균화하면 균일한 형태를 얻을 수 있으나 원래 음성과는 전혀 다른 음성이 형성되기 때문에 소구간별 평균(이동평균법)을 구하여 합성하는 것이 원음의 특성을 보존하는 방법으로 저자들은 3, 5, 7, 9구간까지는 큰 차이가 없이 원음과 유사한 음성을 얻을 수 있어 주로 5구간 이동평균법에 의해 필터링하여 jitter와 shimmer 성분을 개선하였다. 개선된 예측오차신호를 이용하여 [Synthesis] 버튼을 눌러서 합성하며(synthesis window), 합성된 음성은 [Play] 버튼을 눌러서 들을 수 있도록 하였다.

음성파형 및 스펙트로그램 분석 결과
   수술 전 음성과 합성음의 음성파형(Fig. 4)과 스펙트럼분석 결과(Fig. 5), 음성의 파형에서 수술전 음성에 비해 전체적인 파형은 차이가 큰 차이가 없으나 떨림의 정도가 개선되었음을 알 수 있었고, 스펙트럼 분석에서는 수술 전 관찰되었던 고주파 영역의 noise 성분이 개선되었음을 알 수 있었다.

합성음의 평정척도법에 의한 청각학적 평가 결과
   Jitter, shimmer 성분의 이동평균 구간의 변화(구간 3, 5, 7, 9)에 따른 합성음의 청각적 차이는 없었다. 합성음과 수술 후 음성에 대한 청각적 비교 검사한 결과 평균적으로 4점(거의 같다)이 2례(10%), 3점(비슷하다)이 13례(65%), 2점(다소 다르다)이 4례(21%), 1점(다르다)이 1례(4%)로 나타나서 전체 75%에서 합성음의 음질이 비슷하거나 혹은 거의 동일한 수준임을 알 수 있었다(Fig. 6).

고     찰

   발성기관 주위의 질환은 음성의 특성을 바꾸는 경우도 있고 그렇지 않은 경우도 있다. 음성 신호에 의해 질병의 여부를 진단하는 경우는 주로 질환이 음성신호에 영향을 주는 경우에 한정되어 있다. 본 연구에서는 진단목적이 아닌 양성후두질환으로 인한 음성 장애 환자에서 병변을 수술로서 제거한 후에 어떤 음성을 낼 수 있을지 예측하는 방법을 연구하였다. 환자들은 대개 질환에 의해 악화된 자신의 음성이 수술 후에는 어떻게 변할지 알고 싶어한다. 이것은 마치 성형수술을 하기 전 그래픽 시뮬레이션을 통해 수술 후의 모습을 예측해보는 경우와 비슷하다.
   성대에 의한 음성의 형성은 Hirano 등²⁾이 제시한 body-cover model로 설명하고 있다. 성대가 주기적인 진동을 하기 위해서는 공기의 흐름, 즉 호기류가 필요한데 호기류가 성문을 지나면서 발생하는 Bernoulli 효과에 의해 성대가 주기적으로 개폐됨으로써 후두 원음이 발생하게 된다. 따라서 성대의 아주 작은 병변 혹은 변화도 음성에 큰 영향을 미칠 수 있고 병변의 위치와 크기, 종류, 성대 각 층별 침범 정도에 따라 성대 진동에 미치는 양상이 차이가 나기 때문에 음성만 들어도 후두의 병변 상태를 파악할 수 있다.³⁾ 이렇게 형성된 후두 원음은 성도를 지나면서 여과되고 성도의 모양에 따른 특성에 따라 공명현상을 일으켜 입술이나 비강 밖으로 방출되어 개개인마다 특징적인 말소리를 만들어 내는데, 이것이 1970년 Fant¹⁾가 제시한 음원-여과기 이론(sourcefilter theory)이다. Kent⁴⁾는 이 이론이 음성학 분야에서 음성과 언어를 생성하는 여러 음성학적 현상을 이해하는 기본이 되고, 각종 음성 분석 기기의 개발과 음성학적 데이터의 분석 및 음성합성 등 음성학 분야에 기본이 된다고 하였다.
   음성의 형성에 대한 음원-여과기 이론에 따르면 여과기는 공명 조직으로서 여과기의 모양에 따라 여러 가지 발성기관의 위치가 정해진다. 발성자는 음원을 성도의 여과기로 조절하여 원하는 모음을 만들어 낸다. 따라서 포먼트가 모음의 지각적 자질을 결정하는데 중요한 요소이며 발성자마다 공명 구조의 해부학적 차이로 인해 개인별 독특한 음질을 형성하게 된다. 본 연구를 위한 예비 연구에서 수술 후의 음질의 변화에 포먼트의 영향이 있는 지를 알아보기 위하여 수술 전후 음성의 각 모음별 포먼트를 측정하였는데 수술 전과 후의 포먼트에서 각 모음별 통계학적 유의한 차가 없었고,⁵⁾ 포먼트의 에너지 값은 1992년 Yang⁶⁾이 보고한 각 모음별 측정치와 동일한 소견을 보였다. 이는 성대 병변만을 제거한 경우 성도의 해부학적 상태에는 변화가 없다는 것을 반영하는 것으로 수술 후 병변의 재발 및 정상 음성을 유지하기 위하여 시행하는 음성치료로 인하여 턱, 입술, 혀 등 공명기관의 모양에 변화가 올 것으로 생각되어 이를 음성 합성에 고려하고자 하였으나 이로 인한 포먼트의 차이가 없는 것으로 평가되어 본 연구 과정에서 합성 프로그램을 제작시 포먼트의 영향은 배제하고 음원부에 대한 특성 향상 방법이 합당한 방법이라 생각되었다.
   이전의 방법과 차이는 있지만 본 연구에서 사용한 가장 기본적인 방법 중의 하나가 음성합성법이다. 음성 합성은 여러 분야, 특히 정보 통신 분야에서 많이 응용되고 있는데 통화 음질 향상, 음성인식 프로그램의 개발 등 공학적인 측면에서 연구가 활발히 진행되고 있다. 1994년 Bangayan 등⁷⁾과, 1995년 Alwan 등⁸⁾은 병적 음성을 합성해 봄으로서 병적 음성에 관여하는 요소를 역으로 관찰하고자 하는 보고가 있었으며, 음성의학 분야에서 음성 합성법을 활용한 연구들이 보고되고 있다.
   장애 음성의 개선에 관한 연구는 거의 찾아볼 수 없고 일반적인 음성향상(speech enhancement)에 관한 연구는 다수 보고되어 있는데⁹⁾¹⁰⁾¹¹⁾ 이는 잡음에 노출된 정상 음성을 깨끗한 형태로 변환하여 음성 전송이나 음성 인식 등에 이용하는 것으로 단순한 잡음제거가 주목적이었다. 본 연구에서는 정상 음성을 분석하여 그대로 합성하는 기존의 방법에 비해 성대 장애로 야기되는 장애 음성의 특성을 제거 혹은 수정하여 정상 음성에 가까운 음성을 만들어 내고자 하는 것으로 성대의 질환에 의한 불규칙성을 제거한 음성을 만들어 정상 음성을 시뮬레이션 하고자 하는 것으로 이를 위해서는 기존의 잡음 제거 방법과는 다른 음성개선 방법이 필요하였고 주기성과 강도의 불규칙성을 동시에 제거하여 개선된 음성을 합성하고자 하였다. 선형예측 오차 신호는 음성의 음원을 추정하는 것으로 볼 수 있고 이것을 PSOLA 성분으로 분해하는 과정에서 강도에 대한 noise 성분이 줄어들며 기존의 피치궤적의 형태를 유지하므로 피치 스무딩을 행하여 체계적으로 jitter 성분을 줄이고자 하였다. 이 과정에서 발성자 고유의 음향적 특성을 유지하면서 장애부분인 성대의 불규칙성을 줄여 줌으로써 수술 후의 음성과 유사한 음성을 합성할 수 있을 것으로 생각되었다.
   합성음에 대한 분석 결과는 피치 궤적과 스펙트로그램 분석상 수술 전 음성에서 관찰된 고음역의 noise 성분이 개선됨을 알 수 있었는데 이는 합성음이 수술 전 병적 음성에 혼재되어 있는 잡음 성분이 적절히 제거되었음을 보여주는 객관적인 증거로 생각되었고, 청각적 검사에서 검사대상 75%에서 비슷하거나 혹은 거의 동일하다는 결과로 본 연구에서 합성된 합성음이 만족할 만한 정도임을 알 수 있었다. 또한 청각학적 차이가 나는 경우(3점 미만：다르다, 약간 다르다, 전체 25%)를 분석해 보면 환자의 발성 패턴 즉 문장을 읽는 속도와 강도 등에서 수술 전후 및 합성음에서 차이가 많이 나는 것이 확인되었는데 이는 동일한 화자가 결코 물리적으로 똑같은 발음을 두 번 이상하지 않는다는 화자내 변이가¹²⁾ 중요한 요인으로 생각되었고 이에 대한 영향을 줄이기 위해서는 막연한 편안한 세기와 높이라는 추상적인 방법보다는 수술 전에 발성하였던 상황을 정량적인 방법으로 재현할 수 있는 방법도 고안되어야 할 것으로 생각되고 음질에 영향을 미칠 수 있는 비언어적인 요소(나이, 성별, 감정상태 등)에 대한 표준화된 방법에 대한 연구도 동반되어야 할 것으로 생각된다.

결     론

   본 연구에서 제작한 프로그램을 이용한 합성음의 청각학적 검사 및 스펙트로그램 분석상 합성음이 만족할 만한 정도임을 알 수 있었다. 따라서 본 연구가 수술 전 음성을 이용한 수술 후 예측 음성의 합성에 대한 가능성을 제시한 첫 연구로서 중요한 의미를 가진다고 생각되었다. 청각적 검사에서도 완벽한 음성을 합성하기 위해서는 음원 특성 외에 성도의 특성이나 발성 패턴의 변화 등과 같은 현재까지 파악이 불가능한 수술 전후에 환자에 가해지는 언어적 및 비언어적 요소에 대한 연구도 동반되어야 하며 어떤 부위를 어떻게 수술하였기 때문에 어느 정도 개선된다는 식의 함수 관계를 규명하기 위한 보다 많은 연구가 필요할 것으로 생각되었다.

REFERENCES

Fant G. Acoustic theory of speech production, 2nd Ed. The Hague; Mouton;1970.
Hirano M. Morphological structure of the vocal cord as a vibrator and its vibrations. Folia Phoniatr 1974;26:89-94.
Koike Y, Takahashi H, Calcatera TC. Acoustic measurements for detecting laryngeal pathology. Acta Otolaryngol 1977;85:105-17.
Kent RD. Vocal tract acoustics. J Voice 1993;7:97-117.
Baek MJ, Hwang BH, Eom JW, Lee BJ, Wang SG. Comparison of voice before and after surgery in benign laryngeal diseases. J Clinic Otolayngol 2001;12:65-79.
Yang BG. An acoustical study of Korean monophthongs produced by male and female speakers. J Acoust Soc Am 1992;91:2280-3.
Bangayan P, Alwan A, Kreiman J, Long C. Synthesis of severely pathological voices. J Acoust Soc Am 1994;95:28-32.
Alwan A, Bangayan P, Kreiman J, Long C. Time and frequency synthesis parameters for severe pathological voice qualities. Proceedings of ICPhS95；1995 August; Stockholm, Sweden;1995. p.250-3.
Wong DY, Markel JD, Gray AH. Least squares glottal inverse filtering from the acoustic speech waveform. IEEE Trans on Acoustics Speech and Signal Processing 1979;27:350-5.
Yagnanarayana B, d'Alessandro, Christophe, Darsino, Vassilis. An Iterative algorithm for decomposition of speech signals into periodic and aperiodic components. IEEE Trans on Speech and Audio Processing 1998;6:12-6.
Hermes DJ. Synthesis of breathy vowels: some research methods. Speech communication 1991;10:497-502.
Yang BG. An acoustical study of vowels. Proceedings of the 1st international conference of speech 1994; Seoul national university. Seoul;1994. p.113-24.