| Home | E-Submission | Sitemap | Editorial Office |  
top_img
Korean Journal of Otorhinolaryngology-Head and Neck Surgery > Volume 42(9); 1999 > Article
Korean Journal of Otorhinolaryngology-Head and Neck Surgery 1999;42(9): 1160-1168.
The Vocal Tract and Speech Intelligibility of Tracheoesophageal Shunt Patients after Total Laryngectomy.
Cheul Su Kim, Soo Geun Wang, Woo Young Shim, Hyung Jin Park, Chang Su Kim, Jung Hwan Park, Hyeong Jun Jang, Suk Hun Lee, Suck Hong Lee, Byung Gon Yang, Moo Jin Baek, Cheol Woo Jo
1Department of Otolaryngology, College of Medicine, Pusan National University, Pusan, Korea. wangsg@hyowon.cc.pusan.ac.kr
2Department of Diagnostic radiology, College of Medicine, Pusan National University, Pusan, Korea.
3Department of English, College of Humanities, Dongeui University, Pusan, Korea.
4Department of Otolaryngology, College of Medicine, Inje University, Pusan Paik Hospital, Pusan, Korea.
5Department of Control and Instrumentation Engineering, Changwon National University, Changwon, Korea.
후두전적출술후 기관식도발성에 의한 음성재활환자의 성도와 발성명료도
김철수1 · 왕수건1 · 심우영1 · 박형진1 · 김창수1 · 박중환1 · 장형준1 · 이석훈1 · 이석홍2 · 양병곤3 · 백무진4 · 조철우5
부산대학교 의과대학 이비인후과학교실1;진단방사선과학교실2;동의대학교 인문대학 영어영문학과3;인제대학교 의과대학 부산백병원 이비인후과학교실4;창원대학교 제어계측공학과5;
주제어: 후두전적출술성도기관식도누공.
ABSTRACT
BACKGROUND AND OBJECTIVES:
In this paper, rehabilitation of voice after total laryngectomy has been suggested through the correct estimation and simulation of patients' vocal tract. Material and
Methods:
The author studied the shape of vocal tract during the phonation of five Korean vowels /u, o, a, e, i/ in tracheoesophageal shunt patients by magnetic resonance images (MRI). The same vocal tract was determined in each vowels from MRI. First, speech data produced by them were analyzed and also checked for speech intelligibility. Then the author tried to synthesize vowels from the vocal tract area of each vowels and from the expanded pharyngeal section of the vocal tract.
RESULTS:
The obtained results were as follows: 1) The sounds of /a/, /e/, /i/ were similar to natural sounds in actual patients' speech. The sound of /o/ was heard as /sigma/. The sound of /u/ was heard as strained /u/. 2) The synthesized vowels of /a/, /e/ from MRI were heard as natural sounds. The sounds of /u/, /o/, /i/ were heard as other sounds. 3) The synthesized vowel by the expanded pharyngeal section of 3 times in vowel /o/ was more naturally heard than that of 2 times. The synthesized vowel from Formfrek was more naturally heard than that from AreatoFormant.
CONCLUSION:
In conclusion, some of the synthesized sounds from MRI disagrees with the actual sounds produced by the subjects. This could be best identified by the synthesis from the area data. Future MRI studies should consider this problem for more accurate measurements. Also, pharyngeal areas with varied sizes should be experimented to secure better speech output because the correct shapes of vocal tract ensures correct vowel pronunciation.
Keywords: LaryngectomyVocal tractTracheoesophageal shunt
서론 후두전적출술(total laryngectomy)후 음성의 재활은 1885 년 Gussenbauer1)가 고안한 인공후두를 수술시 만들어 두었던 인두공(pharyngostoma)과 기관공(tracheostoma)사이에 장착하고 폐공기를 이용하여 발성한 것이 최초의 시도였다. 그 후 현재까지 여러 가지의 음성재활법들이 고안되어 전기후두(electric larynx), 식도발성(esophageal speech), 기관식도발성(tracheoesophageal speech) 등이 있다. 전기후두는 전기를 동력으로 이용하는 음성 변환장치로 가격이 저렴하고 쉽게 사용법을 습득할 수 있어 많이 사용되었으나 음성이 기계음이고 자연적인 음성과 차이가 많아 제한된 경우에만 사용되고 있다. 식도발성은 음성재활에 주로 사용되는 방법으로 타 발성법에 비해 양손 사용이 자유롭고 보조기구 없이도 발성이 가능한 방법이나, 4∼6개월 이상의 훈련이 필요하며 노력에 비하여 성공율이 37.8∼70.0%로 낮고 기본주파수, 발성지속시간, 발성강도, 발성명료도 등이 저조하다.2) 기관식도발성은 식도발성보다 쉽게 발성할 수 있는 방법이지만 발성시 기관구(tracheostoma)를 한 손으로 막아야 하는 불편함과 가끔 기도내로 타액 및 음식물이 흡인(aspiration)되는 문제점은 있으나 술식이 안전하고 발성의 습득이 빠르며 지속적인 회화가 가능하여 현재 널리 사용되고 있다. 이러한 음성재활법들은 음성의 질(quality)을 높여 정상 음성에 보다 가까운 발성을 가능하게 하였으며 재활음성에 대한 연구들이 최근 활발하게 진행되고 있다.3) 즉 Compu-terized speech laboratory(CSL) 등 전산화된 음성 분석기기의 발달로 재활음성의 음향학적 분석이 가능하게 되었고 이러한 연구들은 무후두음성(alaryngeal speech) 환자가 보다 정상인의 음성에 가까운 음성재활을 할 수 있게 하는데 초점을 맞추고 있다. 최근에는 단순한 조음의 합성법이 아니라 거의 자연음과 구분할 수 없는 포만트방식의 합성기가 나와 음성의 연구에 많은 도움을 주고 있다.4) 후두적출자에서 음성재활방법의 평가 및 발성기전을 이해하기 위해 성도(vocal tract)의 모양과 단면적을 객관적으로 측정하는 방법으로 Chiba와 Kajiyama5)는 측면 방사선영상(lateral radiographic images)을, Fant6)는 X-선 단층사진(tomogram)으로 인두강의 단면을 측정하였으며, Johansson 등7)은 컴퓨터 단층촬영(CT)을 이용하였다. CT를 이용하는 방법은 극히 제한된 위치에서만 측정이 가능하며 X-선이 인체손상을 초래하는 단점이 있고, Fujimura 등8)의 X-ray microbeam을 이용한 point tracking법이나 Schonle 등9)의 magnetometer법은 구강내의 역동적인 영상은 보여 주지만 정중시상면(midsagittal plane)외에는 영상을 제공하지 못하며, Stone10)이 이용한 초음파(ultrasound)법도 혀의 역동적인 모양을 보여주지만 혀에만 국한된다는 단점이 있었다. 그러나 최근 자기공명영상(MRI) 촬영의 도입으로 성도의 측정이 보편화되었고, 특히 고해상도 고속도의 MRI의 발달로 발성시 성도의 정확하고 객관적인 측정이 가능하게 되었다. MRI 등 보다 정밀한 측정기기와 컴퓨터 그래픽, 조음합성기 등의 발달은 정확한 성도의 측정 뿐 아니라 측정된 성도의 모양을 한층 다양하게 변화시킬 수 있고, 또한 변화된 성도로부터 음성을 합성해 낼 수 있게 됨으로서 음향학적 연구에 획기적인 발전을 가져 왔다. 저자는 기관식도발성자를 대상으로 발성시 MRI를 통하여 측정한 성도의 모양과 음향학적 특성을 비교분석하여 발성명료도 양호군과 불량군 사이에 성도의 형태학적, 음향학적 차이를 알아보고자 하였다. 또한 단면적 계산과 음성합성의 컴퓨터 프로그램을 이용하여 실제 측정된 성도와 같은 성도모델을 만들어 분석하고 부분적으로 성도의 단면적을 변환시켜 합성된 음성을 객관적으로 비교분석하여 가능한 정상 음성에 가까운 성도모델을 알아냄으로서 수술방법의 개선 및 음성재활의 기초적 자료를 제시하고자 본 연구를 시행하였다. 대상 및 방법 연구대상 1993년 1월부터 1995년 12월까지 부산대학교병원 이비인후과에서 진행된 성문 상부암(T 3N 0M 0, stage Ⅲ)으로 후두전적출술, 경부곽청술 및 음성재활법으로 기관식도 누공술을 시행받았던 환자 24명 중 보철에 의한 영상의 간섭이 없고 MRI촬영에 지장이 없었던 4명의 환자를 대상으로 하였다. 연구방법 실제 음성의 분석과 발성명료도(Speech intelligibility) 방음실에서 MRI 촬영시와 동일한 자세로 눕혀 마이크폰에서 약 20 cm 떨어진 거리에서 한국어 단모음 /우/, /오/, /아/, /에/, /이/와 김11)의 한국어 2음절 어음표(bisyllabic word list)의 50단어를 정확한 발음으로 천천히 읽게하여 11 KHz의 표본속도(sampling rate)로 녹음한 후 정상청력을 가진 성인 10명에게 최적안정역치(most comfortable level)로 3회 청취시켜 받아 적게하여 이를 분석하고, 2음절어를 정확히 맞춘 단어수를 백분율(%)로 표시하여 발성명료도를 구하였고, 4증례의 평균 발성명료도보다 높았던 증례들을 양호군으로, 낮았던 증례들을 불량군으로 구분하였다. 성도의 자기공명영상 촬영법(MRI acquisition of vocal tract) 자기공명영상 촬영은 1.5T MR, VISION(Siemens Co.)을 이용하여 앙와위에서 한국어 단모음 /우/, /오/, /아/, /에/, /이/를 지속적으로 발성시키면서 각각의 단모음에 대해 촬영하였다. 모든 분절은 정중시상선(midsagittal line)에 수직되게 끊어 촬영하였고 모든 증례에서 성도의 전부분을 촬영하기 위해 쇄골 상부에서 입술까지 포함하여 촬영하였다(Fig. 1). 영상촬영의 pulse sequence는 FLASH (fast low angle shot) 2D, TR(repetition time) 170 msec, TE(echo time)5 msec, flip angle 30。, matrix 78×128 pixels, FOV 130 mm, NEX 1, slice thickness 5 mm로 한번 촬영에 소요된 시간은 19초이었다. 치아보정 MRI에서는 치아의 간섭현상에 의해 선명한 영상을 얻기 어려워 치아가 있는 증례 Ⅱ와 Ⅲ에서는 관상단면(coronal) CT를 함께 촬영하여 CT에서 선명하게 나타나는 치아의 공간을 측정하여 이를 MRI에서 단면적 측정시 모든 모음에 적용하여 보정하였다. 증례 Ⅰ과 Ⅳ는 치아가 없었다(Fig. 2). 성도단면적의 계산(Calculation of cross sectional area) 현상된 MRI에서 분절의 단면을 스캐너(scanner)를 이용하여 컴퓨터에 입력한 뒤, 성도의 공간부위를 선택하여 이것을 단면적 계산 프로그램인 Area properties(V3.2)에 입력하여 자동적으로 각 분절의 단면적을 계산하였다(Fig. 3). 자기공명영상을 이용한 포만트 계산(Formant calculation from cross sectional area by MRI) 컴퓨터 프로그램(Area properties, V3.2)을 이용하여 각각의 단면적을 구하고 가성대로 부터 각각의 분절까지의 거리를 계산하였다. 단면적은 Yang과 Kasuya12)의 일본어 기본 모음의 성도를 측정한 단면적 값을 변형한 뒤 포만트를 계산하는 프로그램으로 성도손실을 고려한 Sondhi13)의 AreatoFormant(이하 AF로 줄임)와 Fant14)의 러시아어 기본 모음의 성도를 측정한 단면적값을 변형한 뒤 포만트를 계산하는 프로그램인 Formfrek(이하 FF로 줄임)을 사용하여 MRI의 단면적에서 포만트를 구하였다. 두 방식에 차이가 있을 수 있으므로 본 연구에서는 두 가지 모두 사용하여 분석하였다. 음성합성 및 분석(Acoustic synthesis and analysis from formant calculated by AF and FF) 음성합성은 포만트를 이용하여 만든 실제와 같은 성도모델과 후설 모음인 /오/에서 발성명료도 불량군의 증례 I과 양호군의 증례 Ⅲ의 파일에서 인강부(가성대로부터 4∼8 cm 부위)의 단면적을 각각 2배와 3배로 늘린 성도모델에서 합성하였다. 음성합성은 Sensinetrics회사의 포만트 합성기인 SenSyn1.0을 이용하였다. 포만트 합성방법에 사용한 파라미터는 Yang4)의 한국어 단모음의 합성에 사용된 자연스러운 발음의 진폭, 기본주파수 값을 각각의 모음에 그대로 적용하였고 포만트 주파수 값은 AF와 FF의 값을 직접 입력하여 합성하였다. 따라서 성대에서 발생하는 원음이나 진폭의 변화는 정상인의 발음과 비슷하게 선정되었고 다만 면적값의 변화에 의한 모음의 음질 차이를 쉽게 구별할 수 있었다. 예를 들어 모음 /오/의 합성용 파라미터의 설정부분의 입력 파일은 Table 1과 같다. 합성음의 분석은 정상청력을 가진 성인 10명에게 적당한 크기로 3회씩 들려주어 어떠한 청각적 인상을 받았는지를 적게하여 분석하였다. 결과 실제 음성의 분석과 발성명료도의 결과 한국어 단모음에 대한 청각적 인상은 증례 Ⅰ에서 모음 /우/는 된소리 /우/로, 모음 /오/는 /어/로, 모음 /아/는 된소리 /아/로, 모음 /에/는 /외/로, 모음 /이/는 된소리 /이/에 가깝게 들렸다. 증례 Ⅱ에서 모음 /우/는 된소리 /우/로, 모음 /오/는 된소리 /우/로, 모음 /아/는 선명한 /아/로, 모음 /에/는 선명한 /에/로, 모음 /이/는 선명한 /이/에 가깝게 들렸다. 증례 Ⅲ에서 모음 /우/는 된소리 /우/로, 모음 /오/는 /어/로, 모음 /아/는 선명한 /아/로, 모음 /에/는 선명한 /에/로, 모음 /이/는 선명한 /이/에 가깝게 들렸다. 증례 Ⅳ에서 모음 /우/는 된소리 /우/로, 모음 /오/는 /우/로, 모음 /아/는 선명한 /아/로, 모음 /에/는 된소리 /에/로, 모음 /이/는 선명한 /이/에 가깝게 들렸다. 여기서 모음 /우/, /아/, /에/, /이/에서는 비교적 원음에 가깝게 발성되었으나, 모음 /오/는 의도한 원음과는 다른 음으로 들렸다(Table 2). 한국어 2음절 어음표를 이용한 발성명료도는 증례 Ⅰ, Ⅱ, Ⅲ, Ⅳ에서 각각 72.0%, 61.0%, 83.1%, 82.6%이었다. 이들의 평균 발성명료도는 74.7%로서 증례 Ⅲ과 Ⅳ는 양호군으로 평균 82.9%, 증례 Ⅰ과 Ⅱ는 불량군으로 평균 66.5%이었다. MRI의 성도 단면적에서 구한 포만트의 결과 AF와 FF를 이용하여 구한 포만트에서 전체적으로 F3에 비해 F2의 변화가 심하였다. 모음 /이/에서는 증례 Ⅱ에서 F1의 주파수는 AF와 FF에서 다른 증례에 비해 상대적으로 낮았으며 모든 모음에서 AF를 이용하여 계산한 포만트값이 FF를 이용한 경우보다 높았다. 한국어 단모음에 대한 정상 음성의 포만트값은 Yang4)의 포만트 주파수 및 주파수대역값을 제시하였다(Table 3 and 4). 이들 피검자들의 발성 가운데 모음 /오/의 경우에는 인강부에 충분한 공간을 확보하지 못하여 모두 /아/나 /에/에 가깝게 합성되었다. 본 연구에서는 인강부의 단면적을 임의로 확대하였을 때 어떠한 음으로 들리는지 알아보았다. 실험방법으로는 /아/에 가깝게 합성되었던 발성명료도 불량군의 증례 Ⅰ과 양호군의 증례 Ⅲ의 파일에서 인강부의 단면적을 각각 2배와 3배로 늘여 AF와 FF를 이용하여 포만트를 구하였다. 여기서 AF에 비해 FF에서 F1, F2, F3가 모두 낮았으며, 특히 F2의 포만트가 F1, F3에 비해 상대적으로 낮았다(Table 5). 합성음의 분석 결과(Analysis of synthesized vowels) 단면적을 이용한 합성음 단모음에 대한 합성음의 청각적 인상은 증례 I에서 모음 /우/는 AF에서 /에/로, FF에서는 /아/에 가깝게, 모음 /오/는 AF에서 된소리 /외/로, FF에서는 /아/에 가깝게, 모음 /아/는 AF에서 선명한 /아/로, FF에서는 /어/에 가깝게, 모음 /에/는 AF에서 선명한 /에/로, FF에서는 /어/에 가깝게, 모음 /이/는 AF에서 /위/로, FF에서는 /어/에 가깝게 들렸다. 증례 Ⅱ에서 모음 /우/는 AF에서 된소리 /외/로, FF에서는 /에/에 가깝게, 모음 /오/는 AF에서 선명한 /에/로, FF에서는 된소리 /에/에 가깝게, 모음 /아/는 AF에서 선명한 /아/로, FF에서는 /애/에 가깝게, 모음 /에/는 AF에서 선명한 /에/로, FF에서는 선명한 /에/에 가깝게, 모음 /이/는 AF에서 선명한 /이/로, FF에서는 선명한 /이/에 가깝게 들렸다. 증례 Ⅲ에서 모음 /우/는 AF에서 /아/로, FF에서는 선명한 /아/에 가깝게, 모음 /오/는 AF에서 /아/로, FF에서는 선명한 /아/에 가깝게, 모음 /아/는 AF에서 선명한 /아/로, FF에서는 선명한 /아/에 가깝게, 모음 /에/는 AF에서 선명한 /에/로, FF에서는 된소리 /외/에 가깝게, 모음 /이/는 AF에서 /외/로, FF에서는 /에/에 가깝게 들렸다. 증례 Ⅳ에서 모음 /우/는 AF에서 /에/로, FF에서는 /에/에 가깝게, 모음 /오/는 AF에서 /에/로, FF에서는 /에/에 가깝게, 모음 /아/는 AF에서 /에/로, FF에서는 선명한 /아/에 가깝게, 모음 /에/는 AF에서 선명한 /에/로, FF에서는 선명한 /에/에 가깝게, 모음 /이/는 AF에서 /에/로, FF에서는 /에/에 가깝게 들렸다. 합성한 음의 분석 결과 모음 /아/와 /에/에서는 원음에 가깝게 들렸으나 그 이외의 모음 /우/, /오/, /이/에서는 원음과 차이가 있었다(Table 6). 단면적 변환에 의한 합성음 모음 /오/에서 단면적을 변환한 합성음의 청각적 인상은 불량군인 증례 Ⅰ에서 2배로 늘린 경우 AF에서는 /에/에, FF에서는 /어/와 /오/의 중간음으로, 3배로 늘린 경우 AF에서는 /에/에, FF에서는 /오/로 들렸다. 양호군인 증례 Ⅲ에서 2배로 늘린 경우 AF에서는 된소리 /아/에, FF에서는 /아/에, 3배로 늘린 경우 AF에서는 /아/에, FF에서는 /어/와 /오/의 중간음에 가깝게 들렸다. 여기서 인강부의 단면적을 2배로 늘린 경우보다 3배로 늘린 경우 AF에 비해 FF에서 /오/에 가깝게 들렸다(Table 7). 성도 단면적의 비교(Comparisons of cross sectional area) 같은 모음을 합성한 경우에도 각 증례마다 같은 음으로 들리는 경우와 다른 음으로 들리는 경우가 있어 이를 규명하기 위해 각 증례들의 같은 모음에 대해 발성시 단면적을 FF를 이용하여 한 도표에 작성하여 비교하였다. 모음 /우/ 증례 Ⅰ과 Ⅲ의 경우에는 인강부보다 구강부에서 비교적 충분한 단면적을 확보하여 된소리 /아/로 발음이 되었고 두 경우의 입모양은 비슷하였다. 증례 Ⅱ와 Ⅳ의 경우는 인강부와 구강부에서 적절한 단면적을 확보하여 선명한 /에/로 발음하여 두 경우의 성도 모양이 비슷하였다(Fig. 4). 모음 /오/ 증례 Ⅰ에서는 /아/와 비슷하게 발음되었고 증례 Ⅲ의 경우에는 된소리 /아/로 발음이 되었다. 증례 Ⅱ는 구강부의 단면적이 너무 넓어 /에/에 가깝게 발음하였다. 증례 Ⅳ의 경우는 /에/에 가깝게 발음이 되었다. 전체적으로 /오/음과 다르게 발음이 되었는데 이것은 수술에 의한 성문상부와 일부 인강부의 소실로 인해 충분한 단면적을 확보하지 못했기 때문으로 사료되었다(Fig. 5). 모음 /아/ 선명한 /아/음이 나온 경우는 증례 Ⅲ과 Ⅳ로 이들은 가성대로부터 14 cm 부근의 구강부에서 적절한 단면적을 확보했기 때문으로 여겨졌고, 증례 Ⅰ의 경우에는 가성대로부터 12 cm 부근의 구강부에서 너무 과도한 단면적을 가짐으로써 /어/에 가까운 소리가 되었고, 증례 Ⅱ의 경우에도 증례 Ⅰ에 버금가는 면적을 가지고 인강부도 상대적으로 넓어져 /에/에 가깝게 되었으리라 사료되었다(Fig. 6). 모음 /에/ 증례 Ⅰ에서는 구강부 전체가 과도한 단면적을 확보하여 /어/에 가깝게 발음되었고 증례 Ⅲ의 경우에는 인강부가 너무 좁아서 거친 /에/ 발음이 되었다. 증례 Ⅱ와 증례 Ⅳ의 경우는 구강부 및 인강부에서 대칭적으로 균등한 단면적을 확보하여 선명한 /에/ 발음을 형성하였다(Fig. 7). 모음 /이/ 증례 Ⅰ의 경우에는 전체 구강부가 넓고 가성대로부터 7 cm 전후에 비교적 충분한 단면적을 확보하여 /어/에 가까왔다. 증례 Ⅳ의 경우에는 /에/와 비슷한 청각인상을 주었는데 이것은 중간부위가 일정한 폭을 유지하고 있었기 때문이었다. 증례 Ⅱ의 경우에는 비록 입술부위에서는 상대적으로 넓은 단면적을 확보하고 있으나 전반적으로 가성대에서 6 cm 전후의 인강부가 넓어서 /이/음의 인상을 주기에 충분한 비율이 형성되어 있었다. 증례 Ⅳ의 경우에는 /에/음에 가까운 인상을 주었다(Fig. 8). 고찰 최근 후두전적출술후 음성재활 방법으로 널리 이용되고 있는 기관식도 누공술은 기관후벽과 식도벽 사이에 누공(fistula)을 만들고 이곳을 통하여 폐공기를 인위적으로 식도 혹은 하인두로 보내어 하인두와 식도의 경계부위에 약 4 cm 정도의 인두 식도분절(pharyngoesophageal segment)의 점막 주름에 의해 이차적으로 형성되는 가성대(pseudoglottis)를 진동시켜 발성하도록 고안된 수술법이며, 가성대(pseudoglotis)의 발성기전은 비디오후두경술(video-laryngoscopy), 후두스트로보스코피(laryngeal stroboscopy)및 후두근전도검사(laryngeal electromyography) 등으로 일부 규명되었다.3) 성도의 단면적을 정확하게 측정하는 것은 음성재활의 평가에 있어 매우 중요한데 자기공명영상을 이용한 다양한 방법들이 보고되고 있다. Baer 등15)은 고정된 gridplane system을 이용하여 성도를 측정하였으나, 혀와 구개의 형상을 간략히 하여 측정 정밀도가 낮았으며, 성도의 길이도 최대 1.5 cm 정도 짧았다. Yang과 Kasuya12)는 구강부의 단면은 입술부터 환추(atlas)까지의 관상단면(coronal section)영상에서, 성문부에서 구개까지의 성도단면은 축상단면(axial section)영상에서 추출하였으며 이와는 별도로 정중시상영상(midsagittal image)을 참고하여 성도의 단면을 측정하였다. 본 실험에서는 Yang과 Kasuya12)의 방법과는 달리 모든 성도에서 정중시상선(midsagittal line)에 수직되게 단면을 촬영하였다. 그러나 성도의 단면을 촬영할 때 총 촬영시간이 긴 경우에는 피검자가 촬영하는 동안 지속적인 발성을 유지해야 하는 측정의 어려움이 있고, 특히 정상인이 아닌 기관식도발성자를 대상으로 할 때 최대발성지속시간(maximum phonation time, MPT)을 고려해 보면 지속적인 발성이 어렵다. Yang과 Kasuya12)는 익숙한 모음은 반복된 발성의 경우 소리 높이의 주파수(pitch frequency)의 차이가 적어 영상 촬영 전에 피검자로 하여금 충분히 연습시켜 동일한 입모양을 유지하도록 하고 발성시 가벼운 호흡을 하도록 하면 호흡에 의한 오차는 거의 없다고 하였다. 자기공명영상 촬영시간은 보고자들마다 차이가 있어 Baer 등15)은 204초, Matsumura 등16)은 123초, Yang과 Kasuya12)는 39초였으나 저자의 경우 19초로 촬영 중 호흡으로 인한 성도측정의 오차를 최대한 줄일 수 있었다. 자기공명영상에서 실제 단면적을 구하기 위해서는 성도의 윤곽을 정하는 것이 필요하다. 성도의 윤곽(boundary)을 정하기 위해 Lakshiminarayanan 등17)은 직접 손으로 성도의 윤곽을 그렸고, Martelli18)는 성도의 공기음영이 주변의 근육이나 다른 조직보다 어둡다는 점을 이용하여 음영이 50% 이상 차이가 날 때 자동적으로 윤곽을 그릴 수 있는 컴퓨터 프로그램을 개발하여 그렸으며, Baer 등15)은 Martelli18)의 프로그램을 이용하여 윤곽을 그리고 치아에 의해 간섭되는 부분만 손으로 직접 그리는 방법을 선택하였다. 저자는 스캐너(scanner)를 이용하여 영상을 컴퓨터에 입력시킨 후 성도의 공간에서 윤곽을 직접 그리는 방법을 택하였다. 이때 치아는 수분이 적어 영상에서 나타나지 않으므로 Matsumura 등16)은 치아의 간섭을 없애기 위해서 치아에 dental crown을 사용하여 crown과 치아 사이의 수분으로 치아 윤곽을 구하였고, Yang과 Kasuya12)는 미리 석고로 치형(dental impression)을 만든 뒤 이 치형을 한천에 넣고서 다시 자기공명영상을 촬영한 후 원래의 성도영상과 조합하여 수정하였고, Baer 등15)은 vinyl polysiloxane(3M)impression molds를 이용하여 치아 사이의 수분으로 치아 윤곽을 측정하였다. 저자의 경우는 치아가 있는 환자의 경우 CT의 영상으로부터 치아의 면적을 구하여 자기공명영상에서 보정하였다. 자기공명영상을 이용한 포만트(formant)의 계산은 각각의 영상에서 단면적과 가성대로 부터의 거리를 측정하여 구한다. Fant15)와 Yang과 Kasuya12)는 포만트는 인두강 및 구강의 길이에 영향을 받는다는 것과 음성의 물리적 특성을 모음에 적용하여 예상 주파수를 구하고 성도의 길이를 간접적으로 측정하였다. 일반적으로 포만트는 성도공명이므로 성도의 모양이 바뀌면 포만트도 달라지며 길이가 짧아지면 포만트값이 높아진다. 성도의 단면적을 구하기 위해 Rubin 등19)은 경험적 수학공식으로 측정하였고, Yang과 Kasuya12)는 Sondhi13)가 제시한 컴퓨터 프로그램을 이용하여 측정하였다. 본 실험에서는 Yang과 Kasuya12)가 고안한 일본어 기본 모음의 성도모양을 실측한 단면적값을 변형한 뒤 포만트를 계산하는 프로그램인 AreatoFormant와 Fant6)가 고안한 러시아어 기본 모음의 성도모양을 실측한 단면적 값을 선정하여 그 단면적 값을 변형한 뒤 포만트를 계산하는 프로그램인 Formfrek을 모두 이용하였다. 음성재활에 있어 환자의 실제 발성음의 음성학적 분석이 중요하며 이를 위해 Yang과 Kasuya12)는 자기공명영상 촬영실에서 피검자로 하여금 앙와위를 취한 자세에서 직접 측정하였으나 저자의 경우 방음이 잘된 검사실에서 자기공명영상 촬영시와 동일한 자세로 누워 각각의 모음을 발성시켜 녹음 한 뒤 분석하였다. 본 연구에서는 모음 /우/, /아/, /에/, /이/에서는 비교적 원음과 비슷하였으나 모음 /오/에서는 원음과 상당한 차이가 있었는데 이것은 수술로 인한 성문상부와 인강부의 소실 때문으로 여겨졌다. 또한 발성명료도(speech intelligibility)는 수술후 음성재활의 결과 분석에 중요한 지표가 되며 회화능력에 대한 객관적인 평가법으로 사용된다. Baek 등20)에 의하면 기관식도발성과 식도발성의 명료도는 비슷하다고 하였다. 본 실험에서는 발성명료도 양호군은 82.9%, 불량군은 66.5%로서 평균 74.7%였으며, Baek 등 20)의 보고와 비슷하였다. 음성재활 평가에 있어 음성합성기가 재활된 무후두음성(alaryngeal speech)의 분석에 많은 도움이 되고 있다. 음성합성기는 원음을 생성하는 성대 또는 가성대와 이를 걸러서 원하는 소리로 만드는 공명기인 성도로 구성된 인간의 발성 장치를 모델로 음성을 생성하는 것으로 초기에는 조음기관을 직접 모델로 하여 음성을 합성했던 조음합성기(articulatory synthesizer)가 사용되었다. 그 후 1950년대의 문양재생기(pattern playback)가 나오면서 음성의 변화를 전기적으로 바꾸어 스펙트로그램 생성의 반대과정으로 처리하여 음을 합성하는 방법을 사용하였다. 1960년대는 디지탈 컴퓨터의 등장으로 포만트 방식에 의한 합성기가 나왔으며 60여가지에 해당하는 다양하고 복잡한 파라미터를 조절하여 원음에 거의 가까울 정도의 음을 합성할 수 있게 되었다.4) 본 연구에서는 포만트 합성기인 SenSyn1.0를 이용하여 음을 합성하고 분석하였다. 자기공명영상을 이용하여 합성한 음의 분석 결과 모음 /아/와 /에/에서는 원음에 가깝게 들렸으나, 그 이외의 모음 /우/, /오/, /이/에서는 원음과 차이가 있었다. 본 연구에서 합성음성을 분석했을 때 실제 의도한 발성과 합성한 음에 다소 차이가 있고 발성명료도 양호군과 불량군에서 각각의 합성음의 명료도가 서로 일치되지 않았던 것은 피검자들이 영상 촬영시 처음 발성시에는 해당 모음의 성도모양으로 발성했더라도 19초 이상의 촬영시간과 MRI 촬영실 자체의 기계소음에 의한 본인의 발성을 정확히 들을 수 없어 도중에 성도모양이 변형되었거나, 처음부터 각각의 단모음에 대한 정확한 발성법을 인지하지 못하여 생긴 차이로 추정되었다. 또한 피검자들은 정상인의 발성법과는 달리 직접 한손으로 기관구를 압박해서 발성해야 하고 발성시 입과 혀모양의 변형과 경부근 등에 의한 간접적인 보상이 병행되었기 때문으로 추측되었다. 향후 이러한 요소들을 고려한 연구가 필요할 것으로 사료된다. 결론 자기공명영상은 성도의 형태학적 차이에 대한 연구에 유용한 도구로 사용될 수 있었으며, 음성재활의 평가에 포만트 합성기의 사용에 의한 음성합성과 분석이 변형된 성도의 연구에 유용한 방법으로 사용될 수 있었다. 후두전적출술을 시행받은 환자의 음성에서 후설모음인 /오/와 /우/에서 원음과 다르게 발성되었던 것은 성문상부와 인강부의 소실에 의한 것으로 사료되었다. 자기공명영상에서 단면적을 이용하여 만든 성도모델의 합성음에서도 후설모음에서는 원음과 차이가 있었으며 이것은 모음 /오/의 경우에는 실제 환자의 음성 분석과도 일치하였다. 특히 모음 /오/의 발성시 성도 단면적을 늘린 경우의 합성음이 정상음에 가깝게 들린다는 것을 알 수 있었다. 따라서 향후 후두전적출술후 음성재활 수술시 인두강의 단면적을 최대한 넓힐 수 있는 수술 방법의 접근이 필요할 것으로 사료된다.
REFERENCES
1) Gussenbauer C. Cited from Vailey and Biller's surgery of the larynx. Saunders Co; 1985. p.367-84. 2) Gate GA, Hearne EM III. Predicting esophageal speech.. Ann Otol Rhinol Laryngol 1982;91:454-7. 3) Omori K, Kojima H, Nonomura Ml. Mechanism of T-E shunt phonation. Arch Oto laryngol Head Neck Surg 1994;120:648-652. 4) Yang B. A perceptual study of Synthesized Korean Monophtongs. Korean J of Linguistics 1995;20-3:127-46. 5) Chiba T. Kajiyama M. The vowel: Its nature and structure. Phonetic Society of Japan. Tokyo Kaiseikan, 1941. 6) Fant G. Formants and Cavities. In Proceeding of the Fifth International Congress of Phonetic Sciences (ed. Zwirner E, Bethge W), Karger: Basel press; 1965. p.120-40. 7) Johansson C, Sundberg J, Wilbrand H, Ytterbergh C. From sagittal distance to area: A study of transverse, cross sectional area in the pharynx by means of computer tomography. R Inst Technol STL-QPSR 1983;4:39-49. 8) Fujimura O, Kiritani S, Ishida H. Computer controlled radiography for observation of movements of articulatory and other human organs. Comput Biol Med 1973;3:371-84. 9) Schonle PW, Grabe K, Wenig P, Hohne J, Schrader J, Conrad B. Electromagnetic articulography: use of alternating magnetic fields for tracking movements of multiple points inside and outside the vocal tract. Brain Lang 1987;31:26-35. 10) Stone M. A three-dimensional model of tongue movement based on ultrasound and x-ray microbeam data. J Acoust Soc Am 1990;87 :2207-17. 11) Kim CJ. Relationship between pure tone and speech hearing level utillizing meaningful monosyllabic words list. J Busan Med College 1976;16:1-16. 12) Yang CS, Kasuya H. Accurate measurement of vocal tract shapes from magnetic resonance images of child, female and male subjects. ICSLP: Yokohama press; 1994. p.623-6. 13) Sondhi MM. Model for wave propergation in lossy vocal tract. J Acoust Soci Am 1974;55:1070-5. 14) Fant G. Acoustic theory of speech production. The Hague Mouton, 1970. 15) Baer T, Gore JC, Gracco LC, Nye PW. Analysis of vocal tract shape and dimensions using magnetic resonance imaging: Vowels. J Acoustic Soc Am 1991;90:799-827. 16) Matsumura M, Nikawa T, Shimizu K. Measurement of 3D shape of vocal tract, dental crown and nasal cavity: Vowels and Fricatives. ICSLP: Yokohama press; 1994. p.619-22. 17) Lakshminarayanan AV, Lee SB, McCutcheon MJ. MR imaging of the vocal tract during vowel production. J Magn Reson Imag 1991;1 :71-6. 18) Martelli A. An application of heuristic search methods to edge and contour detection. Comm ACM 1976;19:73-83. 19) Rubin P, Baer T, Mermelstein P. An articulatory synthesizer for percep-tual research. J Acoust Soc Am 1981;70:321-8. 20) Back MJ, Oh IJ, Wang SG, Chon KM. Comparison of the Amatsu tracheoesophageal shunt operation for speech and esophageal speech after total laryngectomy. Korean J Otolaryngol 1993;36:102-9.
Editorial Office
Korean Society of Otorhinolaryngology-Head and Neck Surgery
103-307 67 Seobinggo-ro, Yongsan-gu, Seoul 04385, Korea
TEL: +82-2-3487-6602    FAX: +82-2-3487-6603   E-mail: kjorl@korl.or.kr
About |  Browse Articles |  Current Issue |  For Authors and Reviewers
Copyright © Korean Society of Otorhinolaryngology-Head and Neck Surgery.                 Developed in M2PI
Close layer
prev next