人間の発声

  1. 声を出そうとすると,左右の声帯が中央に寄る.
  2. 同時に肺からの呼気が声門を通り抜けると,狭くなった声帯を呼気が通り抜けて口に流れる
  3. 呼気が狭いところを流れると,広いところを流れる時より圧力が高くなるので(ベルヌーイの法則),声門が一時的に閉じる.
  4. でも呼気は出続けるので,圧力に負けて声門がもう一度開く
  5. また同じようにして閉じる,開くを繰り返すので,声門から出力される空気の密度に濃淡ができる
  6. 濃淡が音波の縦波として伝わる

周波数は声門が開閉する回数,振幅は声門の開き幅,音色は声門の性質(どれくらい上手に開閉できるかとか,口腔や咽頭の形・容積とか)に対応している.

音響特性(あかさたな,とかの違い)は音色に対応している,口腔の形とか 鼻腔との接続があって母音・子音がつくられる. 生後すぐには構音はできず,喃語を通して発声器官を制御できるようになる.

しかし口腔や鼻腔に損傷があると発声障害になる.歯や感覚異常も同様. また,脳はもちろん,難聴も発声に影響する.つまり,自分の声をモニタリングできないので フィードバック制御ができなくなる.

ロンバード効果:自信が発した音声を雑音とともにフィードバック情報として得ているが,周囲の雑音が大きいと SNR が悪くなるので,自分の声を大きく・高くしようとする.車掌さんの声が高い理由はこれらしい.

delayed auditory feedback:自信の声にディレイをかけてフィードバックさせると,精神的ストレスになる.発声とフィードバックの異常がある吃音の治療に使われているらしい

人間の聴覚

  1. 耳介が集音し,鼓膜を振動させる

  2. 鼓膜にはツチ骨・キヌタ骨・アブミ骨(耳小骨)が付着していて,鼓膜とこれら耳小骨の底面積比とてこの原理によって振動が増幅されて内耳(蝸牛)に入力される.

  3. 蝸牛の入り口である卵円窓はアブミ骨と固着していて,アブミ骨が振動すると内部のリンパ液が振動する

  4. リンパ液が振動し,基底膜にその振動が伝わる.

  5. 基底膜に付着している有毛細胞が振動すると,その振動が神経に電気信号として伝わる.

    • この有毛細胞は周波数特性があり,蝸牛の手前にあるほど高い周波数に対応している
    • 加齢によって手前の細胞ほど反応しなくなり,高周波が聞こえづらくなる.

蝸牛は三層に分かれていて,上から「前庭階」「中心階」「鼓膜階」という.上下二層は細胞外液とだいたいおなじイオン組成になっているが,中央一層は独立してカリウムイオンに富んでいて(内リンパ液),外リンパ液よりも +80 mV くらい高電位になっている.(なんで?)

中心階の基底膜に付着している有毛細胞は,感覚毛がある上部分だけを内リンパ液に浸していて,有毛細胞が振動すると感覚毛が開口する.すると内リンパ液の K+ は有毛細胞に流入し,発火する.これによって物理信号が電気信号に変換される.

伝音性難聴:空気振動が十分に伝わらないと当然難聴になる.耳小骨の異常や中耳の炎症など

感音性難聴:内耳に損傷がある場合,音がひずんだり,響いたりする.人工内耳を使う必要がある場合もある.人工内耳は,マイクとその電気信号を直接電極として内耳に挿入する.これによって直接発火させる.ただ,もともとの内耳の周波数分解能は 3500 個なのに対し,人工内耳は 20 個程度で,劣っている.しかし,適切なリハビリテーションを行うと電話での会話すらそん色なくできるようになるらしい.

ピッチ感覚

メル尺度:人間からみた音の聞こえに基づいた尺度で,1000 Hz が 1000 mel と決められている. この二倍に聞こえる音は 2000 mel だが,これが 2000 Hz とは限らない. また,音量が上昇すると周波数の低い音はより低く,高い音はより高く聞こえる. 昔の電子オルガンは倍音の少ない音がピッチがずれたように聞こえるらしい. また,これと関連して短音では音の高さが明確でなくなる. トーンピッチは純音として得られる音の高さの近くだが,クリックピッチ(2~15 msec) は純音としては知覚されないが,高低の判断は可能

絶対音感:音を聞いてその音の高さを判断することができる能力のこと. 相対音感は,2音間のピッチ関係を当てることができるが,絶対音感はその一音だけで半音まで特定できる. つまり音楽的なピッチクロマに対する判断能力のこと.

言語と音響特性

人間とサルは,同じ母音・子音を発することができる身体的構造を持ちながら,サルはそのような現象はない. これは,それを制御する神経基盤の違いが影響しているといわれている. さらに,表情にも変化があり,サルは唇を振動させるリップスマッキングという表情をもつが, これは人間が発話をする際の周波数と一致しており, この神経運動やその基盤が同窓でありながら別々の機能を獲得しているという進化史がある. また,人間の声帯は,もともとは気道に物が入らないような弁の役割をしていたが, これと呼気を利用して発話が副産物として生まれたという歴史がある. このように発話とは無相関な原因が発話的な能力を促進(差別化)しているらしい.

一方で,日本語と英語でも音響的な差異がある. 日本語は音素の配列規則があり,子音の次に子音は来ない,みたいな規則がだいたい守られている. 日本語の音素は「モーラ」と呼ばれていて,母音か,母音+子音か,特殊拍(撥音,促音,長音)が1モーラになる. なので日本語はモーラリズム言語といわれる.
一方で英語は日本語とは違って,配列規則にのっとりつつも,子音のあとに子音がくることもあり, 日本語のモーラとは違って単語は強勢で区切られる.なので英語は強勢リズム言語といわれる.
最後にフランス語やスペイン語は音節リズム言語といわれる.つまり,音節ごとを同じ長さの時間で発声する. たしかにフランス語とかスペイン語はリズム強い印象があって,これはなんか納得できる.
日本人が日本語英語になってしまうのはこれ(習得した発話アクセント・リズムに違いがあること) が原因らしいですね.

これら言語的な区別とは別に,言語に共通した研究課題があり,言語が聴覚とどう結びついているのか疑問になる. だって音声は連続的なのに対して言語は離散的な情報なので,これらを結びつけるにはどんな情報が必要なのか気になるよね\

局部時間反転音声:音声を逆再生すると,認識できなくなる. しかし,音声を短時間に区切ってそれぞれを逆再生させると認識できるようになる. (短時間であるほど聞き取りやすくなる.) 確かに短ければ短いほどスペクトルのパワー的な差異が小さくなるから聞き取れるのも分かる. と思ったら,これは人間が常に辞書的な探索(意味のある理解をしようと努める)をしているかららしい.

雑音駆動音声:音声にはゆっくりとしたパワー包絡と,声帯の振動をとらえた時間微細構造がある. 音源を雑音に置き換えて,4つ以上の周波数帯域の包絡を保存して合成すると知覚できるようになるらしい. 周波数帯域の間隔は自由なのか,とか気になる

外耳

耳介は音を集音する役割があり,伝音系という. 耳介は前向きにホーンの形をしていて,前方からの音を効率的に集音できる. 5 kHz が 10 倍程度増幅されるらしい. その形ゆえに特殊な周波数特性があり,前後でも聞こえが変化する. 耳介で反射したりして集音された音は外耳道を通って中耳に送られる. 外耳道は 2~3 kHz を 10 倍程度増幅するらしい.人間の音声はここらへんだった気がする.

中耳

蝸牛はリンパ液で満ちているが,空気と液体ではインピーダンスが異なっているので, 効率よく伝わるように,インピーダンス整合をする必要がある. 中耳はこのインピーダンス整合の役割を持つ. 外耳道の終わりには鼓膜が控えており,鼓膜にはツチ骨が付着している. 耳小骨はツチ骨・キヌタ骨・アブミ骨の順で接続されており,互いに振動しやすいように筋で固定されている. ちなみに耳小骨のルーツは魚類の顎骨らしい. 鼓膜とアブミ骨はその面積が異なることで,つまり広い鼓膜が狭いアブミ骨に集約されることで,圧力が増幅される.
これら耳小骨は鼓室に収められているが,鼓室は耳管で咽頭と接続されている.普段は,咽頭を通る 音声が鼓室に直接送られないように閉じているが, 換気のために一時的に開放する役割もある(つばをのみこんだり).

内耳

蝸牛:蝸牛は,音が流入して内有毛細胞が振動すると機械的にチャネルが開き, 内リンパ液からカリウムイオンが有毛細胞に流入する. カリウムイオンが流入すると脱分極(電位上昇)が起こり,細胞が縮小することで,(体積が小さくなるので) 圧力が増幅される.有毛細胞は場所によって硬さや長さが違い,手前ほど短く硬く,奥ほど長く柔らかい. そのため,手前ほど高周波に反応し,奥ほど低周波に反応する.

耳石器:ゼラチン質の耳石膜の中に有毛細胞の感覚毛が埋まっていて,頭が傾くと耳石膜が動いて, 中の感覚毛が開口する.これによって脱分極(もしくは過分極)が起こり,その信号が電気信号として伝わる

三半規管:耳石器と同じように,今度はクプラという物質に感覚毛が埋まっており,頭部が回転すると 感覚毛が傾く.

骨伝導

これまでの気導とは違い,骨伝導は頭蓋骨への音が直接蝸牛の基底膜を揺らすことで神経細胞が発火する. ベートーベンがそのキャリアの後半で難聴になり,指揮棒を咥えてピアノにつけて 聴いていたという話はこの骨伝導を利用している. 自分の声を録音して聞くと全然違うのもこれ. 2 kHz より下は実際は低周波が支配的になるらしい. だから録音した声は数段高い声で聞こえるようになる.
頭蓋骨が揺れた後に何が起こるかは色々あるらしい.

  1. 音信号によって外耳道が変形すると,外耳道の内部圧力が変化し,音波になる
  2. 耳小骨が振動して,蝸牛のリンパに入力される
  3. 頭蓋骨が振動すると蝸牛が振動し,リンパやその外壁が振動する

耳音響放射(OAE)

蝸牛内で発生した振動が外耳道で反射し,音として記録される現象のこと. 特に小さい音で顕著に表れるので,耳が小さい音を聞き取れるか,の検査に使われる現象でもある.
この現象の原因になっているのは,主に外有毛細胞である.脱分極によって細胞が縮小し, 基底膜の振動が増幅されるが,これらの増幅が非線形性をもち,入力の f1 と f2 で 2f1 - f2 が発生する. これが外耳道で音として放射され,記録される.他にも刺激音がない状態で音響放射が起こる自発耳音響放射や,クリック音に反応する誘発耳音響放射などがある.

耳小骨筋放射

アブミ骨を鼓室にくっつけているアブミ骨筋腱は,音の刺激に感度を持ち,収縮する. これにより,キヌタ骨 – アブミ骨間のインピーダンスを増加させ,2 kHz 以下の音を抑制している. これは外界からの突然の刺激音から内耳を守る役割を持っている. 鼓膜も同じような収縮機能をもっているが,アブミ骨と比べて閾値が高く,反応しにくい.

聴力検査

自覚的聴力検査:自分で聞こえるかどうかを判定する方法.

  • ウェーバー法:音叉を揺らし,頭にくっつけて,骨伝導で聞こえるか(中心から聞こえるか)を確認する方法.もし伝音系に難聴があれば片方からしか聞こえない
  • リンネ法:伝音系を確認したのちに,気導音を確認する.気導音が聞こえれば伝音系は軽度であるといえる
  • 純音聴力検査:純粋に純音を聞かせて,聞こえる最低音圧(dB)を周波数に応じて検査する方法.気導系と伝音系両方で確認する.定期健診でよくやるよね
  • 語音聴力検査:言葉の明瞭度は伝音系以外に原因があることがあるので,例えば人工内耳を用いる際の最適化に使う可能性がある
  • 乳幼児:音が出た方向を向いたり,音と光を条件づけたりなど音をトリガーとして副次的に得られる条件を検査することが多い

他覚聴力検査:主観的な判断でない方法

  • 耳音響放射検査:蝸牛からの反射で確かめる方法
  • 蝸電図検査:蝸牛からの反応電位で検査する方法.耳の外側から,みたいに日侵入的に検査できるらしい
  • 他にも音刺激に対する誘発反応を確かめる方法もある

胎児の聴力

胎児の張力は 25 週目あたりでほとんど完成しているといわれている. 例えば妊婦の腹部の外部から圧電素子で 2 kHz を聴かせると,胎児の心拍に変化があることが分かっている. ところでなんで 2 kHz かというと,胎盤のなかは呼吸音とか血管収縮音でめちゃめちゃうるさいから, その環境音にかぶらない音を出したいため. たしかに結構体内はうるさい印象があるし,腹壁はかなり減衰させているらしい. おなかの音とか聞こえるしね

難聴

先天性難聴:遺伝性難聴は難聴遺伝子の変異によって生じる.そんなんあるんか
遺伝子でなくても,例えば妊婦がウィルスに感染したりすると,胎児の聴覚器に移行して難聴するらしい. あとは内耳奇形

後天性難聴:よく聞くのは中耳炎,鼓膜に穴が開いたりして伝音系に支障をきたす.
加齢も十分な原因になる.有毛細胞が機能しなくなる.有毛細胞は騒音に暴露されても同様に起こる.

耳鳴り

根本的な原因は分かっていないらしいが,中枢に由来しているという考え方が支持されているらしい. 今までは不快に感じていなかった音が何らかの原因で脳が不快だと感じるようになってしまったということらしい.
単純な耳鳴りは,蝸牛におけるある有毛細胞が損傷すると,その部分の周波数の入力が減る. これにより他の周波数からの抑制が減るのでその周波数が暴走することになる.これによって耳鳴りが発生する. この耳鳴りが何らかの原因で非聴覚野と同期することで不快感と結びつくようになる.

人工中耳・人工内耳

難聴に対する対策法には,現在では補聴器しか選択肢がない.しかし,利得調整が難しいことや ハウリングなどの影響があり,人工内耳を選択することもある. 人工内耳はその特性ゆえに永久に聴力を失う可能性がある. そこで,人工中耳が使われることがある.こちらは蝸牛には干渉せず, 耳小骨に対して振動を人工的に加えることで音を入力する.
一方で,人工中耳は蝸牛に電極を移植し,音刺激を直接電気刺激に変換する. 人工内耳の効果は,静かな場所での一対一での会話はできるようになるくらいらしい.

主観音

基本的に,主観音はその音波に含まれていないのに知覚できる周波数音を指す. 例えば,うなりはもとの音波同士の差分が可聴音として知覚できる. また,ミッシングファンダメンタルというが,基音を失った音でも, 高調波だけを聴いて基音が知覚できるようになる. ただ,これは音響的な主観音であり,もっと一般的な主観音は, 人が聞き取る音全てに対する聴感覚のことを指す. つまり,その音が不快かどうかも評価になる.
また,正常系でない主観音もあり,耳鳴りなどを言う.他にもマガーク効果などがある.
この主観音は言語特性に依存する部分もあり,中国人が聞き分けられる発音を日本人が聞き取れない ことは,フォルマントの影響による部分が大きいが,このフォルマントの聴力閾値に差異がなくとも 物理的特性を処理できない部分がある.

人間以外の可聴域

人間以外の可聴域を計測する際には,純音を聞くと何か活動するようにトレーニングされた個体を用意し, 音が聞こえなくなるまで音量を下げることで測定する. 哺乳類は上限が高いことで知られているが,これは音源定位のためである. 音源定位は両耳の位相差・音圧差などを使っているが,高周波ほど頭で減衰する. そのため,頭の小さい動物でも,高周波を使うほど音圧差を検出しやすくなる. 一方で,低周波には感度を持たないことが多い.これは, 生活に必要がないことや,そもそも振動で感知すればいいこと,低周波ほどマスキングの影響が大きく, 聴覚の妨げになることなどが上げられる

動物は発声の際に規則的なピッチ変化やリズムパターンをもつことがあるが,これは人間の歌と類似しており, 動物のコミュニケーションの主手段であるといわれている.
オスが求愛するときに歌を歌うことがあるが,これは種の生殖に関わる重大な要素なので, オスは切実に歌の構成規則を考える必要がある.これが生得的か,後天的かは種によるらしい. また,歌は複雑であればあるほど魅力的に感じるらしい. 歌っている最中のオスは見つかりやすく,そのうえ複雑な歌を歌うことで脳のリソースを消費してしまう. それほど情報処理に優れた個体である,ということの証明になる.
一方で,人間は求愛でなく音声コミュニケーションに重点が置かれているらしい.

ゾウ

ゾウは低周波音声を使ってコミュニケーションをとる. この音声は広大な土地で遠くまで音声を届けるという役割がある. この音声は例えば個体識別(ゾウによって変化するコンタクト音声を発することが知られている.) に使われ,遠くの群れを感知する. この個体識別の情報は,100頭以上を23か月以上も記憶しているらしい.
ゾウは人間の音声をきわめて正確に発する例が知られている.人間のような口輪筋をもたないので 単語を発することができないはずだが,自分の鼻を口に入れることで人間の音声を再現しているらしい. すご

デグー

デグーは聴覚にとても優れていて,これデグーの音声が非常に複雑であることが理由である. 不快音や,威嚇音などは高い周波数を持つ一方で,コミュニケーションや 育児などは低周波でゆっくりしたパターンをもつ.

モグラ

モグラの掘るトンネルはもちろン周波数特性が悪く,高い音ほど減衰してしまう. 一方で,地上を歩く生き物のモニタリングは地響きを活用するとともに, 他個体とのコミュニケーションはトンネル壁を叩くことで土を媒体とした信号を送っているらしい.