JP7192561B2 - Audio output device and audio output method - Google Patents
Audio output device and audio output method Download PDFInfo
- Publication number
- JP7192561B2 JP7192561B2 JP2019028487A JP2019028487A JP7192561B2 JP 7192561 B2 JP7192561 B2 JP 7192561B2 JP 2019028487 A JP2019028487 A JP 2019028487A JP 2019028487 A JP2019028487 A JP 2019028487A JP 7192561 B2 JP7192561 B2 JP 7192561B2
- Authority
- JP
- Japan
- Prior art keywords
- type
- output
- reflection
- voice
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 17
- 230000005236 sound signal Effects 0.000 description 4
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 206010011878 Deafness Diseases 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000010370 hearing loss Effects 0.000 description 1
- 231100000888 hearing loss Toxicity 0.000 description 1
- 208000016354 hearing loss disease Diseases 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/165—Management of the audio stream, e.g. setting of volume, audio stream path
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Navigation (AREA)
Description
本発明は、音声を出力する音声出力装置および音声出力方法に関する。 The present invention relates to an audio output device and an audio output method for outputting audio.
近年、車両の走行案内を行うナビゲーション装置が多くの車両に搭載されている。特許文献1は、運転者の医療情報を取得し、運転者の聴力が低下している場合には、ナビゲーション装置の案内時の音声の音量を通常より大きくする技術を開示する。 2. Description of the Related Art In recent years, many vehicles are equipped with navigation devices that provide vehicle travel guidance. Patent Literature 1 discloses a technique of acquiring medical information of a driver and increasing the sound volume of a guidance voice of a navigation device when the driver's hearing is impaired.
車室内外の雑音が大きい場合、ナビゲーション装置の音声が乗員に聞こえ難いことがある。また、ナビゲーション装置の経路案内の音声に経路案内地点の目印の情報が含まれる場合、その目印を乗員が視認できないこともある。これらの場合、乗員は音声の内容を十分に理解することが困難である。そこで、ナビゲーション装置の音声の内容を乗員が理解しにくい場合、理解しやすい音声を出力することが望まれる。 When there is a lot of noise inside and outside the vehicle, it may be difficult for the passenger to hear the voice of the navigation device. In addition, when the voice of the route guidance of the navigation device includes the information of the landmark of the route guidance point, the passenger may not be able to visually recognize the landmark. In these cases, it is difficult for the passenger to fully understand the content of the voice. Therefore, when it is difficult for the passenger to understand the contents of the voice of the navigation device, it is desirable to output an easy-to-understand voice.
本発明はこうした状況に鑑みてなされたものであり、その目的は、出力された音声の内容を乗員が理解しにくい場合、理解しやすい音声を出力できる音声出力装置および音声出力方法を提供することにある。 SUMMARY OF THE INVENTION The present invention has been made in view of such circumstances, and its object is to provide an audio output device and an audio output method capable of outputting an easy-to-understand audio when the content of the output audio is difficult for a passenger to understand. It is in.
上記課題を解決するために、本発明のある態様の音声出力装置は、車両の乗員の発話を取得する取得部と、取得された前記発話が聞き返しであるか否か判定する判定部と、前記発話が聞き返しであると判定された場合、聞き返しのタイプを分類する分類部と、聞き返しの対象となる音声の内容にもとづいて、分類された聞き返しのタイプに応じた音声を出力する出力部と、車室内の画像を画像認識して、眠っている可能性のある乗員を検出する画像認識部と、を備える。前記出力部は、聞き返しのタイプが聞き逃しを示すタイプである場合、眠っている可能性のある乗員が前記画像認識部で検出されなければ、聞き返しの対象となる音声をより大きい音量で再出力し、聞き返しのタイプが聞き逃しを示すタイプである場合、眠っている可能性のある乗員が前記画像認識部で検出されれば、音量を維持して、聞き返しの対象となる音声を再出力する。 In order to solve the above-described problems, an audio output device according to one aspect of the present invention includes an acquisition unit that acquires an utterance of a vehicle occupant, a determination unit that determines whether the acquired utterance is a reflection, and a classification unit that classifies the type of reflection when the utterance is determined to be a reflection; an output unit that outputs speech according to the classified reflection type based on the content of the speech to be reflected; an image recognition unit that recognizes an image in the vehicle interior to detect a possibly sleeping passenger . The output unit re-outputs the voice to be listened to again at a higher volume if the image recognition unit does not detect the possibly sleeping occupant in the case where the type of feedback is a type indicating missed hearing. However, if the type of feedback is a type that indicates a missed hearing, and the image recognition unit detects a possibly sleeping passenger, the volume is maintained and the voice to be reviewed is re-output. .
この態様によると、乗員の聞き返しのタイプを分類し、聞き返しの対象となる音声の内容にもとづいて、分類された聞き返しのタイプに応じた音声を出力するので、音声出力装置の音声の内容を乗員が理解しにくく、聞き返しが行われた場合、理解しやすい音声を出力できる。 According to this aspect, the feedback type of the passenger is classified, and the sound corresponding to the classified feedback type is output based on the content of the speech to be asked back. is difficult to comprehend, and when the feedback is repeated, an easy-to-understand voice can be output.
前記音声出力装置は、聞き返しの直前に前記出力部から出力された音声にもとづいて、聞き返しの対象となる音声の内容を特定する特定部を備えてもよい。 The voice output device may include a specifying unit that specifies the contents of the voice to be listened back to based on the voice output from the output unit immediately before the feedback.
前記出力部は、聞き返しのタイプが音声の内容の意味を理解していないことを示すタイプである場合、聞き返しの対象となる音声の内容に関連した別の音声を出力してもよい。 The output unit may output another voice related to the content of the voice to be reflected when the feedback type is a type indicating that the meaning of the content of the voice is not understood.
前記出力部は、聞き返しのタイプが聞き逃しを示すタイプである場合、聞き返しの対象となる音声を再出力してもよい。 The output unit may re-output the speech to be listened back to when the feedback type is a type indicating a missed listening.
前記出力部は、聞き返しのタイプが聞き取れないことを示すタイプである場合、聞き返しの対象となる音声をより大きい音量で再出力してもよい。 The output unit may re-output the speech to be listened to again at a higher volume when the feedback type is a type indicating that the speech cannot be heard.
本発明の別の態様は、音声出力方法である。この方法は、コンピュータが実行する音声出力方法であって、車両の乗員の発話を取得する取得ステップと、取得された前記発話が聞き返しであるか否か判定する判定ステップと、前記発話が聞き返しであると判定された場合、聞き返しのタイプを分類する分類ステップと、車室内の画像を画像認識して、眠っている可能性のある乗員を検出する画像認識ステップと、聞き返しの対象となる音声の内容にもとづいて、分類された聞き返しのタイプに応じた音声を出力する出力ステップと、を備える。前記出力ステップでは、聞き返しのタイプが聞き逃しを示すタイプである場合、眠っている可能性のある乗員が前記画像認識ステップで検出されなければ、聞き返しの対象となる音声をより大きい音量で再出力し、聞き返しのタイプが聞き逃しを示すタイプである場合、眠っている可能性のある乗員が前記画像認識ステップで検出されれば、音量を維持して、聞き返しの対象となる音声を再出力する。 Another aspect of the present invention is an audio output method. This method is a voice output method executed by a computer, and includes an acquisition step of acquiring an utterance of a vehicle occupant, a determination step of determining whether or not the acquired utterance is a reflection, and a step of determining whether the utterance is a reflection. If it is determined that there is, a classification step of classifying the type of reflection, an image recognition step of recognizing the image in the vehicle interior to detect possible sleeping occupants, and a speech recognition target for reflection. and an output step of outputting speech according to the type of categorized reflection based on the content. In the output step, when the type of feedback is a type indicating a missed hearing, the voice to be reviewed is re-output at a higher volume if the passenger who may be asleep is not detected in the image recognition step. However, if the feedback type is a type that indicates a missed hearing, and if a possibly sleeping occupant is detected in the image recognition step, the volume is maintained and the voice to be reviewed is re-output. .
この態様によると、乗員の聞き返しのタイプを分類し、聞き返しの対象となる音声の内容にもとづいて、分類された聞き返しのタイプに応じた音声を出力するので、音声出力装置の音声の内容を乗員が理解しにくく、聞き返しが行われた場合、理解しやすい音声を出力できる。 According to this aspect, the feedback type of the passenger is classified, and the sound corresponding to the classified feedback type is output based on the content of the speech to be asked back. is difficult to comprehend, and when the feedback is repeated, an easy-to-understand voice can be output.
本発明によれば、出力された音声の内容を乗員が理解しにくい場合、理解しやすい音声を出力できる。 ADVANTAGE OF THE INVENTION According to this invention, when it is difficult for a passenger to understand the content of the output voice, it is possible to output an easy-to-understand voice.
図1は、実施の形態に係るナビゲーション装置10のブロック図である。ナビゲーション装置10は、自動車である車両に搭載される。ナビゲーション装置10は、マイク12と、スピーカ14と、ナビゲーション部16と、音声出力装置18とを備える。
FIG. 1 is a block diagram of a
マイク12は、車両の車室内に設置され、乗員の発話などの車室内の音声を音声信号に変換し、変換された音声信号を音声出力装置18に出力する。スピーカ14は、車両の車室内に設置され、音声出力装置18から出力された音声信号を音声に変換し、その音声を出力する。
The
ナビゲーション部16は、周知の技術を用いて経路案内用の案内経路を設定し、案内経路と地図を図示しない表示部に表示させ、走行案内用の音声を音声出力装置18に出力させ、案内経路に沿って走行案内を行う。走行案内用の音声は、交差点などの走行案内すべき地点の目印の情報を含む。ナビゲーション部16は、車両の位置が案内経路上の走行案内すべき地点に達した場合、音声により、たとえば「まもなく右方向です。コンビニエンスストアABCが目印です」という走行案内を行う。ナビゲーション部16は、走行経路の渋滞情報や工事情報、目的地の天気予報、現在地付近の施設情報など、ドライバの利便性を向上するための各種情報の音声を音声出力装置18に出力させてもよい。
The
音声出力装置18は、処理部20および記憶部22を備える。処理部20は、取得部30、判定部32、分類部34、特定部36および出力部38を備える。処理部20の構成は、ハードウエア的には、任意のコンピュータのCPU、メモリ、その他のLSIで実現でき、ソフトウエア的にはメモリにロードされたプログラムなどによって実現されるが、ここではそれらの連携によって実現される機能ブロックを描いている。したがって、これらの機能ブロックがハードウエアのみ、ソフトウエアのみ、またはそれらの組合せによっていろいろな形で実現できることは、当業者には理解されるところである。
The
出力部38は、ナビゲーション部16から供給された走行案内用などの音声情報にもとづいて、スピーカ14などを介して音声を出力する。
The
取得部30は、マイク12を介して車両の乗員の発話を取得する。乗員は、ナビゲーション装置10による走行案内用の音声などを聞き取れなかった場合や、その音声の内容を理解できなかった場合、「え?」などの発話、すなわち聞き返しを行うことがある。取得部30は、マイク12から出力された音声信号にもとづいて乗員の発話を音声認識し、その発話をテキストデータとして取得し、発話のテキストデータを判定部32と分類部34に供給する。
記憶部22は、複数の聞き返しのテキストデータをデータベースとして予め保持している。判定部32は、記憶部22のデータベースを参照し、取得部30で取得された発話が聞き返しであるか否か判定し、判定結果を分類部34と特定部36に供給する。判定部32は、発話のテキストデータがデータベースの聞き返しのテキストデータに一致する場合、発話が聞き返しであると判定する。判定部32は、発話のテキストデータがデータベースの聞き返しのテキストデータに一致しない場合、発話が聞き返しではないと判定する。判定部32は、発話のテキストデータがデータベースの聞き返しのテキストデータに一致し、かつ、発話の語尾が上がる場合、発話が聞き返しであると判定してもよい。これにより、判定精度を高めうる。
The
特定部36は、発話が聞き返しであると判定された場合、聞き返しの直前に出力部38から出力された音声にもとづいて、聞き返しの対象となる音声の内容を特定し、特定した音声の内容を出力部38に供給する。これにより、乗員がどの音声の内容に対して聞き返しを行ったか正しく特定しやすい。
When the utterance is determined to be a reflection, the
分類部34は、発話が聞き返しであると判定された場合、聞き返しのタイプを分類し、分類した聞き返しのタイプを出力部38に供給する。聞き返しのタイプは、音声の内容の意味を理解していないことを示す第1のタイプ、聞き逃しを示す第2のタイプ、および、聞き取れないことを示す第3のタイプを含む。
When the utterance is determined to be a reflection, the
記憶部22は、複数の聞き返しのテキストデータのそれぞれと、聞き返しのタイプとの対応関係もデータベースとして予め保持している。聞き返しと、聞き返しのタイプは、1対1に対応付けられている。たとえば、「どこ?」、「どれ?」などの聞き返しは第1のタイプに対応付けられている。「え?なんていった?」などの聞き返しは第2のタイプに対応付けられている。「なになに?聞きづらい」などの聞き返しは第3のタイプに対応付けられている。第1から第3のタイプのいずれにも当てはまる可能性があり、タイプを分類しにくい「なに?」などの聞き返しは、第2のタイプに対応付けられている。また、第1のタイプと第3のタイプのどちらにも当てはまらない聞き返しは、第2のタイプに対応付けられている。
The
分類部34は、記憶部22のデータベースを参照して、発話のテキストデータに一致する聞き返しのテキストデータのタイプを特定し、特定したタイプを聞き返しのタイプとする。
The
出力部38は、特定部36から供給された聞き返しの対象となる音声の内容にもとづいて、分類部34で分類された聞き返しのタイプに応じた音声をスピーカ14などを介して出力する。
The
出力部38は、聞き返しのタイプが第1のタイプである場合、聞き返しの対象となる音声の内容に関連した別の音声を出力する。記憶部22は、聞き返しの対象となる音声の内容ごとに、その音声の内容に関連付けられた1以上の別の音声データをデータベースとして予め保持している。たとえば、聞き返しの対象となる音声の内容が「コンビニエンスストアABCが目印です」である場合、「赤い看板が目印です」、「赤い建物が目印です」などの聞き返しの対象となる音声の内容を言い換える音声データが関連付けられている。つまりこの例では、「コンビニエンスストアABC」の看板と建物は赤色であるとする。乗員は、コンビニエンスストアABCという文字を視認できず、その看板や建物の色を知らないないなどの理由で「コンビニエンスストアABCが目印です」という音声の意味を理解できなかった場合、意味を理解できなかった音声の内容に関連した「赤い看板が目印です」などの音声を聞くことができ、その内容を理解できる可能性がある。
When the feedback type is the first type, the
出力部38は、聞き返しのタイプが第2のタイプである場合、聞き返しの対象となる音声を再出力する。これにより、乗員は、音声を聞き逃した場合、聞き逃した音声を再度聞くことができ、その内容を把握しやすい。タイプを分類しにくい聞き返し、第1のタイプと第3のタイプのどちらにも当てはまらない聞き返しの場合にも音声が再出力されるので、意図を特定しにくい聞き返しの場合にも、音声の内容を乗員に理解させることができる可能性がある。
If the type of reflection is the second type, the
出力部38は、聞き返しのタイプが第3のタイプである場合、聞き返しの対象となる音声をより大きい音量で再出力する。これにより、乗員は、周囲の雑音の影響や自身の聴力の低さなどのために聞き取れなかった音声をより聞き取りやすい音量で再度聞くことができ、その内容を把握しやすい。
When the type of reflection is the third type, the
次に、以上の構成による音声出力装置18の全体的な動作を説明する。図2は、図1の音声出力装置18の音声出力処理を示すフローチャートである。図2の処理は、繰り返し実行される。
Next, the overall operation of the
取得部30が乗員の発話を取得していない場合(S10のN)、ステップS10で待機する。発話を取得した場合(S10のY)、発話が聞き返しでなければ(S12のN)、ステップS10に戻る。発話が聞き返しである場合(S12のY)、特定部36は聞き返しの対象となる音声の内容を特定し(S14)、分類部34は聞き返しのタイプを分類し(S16)、出力部38は聞き返しのタイプを確認する(S18)。
If the
出力部38は、聞き返しのタイプが第1のタイプである場合、聞き返しの対象となる音声の内容に関連した別の音声を出力し(S20)、処理を終了する。出力部38は、聞き返しのタイプが第2のタイプである場合、聞き返しの対象となる音声を再出力し(S22)、処理を終了する。出力部38は、聞き返しのタイプが第3のタイプである場合、聞き返しの対象となる音声をより大きい音量で再出力し(S24)、処理を終了する。
If the feedback type is the first type, the
本実施の形態によれば、音声出力装置18の音声の内容を乗員が理解しにくく、聞き返しが行われた場合、理解しやすい音声を出力できる。また、聞き返しのタイプを分類し、分類された聞き返しのタイプに応じた音声を出力するので、複数の聞き返しのそれぞれに対して出力用の音声を生成するよりも、構成を簡素化できる。そのため、コストの増加を抑制でき、車載用途に適したナビゲーション装置10を提供できる。
According to this embodiment, it is difficult for the occupant to understand the content of the voice output from the
以上、実施の形態をもとに本発明を説明した。実施の形態はあくまでも例示であり、各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。 The present invention has been described above based on the embodiments. It should be understood by those skilled in the art that the embodiment is merely an example, and that various modifications are possible in combination of each component and each treatment process, and that such modifications are within the scope of the present invention.
たとえば、音声出力装置18は、車室内のカメラで撮影された車室内の画像を画像認識して、眠っている可能性のある乗員を検出する画像認識部を備えてもよい。画像認識には、周知の技術を用いることができる。出力部38は、聞き返しのタイプが第2のタイプである場合、眠っている可能性のある乗員が画像認識部で検出されなければ、聞き返しの対象となる音声をより大きい音量で再出力してもよい。これにより、音量を維持して音声を再出力する場合よりも、聞き逃した音声の内容を乗員に把握させやすい。一方、出力部38は、聞き返しのタイプが第2のタイプである場合、眠っている可能性のある乗員が検出されれば、音量を維持して、聞き返しの対象となる音声を再出力してもよい。これにより、眠っている乗員に配慮できる。
For example, the
実施の形態では、データベースを参照して、発話が聞き返しであるか否か判定し、聞き返しのタイプを分類したが、判定部32と分類部34は、発話内容の意図理解を行い、意図理解の結果に応じて、発話が聞き返しであるか否か判定し、聞き返しのタイプを分類してもよい。意図理解には周知の技術を用いることができる。この変形例では、音声出力装置18の構成の自由度を向上できる。
In the embodiment, the database is referred to determine whether or not the utterance is a reflection, and the type of reflection is classified. Depending on the result, it may be determined whether or not the utterance is a reflection, and the type of reflection may be classified. A well-known technique can be used for intention understanding. In this modification, the degree of freedom in configuring the
10…ナビゲーション装置、18…音声出力装置、30…取得部、32…判定部、34…分類部、36…特定部、38…出力部。
DESCRIPTION OF
Claims (5)
取得された前記発話が聞き返しであるか否か判定する判定部と、
前記発話が聞き返しであると判定された場合、聞き返しのタイプを分類する分類部と、
聞き返しの対象となる音声の内容にもとづいて、分類された聞き返しのタイプに応じた音声を出力する出力部と、
車室内の画像を画像認識して、眠っている可能性のある乗員を検出する画像認識部と、
を備え、
前記出力部は、聞き返しのタイプが聞き逃しを示すタイプである場合、眠っている可能性のある乗員が前記画像認識部で検出されなければ、聞き返しの対象となる音声をより大きい音量で再出力し、聞き返しのタイプが聞き逃しを示すタイプである場合、眠っている可能性のある乗員が前記画像認識部で検出されれば、音量を維持して、聞き返しの対象となる音声を再出力する、
ことを特徴とする音声出力装置。 an acquisition unit that acquires an utterance of an occupant of the vehicle;
a determination unit that determines whether the acquired utterance is a reflection;
a classification unit that classifies the type of reflection when the utterance is determined to be reflection;
an output unit for outputting speech according to the classified feedback type based on the content of the speech to be reviewed;
an image recognition unit that recognizes images in the vehicle interior and detects occupants who may be asleep;
with
The output unit re-outputs the voice to be listened to again at a higher volume if the image recognition unit does not detect the possibly sleeping occupant in the case where the type of feedback is a type indicating missed hearing. However, if the type of feedback is a type that indicates a missed hearing, and the image recognition unit detects a possibly sleeping passenger, the volume is maintained and the voice to be reviewed is re-output. ,
An audio output device characterized by:
車両の乗員の発話を取得する取得ステップと、
取得された前記発話が聞き返しであるか否か判定する判定ステップと、
前記発話が聞き返しであると判定された場合、聞き返しのタイプを分類する分類ステップと、
車室内の画像を画像認識して、眠っている可能性のある乗員を検出する画像認識ステップと、
聞き返しの対象となる音声の内容にもとづいて、分類された聞き返しのタイプに応じた音声を出力する出力ステップと、
を備え、
前記出力ステップでは、聞き返しのタイプが聞き逃しを示すタイプである場合、眠っている可能性のある乗員が前記画像認識ステップで検出されなければ、聞き返しの対象となる音声をより大きい音量で再出力し、聞き返しのタイプが聞き逃しを示すタイプである場合、眠っている可能性のある乗員が前記画像認識ステップで検出されれば、音量を維持して、聞き返しの対象となる音声を再出力する、
ことを特徴とする音声出力方法。 A computer-implemented audio output method comprising:
an acquisition step of acquiring an utterance of an occupant of the vehicle;
a determination step of determining whether the acquired utterance is a reflection;
a classification step of classifying the type of reflection if the utterance is determined to be reflection;
an image recognition step of recognizing images in the vehicle interior to detect possible sleeping occupants;
an output step of outputting a speech corresponding to a type of categorized reflection based on the content of the speech targeted for reflection;
with
In the output step, when the type of feedback is a type indicating a missed hearing, the voice to be reviewed is re-output at a higher volume if the passenger who may be asleep is not detected in the image recognition step. However, if the feedback type is a type that indicates a missed hearing, and if a possibly sleeping occupant is detected in the image recognition step, the volume is maintained and the voice to be reviewed is re-output. ,
An audio output method characterized by:
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019028487A JP7192561B2 (en) | 2019-02-20 | 2019-02-20 | Audio output device and audio output method |
US16/718,309 US11295742B2 (en) | 2019-02-20 | 2019-12-18 | Voice output apparatus and voice output method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019028487A JP7192561B2 (en) | 2019-02-20 | 2019-02-20 | Audio output device and audio output method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020134328A JP2020134328A (en) | 2020-08-31 |
JP7192561B2 true JP7192561B2 (en) | 2022-12-20 |
Family
ID=72042387
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019028487A Active JP7192561B2 (en) | 2019-02-20 | 2019-02-20 | Audio output device and audio output method |
Country Status (2)
Country | Link |
---|---|
US (1) | US11295742B2 (en) |
JP (1) | JP7192561B2 (en) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016061970A (en) | 2014-09-18 | 2016-04-25 | 株式会社東芝 | Speech dialog device, method, and program |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3322140B2 (en) * | 1996-10-03 | 2002-09-09 | トヨタ自動車株式会社 | Voice guidance device for vehicles |
US7640164B2 (en) * | 2002-07-04 | 2009-12-29 | Denso Corporation | System for performing interactive dialog |
JP2009254544A (en) | 2008-04-16 | 2009-11-05 | Toyota Motor Corp | Crew information acquisition device and crew information acquisition system, and vehicle controller and vehicle control system using the same |
US9858925B2 (en) * | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US9798799B2 (en) * | 2012-11-15 | 2017-10-24 | Sri International | Vehicle personal assistant that interprets spoken natural language input based upon vehicle context |
DE112014000934T5 (en) * | 2013-02-21 | 2016-01-07 | Iee International Electronics & Engineering S.A. | Imaging-based occupant monitoring system with broad functional support |
JP6481643B2 (en) | 2016-03-08 | 2019-03-13 | トヨタ自動車株式会社 | Audio processing system and audio processing method |
US10303772B2 (en) * | 2016-07-29 | 2019-05-28 | International Business Machines Corporation | Measuring mutual understanding in human-computer conversation |
US10521512B2 (en) * | 2017-05-26 | 2019-12-31 | Bose Corporation | Dynamic text-to-speech response from a smart speaker |
-
2019
- 2019-02-20 JP JP2019028487A patent/JP7192561B2/en active Active
- 2019-12-18 US US16/718,309 patent/US11295742B2/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016061970A (en) | 2014-09-18 | 2016-04-25 | 株式会社東芝 | Speech dialog device, method, and program |
Also Published As
Publication number | Publication date |
---|---|
US11295742B2 (en) | 2022-04-05 |
US20200265837A1 (en) | 2020-08-20 |
JP2020134328A (en) | 2020-08-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11153733B2 (en) | Information providing system and information providing method | |
JP6604151B2 (en) | Speech recognition control system | |
CN110194181B (en) | Driving support method, vehicle, and driving support system | |
JP2010128099A (en) | In-vehicle voice information providing system | |
JP2017090612A (en) | Speech recognition control system | |
CN111007968A (en) | Agent device, agent presentation method, and storage medium | |
JP2009251388A (en) | Native language utterance device | |
CN109243457B (en) | Voice-based control method, device, equipment and storage medium | |
JP6459330B2 (en) | Speech recognition apparatus, speech recognition method, and speech recognition program | |
JP2020060861A (en) | Agent system, agent method, and program | |
JP7192561B2 (en) | Audio output device and audio output method | |
JP2019074498A (en) | Drive supporting device | |
JP2004301875A (en) | Voice recognition device | |
WO2006025106A1 (en) | Voice recognition system, voice recognizing method and its program | |
JP6596771B2 (en) | Information providing apparatus and information providing method | |
CN110737422A (en) | sound signal acquisition method and device | |
CN111703366A (en) | Attention reminder device for vehicle, attention reminder method for vehicle, and recording medium | |
CN117854465A (en) | Method for summarizing conversations in a motor vehicle and motor vehicle | |
JP2018125822A (en) | In-vehicle conversation support device | |
CN114834456A (en) | Method and device for providing auxiliary information to driver of vehicle | |
JP2020060623A (en) | Agent system, agent method, and program | |
JP2016149014A (en) | Interactive device | |
JP2008309865A (en) | Voice recognition device and voice recognition method | |
US20250058726A1 (en) | Voice assistant optimization dependent on vehicle occupancy | |
JP2019212168A (en) | Speech recognition system and information processing device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210526 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220406 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220531 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220715 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221108 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221121 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7192561 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |