JP2008299221A - Speech detection device - Google Patents
Speech detection device Download PDFInfo
- Publication number
- JP2008299221A JP2008299221A JP2007147383A JP2007147383A JP2008299221A JP 2008299221 A JP2008299221 A JP 2008299221A JP 2007147383 A JP2007147383 A JP 2007147383A JP 2007147383 A JP2007147383 A JP 2007147383A JP 2008299221 A JP2008299221 A JP 2008299221A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- sound
- speech
- superimposed
- utterance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 87
- 230000004044 response Effects 0.000 description 18
- 238000000034 method Methods 0.000 description 11
- 238000000926 separation method Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 5
- 238000012795 verification Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011946 reduction process Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
Images
Abstract
Description
この発明は、発話が同乗者に対する会話であるか音声操作入力であるかを判定する発話検知装置に関する。 The present invention relates to an utterance detection device that determines whether an utterance is a conversation with a passenger or a voice operation input.
近年、利用者の音声を認識する技術の実現に向けて、各種考案がなされている。利用者の音声を認識することができれば、利用者は各種機器の操作を音声によって実行することが可能であり、特に車載装置では運転者による手動操作の運転への影響が懸念されることから音声操作技術の実用化が切望されている。 In recent years, various ideas have been made for realizing a technology for recognizing a user's voice. If the user's voice can be recognized, it is possible for the user to perform various device operations by voice. Especially, in-vehicle devices are concerned about the influence of manual operation by the driver on the driving. The practical application of operation technology is eagerly desired.
このような音声操作技術に用いられる音声認識では、だれがどこに向かって発話しているかの認識が必要な場合がある。例えば、音声を集音するマイクを複数備え、各マイクが集音した音声の時間が所定の時間より長いかを算出し、所定の時間よりも長い場合には機器の操作命令の発話であると判定し、所定の時間より短い場合にはそれ以外の発話であると判定する技術が従来から知られている。 In the voice recognition used in such a voice operation technique, it may be necessary to recognize who is speaking toward where. For example, it is provided with a plurality of microphones for collecting sound, and it is calculated whether the time of the sound collected by each microphone is longer than a predetermined time. A technique is conventionally known that determines and determines that the utterance is other than that when it is shorter than a predetermined time.
また、特許文献1では、発声と発声の間の無音声時間を計時し、計時された無音声時間に基づいて、機器の操作命令の発話かそれ以外の発話かを判定する技術が開示されている。 Patent Document 1 discloses a technique for measuring a silent time between utterances and determining whether the utterance of an operation instruction of the device or a utterance other than that is based on the measured silent time. Yes.
しかしながら、上述した音声の時間により発話を判定する従来の技術では、各マイクによって集音されたそれぞれの音声が所定の時間以上続いたかを判定するのみで、マイク間で集音された相対関係を考慮しないので、音声認識の精度が悪く、誤認識が発生するという問題点があった。 However, in the conventional technique for determining the utterance based on the time of the voice described above, it is only necessary to determine whether each voice collected by each microphone has continued for a predetermined time or longer, and the relative relationship collected between the microphones is determined. Since this is not taken into account, there is a problem that the accuracy of voice recognition is poor and erroneous recognition occurs.
また、上記した特許文献1の技術では、同乗者同士の会話が重畳した場合や、車室内で音楽が再生されていることにより発声と発声との間に無音時間がない場合には、機器の操作命令の発話かそれ以外の発話かを判定することができず、誤認識が発生するという問題点があった。 Further, in the technique of Patent Document 1 described above, when the conversation between passengers is superimposed, or when there is no silent time between utterances due to music being played in the passenger compartment, There is a problem in that it is impossible to determine whether the operation command is uttered or the other utterance, and erroneous recognition occurs.
そこで、この発明は、上述した従来技術の課題を解決するためになされたものであり、音声認識の精度を向上して、誤認識を防止することを目的とする。 Therefore, the present invention has been made to solve the above-described problems of the prior art, and an object thereof is to improve the accuracy of speech recognition and prevent erroneous recognition.
上述した課題を解決し、目的を達成するため、本発明に係る発話検知装置は、複数人の音声を集音する集音手段と、前記集音手段によって集音された音声を前記複数人ごとに第一の音声と第二の音声として区別し、当該第一の音声と第二の音声との相対関係として、前記第一の音声の途中に前記第二の音声が割り込んでいる状態、前記第一の音声の末尾に前記第二の音声が重畳している状態、前記第一の音声と前記第二の音声とが重ならない状態のいずれの状態であるかを算出する相対関係算出手段と、前記相対関係算出手段によって算出された前記状態に基づいて、前記第一の音声または前記第二の音声が音声操作入力であるかを判定することを特徴とする。 In order to solve the above-described problems and achieve the object, the speech detection apparatus according to the present invention includes a sound collecting means for collecting sounds of a plurality of persons, and a sound collected by the sound collecting means for each of the plurality of persons. The first voice and the second voice, the relative relationship between the first voice and the second voice, the second voice is interrupted in the middle of the first voice, A relative relationship calculating means for calculating a state in which the second sound is superimposed on the end of the first sound and a state in which the first sound and the second sound do not overlap; And determining whether the first voice or the second voice is a voice operation input based on the state calculated by the relative relationship calculating means.
請求項1の発明によれば、複数人の音声を集音し、集音された音声を複数人ごとに第一の音声と第二の音声として区別し、その第一の音声と第二の音声との相対関係として、第一の音声の途中に第二の音声が割り込んでいる状態、第一の音声の末尾に第二の音声が重畳している状態、第一の音声と第二の音声とが重ならない状態のいずれの状態であるかを算出し、算出された状態に基づいて、第一の音声または第二の音声が音声操作入力であるかを判定するので、音声認識の精度を向上して、誤認識を防止することが可能になる。 According to the first aspect of the present invention, the voices of a plurality of people are collected, the collected voices are distinguished for each of the plurality of people as a first voice and a second voice, and the first voice and the second voice are distinguished. As a relative relationship with the sound, the second sound is interrupted in the middle of the first sound, the second sound is superimposed on the end of the first sound, the first sound and the second sound The voice recognition accuracy is calculated by calculating whether the voice does not overlap with the voice and determining whether the first voice or the second voice is a voice operation input based on the calculated state. It is possible to improve recognition and prevent erroneous recognition.
また、請求項2の発明によれば、相対関係として、第一の音声の途中に第二の音声が割り込んでいる状態であると算出された場合には、第二の音声の発話時間が所定の時間以上であって、かつ第一の音声のパワーが第二の音声のパワー以上であるかを判定し、第二の音声の発話時間が所定の時間以上であって、かつ第一の音声のパワーが第二の音声のパワー以上であると算出された場合には、第二の音声が音声操作入力であると判定するので、第一の音声(会話)に対して割り込んで発話した第二の音声が、短い場合やその第一の音声より弱いパワーである場合には、相槌や感嘆(例えば、「ああ」や「うん」)であると考えられるため、音声操作入力として受け付けない結果、音声認識の精度をより向上して、誤認識を防止することが可能になる。 According to the second aspect of the present invention, when it is calculated that the second voice is in the middle of the first voice as the relative relationship, the utterance time of the second voice is predetermined. It is determined whether or not the power of the first voice is greater than or equal to the power of the second voice, the utterance time of the second voice is greater than or equal to the predetermined time, and the first voice If the power of the second voice is calculated to be equal to or higher than the power of the second voice, it is determined that the second voice is a voice operation input. If the second voice is short or has a weaker power than the first voice, it is considered to be a conflict or exclamation (for example, “Oh” or “Ye”), so the result is not accepted as voice operation input. Improve voice recognition accuracy and prevent misrecognition It made.
また、請求項3の発明によれば、相対関係として、第一の音声の末尾に第二の音声が重畳している状態であると算出された場合には、第一の音声の平均パワーが第二の音声と重畳する直前の第一の音声のパワー以上であるかを判定し、第一の音声の平均パワーが第二の音声と重畳する直前の第一の音声のパワー以上であると算出された場合には、第二の音声が音声操作入力であると判定するので、第一の音声(会話)が通常の会話であれば、通常会話の終わりは音声が収束してフェードアウトであるのに対し、第一の音声が急に途切れるような場合には、第二の音声が要求発話であるために会話を中断したと考えられるため、要求発話として受け付ける結果、音声認識の精度をより向上して、誤認識を防止することが可能になる。 According to the invention of claim 3, when it is calculated that the second sound is superimposed on the end of the first sound as a relative relationship, the average power of the first sound is It is determined whether or not the power of the first sound just before superimposing with the second sound is greater than or equal to the power of the first sound just before superimposing with the second sound. If it is calculated, it is determined that the second voice is a voice operation input. Therefore, if the first voice (conversation) is a normal conversation, the voice ends at the end of the normal conversation and fades out. On the other hand, when the first voice is suddenly interrupted, it is considered that the conversation was interrupted because the second voice is the requested utterance. It is possible to improve and prevent misrecognition.
以下に添付図面を参照して、この発明に係る発話検知装置の実施例を詳細に説明する。 Exemplary embodiments of an utterance detection device according to the present invention will be described below in detail with reference to the accompanying drawings.
以下の実施例では、実施例1に係る発話検知装置の概要および特徴、発話検知システムの構成および処理の流れを順に説明し、最後に実施例1による効果を説明する。なお、以下では、車両に実装されるカーナビゲーション(カーナビ)等において、利用者から発話された音声が音声操作入力であるか認識する場合に適用する例を説明する。 In the following embodiments, the outline and features of the utterance detection device according to the first embodiment, the configuration of the utterance detection system, and the flow of processing will be described in order, and finally the effects of the first embodiment will be described. In the following, an example applied to recognizing whether a voice uttered by a user is a voice operation input in a car navigation (car navigation) or the like mounted on a vehicle will be described.
[実施例1に係る発話検知装置の概要および特徴]
まず最初に、図1を用いて、実施例1に係る発話検知装置の概要および特徴を説明する。図1は、実施例1に係る発話検知装置の概要および特徴を説明するための図である。実施例1の発話検知装置10では、発話が音声操作入力であるかを判定することを概要とする。そして、この発話検知装置10では、音声認識の精度を向上して、誤認識を防止する点に主たる特徴がある。
[Outline and Features of Utterance Detection Device According to Embodiment 1]
First, the outline and characteristics of the speech detection apparatus according to the first embodiment will be described with reference to FIG. FIG. 1 is a diagram for explaining the outline and features of the utterance detection device according to the first embodiment. In the
この主たる特徴について具体的に説明すると、この発話検知システム1の発話検知装置10は、複数人の音声を集音するステレオマイク11を備える。そして、発話検知装置10は、ステレオマイク11によって集音された音声を主音声とその主音声に重畳する重畳音声とに区別し、区別された主音声と重畳音声との相対関係を算出する(図1の(1)参照)。なお、ここで主音声とは、区別された音声のうち音量が一番大きいものとし、重畳音声とは、区別された音声のうち音量が二番目に大きいものとする。また、発声主が三人以上いる場合には、発声主の音声のうち一番目に音量が大きいものと二番目に音量が大きいものをそれぞれ主音声、重畳音声とする。
This main feature will be specifically described. The
具体的には、発話検知装置10は、主音声と重畳音声とが互いに重畳する割合である重畳度を算出し、その重畳度から主音声の途中に重畳音声が割り込んでいる状態(状態A)、主音声の末尾に重畳音声が重畳している状態(状態B)、主音声と重畳音声とが重ならない状態(状態C)のいずれの状態であるかを判定する。図1の例を用いて説明すると、主音声の重畳度Rpが100以下であり、かつ、重畳音声の重畳度Raが100であるので、主音声の途中に重畳音声が割り込んでいる状態(状態A)であると判定する。
Specifically, the
そして、発話検知装置10は、算出された相対関係に基づいて、発話が同乗者に対する会話であるか音声操作入力であるかを判定する(図1の(2)参照)。その結果、発話検知装置10は、音声操作入力であると判定した場合には、要求発話として応答システム50に対して要求内容を出力する(図1の(3)参照)。具体的には、発話検知装置10は、判定された状態A、状態B、状態Cそれぞれに設定されている所定の条件に応じて、発話が同乗者に対する会話(以下、「会話」という)であるか音声操作入力(以下、「要求発話」という)であるかを判定する。
Then, the
例えば、発話検知装置10は、状態Aであると判定した場合には、重畳音声の発話時間Saが所定の閾値T2以上であって、かつ、重畳音声における重畳フレームの平均パワーAveAが主音声における重畳フレームの平均パワーAveP以上であるかを判定する。その結果、発話検知装置10は、重畳音声の発話時間Saが所定の閾値T2以上であって、かつ、重畳音声における重畳フレームの平均パワーAveAが主音声における重畳フレームの平均パワーAveP以上である場合には、要求発話であると判定する。また、発話検知装置10は、重畳音声の発話時間Saが所定の閾値T2未満であるか、または、重畳音声における重畳フレームの平均パワーAveAが主音声における重畳フレームの平均パワーAveP未満である場合には、会話であると判定する。
For example, when the
このように、発話検知装置10は、集音された音声を個別に判定せずに、主音声と重畳音声との相対関係に基づいて、発話が同乗者に対する会話であるか音声操作入力であるかを判定する結果、上記した主たる特徴のごとく、音声認識の精度を向上して、誤認識を防止することが可能である。
In this way, the
[発話検知システムの構成]
次に、図2〜図4を用いて、図1に示した発話検知システム1の構成を説明する。図2は、実施例1に係る発話検知システム1の構成を示すブロック図であり、図3は、重畳状態判定テーブルを説明するための図であり、図4は、重畳状態を説明するための図である。
[Configuration of speech detection system]
Next, the configuration of the utterance detection system 1 shown in FIG. 1 will be described with reference to FIGS. FIG. 2 is a block diagram illustrating a configuration of the utterance detection system 1 according to the first embodiment, FIG. 3 is a diagram for explaining a superposition state determination table, and FIG. 4 is a diagram for explaining a superposition state. FIG.
図2に示すように、この発話検知システム1は、発話検知装置10、音声出力装置20、同乗者判定装置30、音声認識エンジン40および応答システム50を有する。以下では、まず、本発明に係る発話検知装置10以外の音声出力装置20、同乗者判定装置30、音声認識装置40および応答システム50から説明する。
As shown in FIG. 2, the utterance detection system 1 includes an
音声出力装置20は、音声を出力するスピーカ21と、音声を増幅するアンプ22と、音楽またはトークバック音声を再生する音楽再生/合成音声再生部23とを備える。音声出力装置20は、音楽再生/合成音声再生部23から再生する音声をアンプに送信し、アンプがその音声を増幅した後に、スピーカ21から出力する。また、音声出力装置20の音楽再生/合成音声再生部23は、後述する発話検知装置10の音声出力判定部14および学習フィルタ15に再生する音声データの原信号を送信する。
The
同乗者判定装置30は、車室内を撮影する車室内カメラ31と、車室内のシートの重さを検知する荷重センサ32と、同乗者の有無を判定する同乗者有無判定部33とを備える。同乗者判定装置30の同乗者有無判定部33は、車室内カメラ31および荷重センサ32の取得したデータを基に、同乗者の有無を判定する。そして、同乗者有無判定部33は、その判定結果を後述する発話検知装置10の波形分析/音源分離部16に通知する。
The
音声認識エンジン40は、音声データから音素の照合を行う音素照合部41と、図示しない音声認識辞書と単語照合部42と、認識結果出力部43とを備える。音声認識エンジン40の音素照合部41は、後述する発話検知装置10の音声重畳度判定部17から音声データを受信し、その音声データを解析して音素照合を行って、その音素に関する情報を単語照合部42に通知する。そして、単語照合部42は、音素に関する情報から図示しない音声認識辞書を用いて、単語の照合を行い、その照合結果を認識結果として認識結果出力部43に通知する。その後、認識結果出力部43は、通知された認識結果を出力して、発話検知装置10の要求判定部19に送信する。
The
応答システム50は、後述する発話装置10の要求判定部19から送信された要求を受信し、その要求に対応するシステム応答処理として実行する。例えば、音声により操作入力を受け付けて動作するカーナビが該当する。なお、上記した音声認識辞書として、ドライバー用および助手席用それぞれ設定するようにしてもよい。
The
次に、本発明に係る発話検知装置10について説明する。実施例1に係る発話検知装置10は、図2に示すように、ステレオマイク11、入力レベル判定部12、騒音低減処理部13、音声出力判定部14、学習フィルタ15、波形分析/音源分離部16、音声重畳度判定部17、重畳状態判定テーブル18、要求判定部19から主に構成される。
Next, the
重畳状態判定テーブル18は、各重畳状態(状態A、状態B、状態C)における主音声、重畳音声、システムの振る舞いをそれぞれ記憶している。具体的には、重畳状態判定テーブル18は、図3に示すように、各重畳状態に対応する主音声の発話時間Sp、主音声の重畳時間Op、主音声の重畳度Rp、重畳音声の発話時間Sa、重畳音声の重畳時間Oa、重畳音声の重畳度Ra、音声操作入力であるかを判定するシステムの振る舞いをそれぞれ対応付けて記憶する。なお、この詳細については、音声重畳度判定部17の処理として後に説明する。
The superimposition state determination table 18 stores main sound, superimposition sound, and system behavior in each superimposition state (state A, state B, and state C). Specifically, as shown in FIG. 3, the superimposition state determination table 18 includes a main speech utterance time Sp, a main speech superimposition time Op, a main speech superimposition degree Rp, and a superimposed speech utterance corresponding to each superimposition state. The time Sa, the superimposed time Oa of the superimposed voice, the superposition degree Ra of the superimposed voice, and the behavior of the system that determines whether it is a voice operation input are stored in association with each other. The details will be described later as processing of the audio superimposition
ステレオマイク11は、複数人の音声を集音する。具体的には、ステレオマイク11は、複数人の音声を集音し、その音声情報を入力レベル判定部12に通知する。なお、このステレオマイク11の置く位置は自由であり、配線も一本であるため自動車購入後の後付けも容易である。
The
入力レベル判定部12は、入力レベルが所定の閾値以上であるか判定する。具体的には、入力レベル判定部12は、ステレオマイク11から通知された音声情報の入力音声パワーレベルが所定の閾値以上L1であるかを判定する。つまり、入力レベル判定部12は、入力音声パワーレベルが所定の閾値以上L1でない場合には、独り言もしくは騒音と判断して、リジェクトする。また、入力レベル判定部12は、入力音声パワーレベルが所定の閾値以上L1である場合には、音声情報を騒音低減処理部13に通知する。
The input
騒音低減処理部13は、ステレオマイク11が集音した音声情報からスピーカ21が出力した音楽やトークバック等の騒音を低減する処理を行う。具体的には、騒音低減処理部13は、入力レベル判定部12から通知された音声情報をフレーム単位でローパスフィルタ処理などを行って騒音を低減する。そして、騒音低減処理部13は、後述する学習フィルタ15からフィルタ係数を受信した場合には、そのフィルタ係数を用いてステレオマイク11が集音した音声情報から雑音(音楽やトークバック)を除去して乗員の発話のみを抽出し、波形分析/音源分離部16に通知する。また、騒音低減処理部13は、学習フィルタ15からフィルタ係数を受信しない場合には、騒音が低減された音声情報を波形分析/音源分離部16に通知する。
The noise
音声出力判定部14は、音声出力装置20のスピーカ21から音楽またはトークバックが出力されているか判定する。具体的には、音声出力判定部14は、音出力装置20の音楽再生/合成音声再生部23によって再生される音楽またはトークバックの音声データを受信し、オーディオが出力中であるかを判定し、オーディオが出力中であると判定した場合には、学習フィルタ15にスピーカ21から出力された音声を除去する旨の要求を通知する。また、音声出力判定部14は、オーディオが出力中でないと判定した場合には、トークバックが出力しているかを判定する。
The audio output determination unit 14 determines whether music or talkback is output from the
その結果、音声出力判定部14は、トークバックが出力中であると判定した場合は、学習フィルタ15にスピーカ21から出力された音声を除去する旨の要求を学習フィルタに通知する。また、音声出力判定部14は、トークバックが出力中でないと判定した場合は、学習フィルタ15にスピーカ21から出力された音声を除去する処理を行わない旨の要求を通知する。
As a result, when determining that the talkback is being output, the audio output determination unit 14 notifies the learning
学習フィルタ15は、音響エコーキャンセラとして、車室内の反射の影響を学習し、雑音を除去して発話のみを抽出するフィルタ係数を算出する。具体的には、学習フィルタ15は、音声出力判定部14から出力された音声を除去する旨の要求を受信した場合には、音楽再生/合成音声再生部23から音楽やトークバックの音声における原信号を受信し、その原信号が室内で反響した影響を学習して、ステレオマイク11が集音した音声情報から雑音を除去して乗員の発話のみを抽出するためのフィルタ係数を算出し、騒音低減処理部13に通知する。
As an acoustic echo canceller, the learning
波形分析/音源分離部16は、波形を分析して主音声と重畳音声とに区別する。具体的には、波形分析/音源分離部16は、同乗者判定装置30の同乗者有無判定部33から同乗者の有無に関する判定結果を受信し、同乗者がいない場合には、同乗者がいない旨を後述する音声重畳度判定部17に通知する。また、波形分析/音源分離部16は、同乗者がいる場合には、波形を分析して、音源がそれぞれ異なる主音声と重畳音声とに分離して、音声重畳度判定部17に通知する。
The waveform analysis / sound
音声重畳度判定部17は、区別された主音声と重畳音声との相対関係を算出する。具体的には、音声重畳度判定部17は、主音声と重畳音声とが互いに重畳する割合である重畳度を算出し、その重畳度から主音声と重畳音声とが状態A、状態Bまたは状態Cのいずれの状態(重畳状態)であるかを重畳状態判定テーブル18を用いて判定する。
The voice superimposition
ここで、図4を用いて、各重畳状態について具体的に説明する。同図に示すように、重畳状態Aとは、その重畳度から主音声の途中に重畳音声が割り込んでいる状態を示す。つまり、音声重畳度判定部17は、主音声の重畳度Rpが100以下であり、かつ重畳音声の重畳度Raが100である場合には、主音声の途中に重畳音声が割り込んでいる状態(状態A)であると判定する。
Here, each superposition state will be specifically described with reference to FIG. As shown in the figure, the superimposition state A indicates a state in which the superimposing sound is interrupted in the middle of the main sound from the degree of superimposition. That is, when the superimposition degree Rp of the main voice is 100 or less and the superposition degree Ra of the superposed voice is 100, the voice superimposition
また、重畳状態Bとは、主音声の末尾に重畳音声が重畳している状態を示す。つまり、音声重畳度判定部17は、主音声の重畳度Rpが0より大きく100未満であり、かつ重畳音声の重畳度Raが0より大きく100未満である場合には、主音声の末尾に重畳音声が重畳している状態(状態B)であると判定する。また、重畳状態Cとは、主音声と重畳音声とが重なっていない状態を示す。つまり、音声重畳度判定部17は、主音声の重畳度Rpが0であり、かつ重畳音声の重畳度Raが0である場合には、主音声の途中に重畳音声が割り込んでいる状態(状態C)であると判定する。
Superimposition state B indicates a state in which the superimposed sound is superimposed at the end of the main sound. That is, when the superimposition degree Rp of the main sound is greater than 0 and less than 100 and the superimposition degree Ra of the superimposed sound is greater than 0 and less than 100, the sound superimposition
そして、音声重畳度判定部17は、重畳状態を判定した後、算出された重畳状態に基づいて、発話が同乗者に対する会話であるか音声操作入力であるかを判定する。具体的には、音声重畳度判定部17は、重畳状態Aである場合には、重畳音声の発話時間Saが所定の閾値T2以上であって、かつ、重畳音声における重畳フレームの平均パワーAveAが主音声における重畳フレームの平均パワーAveP以上であるかを判定する(図3参照)。
Then, after determining the superimposition state, the voice superimposition
その結果、音声重畳度判定部17は、重畳音声の発話時間Saが所定の閾値T2以上であって、かつ、重畳音声における重畳フレームの平均パワーAveAが主音声における重畳フレームの平均パワーAveP以上である場合には、重畳音声が応答システム50への要求発話と判定し、音声データを音声認識エンジン40の音素照合部41に送信する。一方、音声重畳度判定部17は、畳音声の発話時間Saが所定の閾値T2以上であって、かつ、重畳音声における重畳フレームの平均パワーAveAが主音声における重畳フレームの平均パワーAveP以上でない場合には、相槌や感嘆詩であるとしてリジェクトする(図3参照)。つまり、主音声(会話)に対して割り込んで発話した音声が、短い場合やその主音声より弱いパワーである場合には、相槌や感嘆詩(例えば、「ああ」や「うん」)であると考えられるため、要求発話として受け付けない。
As a result, the speech superimposition
また、音声重畳度判定部17は、重畳状態Bである場合には、主音声における重畳フレームの平均パワーAvePが重畳音声と重畳する直前の主音声のパワー以上であるかを判定する(図3参照)。その結果、音声重畳度判定部17は、主音声における重畳フレームの平均パワーAvePが重畳音声と重畳する直前の主音声のパワー以上である場合には、重畳音声が応答システム50への要求発話と判定し、音声データを音声認識エンジン40の音素照合部41に送信する。一方、音声重畳度判定部17は、主音声における重畳フレームの平均パワーAvePが重畳音声と重畳する直前の主音声のパワー以上でない場合には、相槌や感嘆詩であるとしてリジェクトする(図3参照)。つまり、主音声(会話)が通常の会話であれば、通常会話の終わりは音声が収束してフェードアウトであるのに対し、主音声が急に途切れるような場合には、重畳音声が要求発話であるために会話を中断したと考えられるため、要求発話として受け付ける。
Further, in the superimposition state B, the audio superimposition
また、音声重畳度判定部17は、重畳状態Cである場合には、主音声の発話時間Spまたは重畳音声の発話時間Saが所定の閾値T2以上であるか判定する(図3参照)。その結果、音声重畳度判定部17は、主音声の発話時間Spまたは重畳音声の発話時間Saが所定の閾値T2以上であると判定した場合には、重畳音声が応答システム50への要求発話と判定し、音声データを音声認識エンジン40の音素照合部41に送信する。一方、音声重畳度判定部17は、主音声の発話時間Spまたは重畳音声の発話時間Saが所定の閾値T2以上でないと判定した場合には、相槌や感嘆詩であるとしてリジェクトする(図3参照)。
Further, in the superimposition state C, the speech superimposition
要求判定部19は、認識結果の確からしさを判定する。具体的には、要求判定部19は、音声認識エンジン40の認識結果出力部43から送信された認識結果を受信し、その認識結果の確からしさ尤値度を用いて判定する。その結果、要求判定部19は、認識結果が確からしくないと判定した場合には、リジェクトし、一方、認識結果が確からしいと判定した場合には、応答システム50に要求を送信する。
The
[発話検知システムによる処理]
次に、図5および図6を用いて、実施例1に係る発話検知システム1による処理を説明する。図5は、実施例1に係る発話検知システム1の処理動作を示すフローチャートであり、図6は、実施例1に係る発話検知システム1のシステム要求判定処理を示すフローチャートである。
[Processing by speech detection system]
Next, processing performed by the utterance detection system 1 according to the first embodiment will be described with reference to FIGS. 5 and 6. FIG. 5 is a flowchart illustrating the processing operation of the utterance detection system 1 according to the first embodiment, and FIG. 6 is a flowchart illustrating the system request determination process of the utterance detection system 1 according to the first embodiment.
図5に示すように、発話検知装置10は、ステレオマイク11によって集音された音声情報の入力音声パワーレベルが所定の閾値以上L1であるかを判定する(ステップS101)。その結果、発話検知装置10は、入力音声パワーレベルが所定の閾値以上L1でない場合には(ステップS101否定)、独り言もしくは騒音と判断して、リジェクトする(ステップS102)。
As shown in FIG. 5, the
また、発話検知装置10は、入力音声パワーレベルが所定の閾値以上L1である場合には(ステップS101肯定)、音声情報をフレーム単位でローパスフィルタ処理などを行って雑音を低減する雑音低減処理を行う(ステップS103)。また、発話検知装置10は、音声出力装置20によって再生される音楽またはトークバックの音声データを受信し、オーディオが出力中であるかを判定し(ステップS104)、オーディオが出力中でないと判定した場合には(ステップS104否定)、トークバックが出力しているかを判定する(ステップS105)。
Further, when the input voice power level is equal to or greater than the predetermined threshold value L1 (Yes in step S101), the
また、発話検知装置10は、ステップS104およびステップS105において、オーディオが出力中であると判定した場合(ステップS104肯定)、またはトークバックが出力中であると判定した場合は(ステップS105肯定)、雑音除去処理を行う(ステップS106)。具体的には、発話検知装置10は、原信号が室内で反響した影響を学習し、ステレオマイク11が集音した音声情報から雑音を除去して乗員の発話のみを抽出するためのフィルタ係数を算出し、フィルタ係数を用いてステレオマイク11が集音した音声情報から雑音を除去して乗員の発話のみを抽出する。なお、上記した処理では、フレーム単位で音声情報の処理を行い、処理された音声情報を所定の記憶部に遂次記憶し、以下の処理では、所定の記憶部に蓄積された複数のフレーム単位で処理を行っている。
Further, in step S104 and step S105, the
そして、発話検知装置10は、トークバックが出力中でないと判定した場合(ステップS105否定)、または雑音除去処理を行った後(ステップS106)、システム要求判定処理(後に図6を用いて詳述)を実行し(ステップS107)、音声が応答システム50への要求発話であるか判定する(ステップS108)。その結果、発話検知装置10は、音声が応答システム50への要求発話でないと判定した場合には(ステップS108否定)、相槌や感嘆詩であると考えられるため、要求発話として受け付けずに相槌や感嘆詩であるとしてリジェクトする(ステップS109)。
When the
また、発話検知装置10によって音声が応答システム50への要求発話であると判定された場合には(ステップS108肯定)、音声認識エンジン40は、発話検知装置10から音声データを受信し、その音声データを解析して音素照合を行う(ステップS110)。そして、音声認識エンジン40は、その音素に関する情報から音声認識辞書を用いて、単語の照合を行い(ステップS111)、認識結果を出力する(ステップS112)。
If the
その後、発話検知装置10は、音声認識エンジン40から送信された認識結果を受信して、その認識結果の確からしさ尤値度を用いて判定する(ステップS113)。その結果、発話検知装置10は、認識結果が確からしくないと判定した場合には(ステップS113否定)、リジェクトする(ステップS114)。一方、発話検知装置10によって認識結果が確からしいと判定された場合には(ステップS113肯定)、応答システム50は、発話検知装置10から送信された要求を受信し、その要求に対応するシステム応答処理として実行する(ステップS115)。
Thereafter, the
次に、図6を用いて、実施例1に係る実施例1に係る発話検知システム1のシステム要求判定処理を説明する。同図に示すように、発話検知装置10は、雑音除去済み音声データが入力されると(ステップS201)、同乗者の有無に関する判定結果から同乗者がいるか判定する(ステップS202)。その結果、発話検知装置10は、同乗者がいると判定した場合には(ステップS202肯定)、波形を分析して、音源がそれぞれ異なる主音声と重畳音声とに区別する(ステップS203)。
Next, the system request determination process of the utterance detection system 1 according to the first embodiment according to the first embodiment will be described with reference to FIG. As shown in the figure, when the speech-removed voice data is input (step S201), the
そして、発話検知装置10は、主音声と重畳音声とが互いに重畳する割合である重畳度を算出し(ステップS204)、その重畳度から主音声と重畳音声とが状態A、状態Bまたは状態Cのいずれの状態(重畳状態)であるかを重畳状態判定テーブル18を用いて判定する(ステップS205)。
Then, the
つまり、発話検知装置10は、主音声の重畳度Rpが100以下であり、かつ重畳音声の重畳度Raが100である場合には、主音声の途中に重畳音声が割り込んでいる状態(状態A)であると判定する(ステップS205状態A)。また、発話検知装置10は、主音声の重畳度Rpが0より大きく100未満であり、かつ重畳音声の重畳度Raが0より大きく100未満である場合には、主音声の末尾に重畳音声が重畳している状態(状態B)であると判定する(ステップS205状態B)。また、発話検知装置10は、主音声の重畳度Rpが0であり、かつ重畳音声の重畳度Raが0である場合には、主音声の途中に重畳音声が割り込んでいる状態(状態C)であると判定する(ステップS205状態C)。
In other words, the
そして、発話検知装置10は、重畳状態Aであると判定した場合には(ステップS205状態A)、重畳音声の発話時間Saが所定の閾値T2以上であって、かつ、重畳音声における重畳フレームの平均パワーAveAが主音声における重畳フレームの平均パワーAveP以上であるかを判定する(ステップS206)。
When the
その結果、発話検知装置10は、重畳音声の発話時間Saが所定の閾値T2以上であって、かつ、重畳音声における重畳フレームの平均パワーAveAが主音声における重畳フレームの平均パワーAveP以上である場合には(ステップS206肯定)、重畳音声が応答システム50への要求発話と判定する(ステップS207)。一方、発話検知装置10は、畳音声の発話時間Saが所定の閾値T2以上であって、かつ、重畳音声における重畳フレームの平均パワーAveAが主音声における重畳フレームの平均パワーAveP以上でない場合には(ステップS206否定)、会話と判定する(ステップS208)。つまり、主音声(会話)に対して割り込んで発話した音声が、短い場合やその主音声より弱いパワーである場合には、相槌や感嘆詩(例えば、「ああ」や「うん」)であると考えられるため、要求発話として受け付けない。
As a result, the
また、発話検知装置10は、重畳状態Bである場合には(ステップS205状態B)、主音声における重畳フレームの平均パワーAvePが重畳音声と重畳する直前の主音声のパワー以上であるかを判定する(ステップS209)。その結果、発話検知装置10は、主音声における重畳フレームの平均パワーAvePが重畳音声と重畳する直前の主音声のパワー以上である場合には(ステップS209肯定)、重畳音声が応答システム50への要求発話と判定する(ステップS210)。一方、発話検知装置10は、主音声における重畳フレームの平均パワーAvePが重畳音声と重畳する直前の主音声のパワー以上でない場合には(ステップ209否定)、会話であると判定する(ステップS211)。
Further, when the
また、発話検知装置10は、ステップS202において同乗者がいないと判定した場合には(ステップS202否定)、または、ステップS205において重畳状態Cである場合には(ステップS205状態C)、主音声の発話時間Spまたは重畳音声の発話時間Saが所定の閾値T2以上であるか判定する(ステップS212)。その結果、発話検知装置10は、主音声の発話時間Spまたは重畳音声の発話時間Saが所定の閾値T2以上であると判定した場合には(ステップS212肯定)、重畳音声が応答システム50への要求発話と判定する(ステップS213)。一方、発話検知装置10は、主音声の発話時間Spまたは重畳音声の発話時間Saが所定の閾値T2以上でないと判定した場合には(ステップS212否定)、会話であると判定する(ステップS214)。
Further, when it is determined in step S202 that there is no passenger (No in step S202), or when the
[実施例1の効果]
上述してきたように、発話検知装置10は、複数人の音声を集音し、集音された音声を複数人ごとに主音声と重畳音声として区別し、その主音声と重畳音声との相対関係として、主音声の途中に重畳音声が割り込んでいる状態、主音声の末尾に重畳音声が重畳している状態、主音声と重畳音声とが重ならない状態のいずれの状態であるかを算出し、算出された状態に基づいて、主音声または重畳音声が音声操作入力であるかを判定するので、音声認識の精度を向上して、誤認識を防止することが可能になる。
[Effect of Example 1]
As described above, the
また、実施例1によれば、重畳関係として、主音声の途中に重畳音声が割り込んでいる重畳状態Aであると算出された場合には、重畳音声の発話時間Saが所定の時間T2以上であって、かつ主音声のパワーAvePが重畳音声のパワーAveA以上であるかを判定し、重畳音声の発話時間Saが所定の時間T2以上であって、かつ主音声のパワーAvePが重畳音声のパワーAveA以上であると算出された場合には、重畳音声が音声操作入力であると判定するので、主音声(会話)に対して割り込んで発話した重畳音声が、短い場合やその主音声より弱いパワーである場合には、相槌や感嘆詩(例えば、「ああ」や「うん」)であると考えられるため、音声操作入力として受け付けない結果、音声認識の精度をより向上して、誤認識を防止することが可能になる。 Further, according to the first embodiment, when the superimposition relation is calculated as the superimposition state A in which the superimposition voice is interrupted in the middle of the main voice, the speech time Sa of the superimposition voice is equal to or longer than the predetermined time T2. It is determined whether the power AveP of the main voice is equal to or greater than the power AveA of the superimposed voice, the speech time Sa of the superimposed voice is equal to or longer than the predetermined time T2, and the power AveP of the main voice is the power of the superimposed voice. When it is calculated that it is equal to or higher than AveA, it is determined that the superimposed voice is a voice operation input. Therefore, the superimposed voice that is interrupted and spoken with respect to the main voice (conversation) is short or has a weaker power than the main voice. If it is, it is considered a companion or exclamation (for example, “Ah” or “Ye”), so it is not accepted as a voice operation input. As a result, the accuracy of voice recognition is further improved and false recognition is prevented. It becomes possible to.
また、実施例1によれば、重畳関係として、主音声の末尾に重畳音声が重畳している重畳状態Bであると算出された場合には、主音声の平均パワーAvePが重畳音声と重畳する直前の主音声のパワー以上であるかを判定し、主音声の平均パワーAvePが重畳音声と重畳する直前の主音声のパワー以上であると算出された場合には、重畳音声が音声操作入力であると判定するので、主音声(会話)が通常の会話であれば、通常会話の終わりは音声が収束してフェードアウトであるのに対し、主音声が急に途切れるような場合には、重畳音声が要求発話であるために会話を中断したと考えられるため、要求発話として受け付ける結果、音声認識の精度をより向上して、誤認識を防止することが可能になる。 Further, according to the first embodiment, when the superimposition relation is calculated as the superimposition state B in which the superimposition sound is superimposed on the end of the main sound, the average power AveP of the main sound is superimposed on the superimposition sound. It is determined whether or not the power of the main voice just before is higher than the average power AveP of the main voice and the power of the main voice just before superimposing with the superimposed voice is calculated. Therefore, if the main voice (conversation) is a normal conversation, the voice will converge and fade out at the end of the normal conversation, whereas if the main voice is suddenly interrupted, the superimposed voice Therefore, it is considered that the conversation is interrupted because it is a requested utterance, and as a result of accepting it as a requested utterance, the accuracy of voice recognition can be further improved and erroneous recognition can be prevented.
さて、これまで本発明の実施例について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。そこで、以下に示すように、(1)マイク、(2)相対関係、(3)乗員数、(4)システム構成等、(5)プログラムにそれぞれ区分けして異なる実施例を説明する。 Although the embodiments of the present invention have been described so far, the present invention may be implemented in various different forms other than the embodiments described above. Therefore, as shown below, (1) microphone, (2) relative relationship, (3) number of occupants, (4) system configuration, etc., (5) different embodiments will be described by being divided into programs.
(1)マイク
上記の実施例1では、単一のステレオマイクを用いて車室内の音声を集音する場合を説明したが、本発明はこれに限定されるものではなく、複数のマイクを車室内に設けて集音するようにしてもよい。
(1) Microphone In the first embodiment described above, the case where the sound in the vehicle interior is collected using a single stereo microphone has been described. However, the present invention is not limited to this, and a plurality of microphones are mounted on the vehicle. It may be provided indoors to collect sound.
(2)相対関係
また、上記の実施例1では、相対関係として、重畳状態を算出する場合を説明したが、本発明はこれに限定されるものではなく、重畳していない音声同士の相対関係を算出するようにしてもよい。
(2) Relative relationship In the first embodiment, the case where the superimposition state is calculated as the relative relationship has been described. However, the present invention is not limited to this, and the relative relationship between the non-superimposed sounds. May be calculated.
(3)乗員数
また、上記の実施例1では、車両内の乗員が二人いる場合の処理を説明したが、本発明はこれに限定されるものではなく、三人以上いる場合にも適用することが可能なようにしてもよい。例えば、発話検知装置は、三人以上の音声を集音した場合には、集音した音声のうち、音量の大きい二つの音声の相対関係を算出して、音声操作入力であるかを判定する。
(3) Number of passengers In the first embodiment described above, the processing when there are two passengers in the vehicle has been described. However, the present invention is not limited to this, and is also applicable when there are three or more passengers. It may be possible to do this. For example, when three or more voices are collected, the utterance detection device calculates a relative relationship between two voices having a high volume among the collected voices and determines whether the voice operation input is performed. .
(4)システム構成等
また、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、集音された音声が要求発話であるか会話であるかを判定する場合に用いられる閾値T2の値を任意に変更することができる。
(4) System configuration, etc. The processing procedures, control procedures, specific names, information including various data and parameters shown in the above documents and drawings may be arbitrarily changed unless otherwise specified. it can. For example, the value of the threshold value T2 used when determining whether the collected voice is a requested utterance or a conversation can be arbitrarily changed.
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示(例えば、図2など)の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、発話検知装置10と音声認識エンジン40とを統合するようにしてもよい。
Each component of each illustrated apparatus is functionally conceptual, and does not necessarily need to be physically configured as illustrated (for example, FIG. 2). In other words, the specific form of distribution / integration of each device is not limited to that shown in the figure, and all or a part thereof may be functionally or physically distributed or arbitrarily distributed in arbitrary units according to various loads or usage conditions. Can be integrated and configured. For example, the
(5)プログラム
なお、本実施例で説明した発話検知方法は、あらかじめ用意されたプログラムを車載装置であるカーナビゲーションなどのコンピュータで実行することによって実現することができる。このプログラムは、インターネットなどのネットワークを介して配布することができる。また、このプログラムは、ハードディスク、フレキシブルディスク(FD)、CD−ROM、MO、DVDなどのコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行することもできる。
(5) Program The utterance detection method described in this embodiment can be realized by executing a program prepared in advance by a computer such as a car navigation system that is an in-vehicle device. This program can be distributed via a network such as the Internet. The program can also be executed by being recorded on a computer-readable recording medium such as a hard disk, a flexible disk (FD), a CD-ROM, an MO, and a DVD and being read from the recording medium by the computer.
以上のように、本発明に係る発話検知装置は発話が音声操作入力であるかを判定する場合に有用であり、特に、音声認識の精度を向上して、誤認識を防止することに適する。 As described above, the utterance detection device according to the present invention is useful for determining whether an utterance is a voice operation input, and is particularly suitable for improving the accuracy of voice recognition and preventing erroneous recognition.
1 発話検知システム
10 発話検知装置
11 ステレオマイク
12 入力レベル判定部
13 騒音低減処理部
14 音声出力判定部
15 学習フィルタ
16 波形分析/音源分離部
17 音声重畳度判定部
18 重畳状態判定テーブル
19 要求判定部
20 音声出力装置
21 スピーカ
22 アンプ
23 音楽再生/合成音声再生部
30 同乗者判定装置
31 車室内カメラ
32 荷重センサ
33 同乗者有無判定部
40 音声認識エンジン
41 音素照合部
42 単語照合部
43 認識結果出力部
50 応答システム
DESCRIPTION OF SYMBOLS 1
Claims (3)
前記集音手段によって集音された音声を前記複数人ごとに第一の音声と第二の音声として区別し、当該第一の音声と第二の音声との相対関係として、前記第一の音声の途中に前記第二の音声が割り込んでいる状態、前記第一の音声の末尾に前記第二の音声が重畳している状態、前記第一の音声と前記第二の音声とが重ならない状態のいずれの状態であるかを算出する相対関係算出手段と、
前記相対関係算出手段によって算出された前記状態に基づいて、前記第一の音声または前記第二の音声が音声操作入力であるかを判定することを特徴とする請求項1に記載の発話検知装置。 A sound collecting means for collecting sounds of a plurality of people;
The sound collected by the sound collecting means is distinguished as a first sound and a second sound for each of the plurality of people, and the first sound is determined as a relative relationship between the first sound and the second sound. The state in which the second sound is interrupted in the middle of the state, the state in which the second sound is superimposed on the end of the first sound, and the state in which the first sound and the second sound do not overlap A relative relationship calculating means for calculating which state of
The utterance detection device according to claim 1, wherein it is determined whether the first voice or the second voice is a voice operation input based on the state calculated by the relative relationship calculation unit. .
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007147383A JP2008299221A (en) | 2007-06-01 | 2007-06-01 | Speech detection device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007147383A JP2008299221A (en) | 2007-06-01 | 2007-06-01 | Speech detection device |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008299221A true JP2008299221A (en) | 2008-12-11 |
Family
ID=40172769
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007147383A Pending JP2008299221A (en) | 2007-06-01 | 2007-06-01 | Speech detection device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2008299221A (en) |
Cited By (87)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016004270A (en) * | 2014-05-30 | 2016-01-12 | アップル インコーポレイテッド | Reducing need for manual start/end-pointing and trigger phrases |
WO2016051519A1 (en) * | 2014-09-30 | 2016-04-07 | 三菱電機株式会社 | Speech recognition system |
US9865248B2 (en) | 2008-04-05 | 2018-01-09 | Apple Inc. | Intelligent text-to-speech conversion |
US9966060B2 (en) | 2013-06-07 | 2018-05-08 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US9971774B2 (en) | 2012-09-19 | 2018-05-15 | Apple Inc. | Voice-based media searching |
US9986419B2 (en) | 2014-09-30 | 2018-05-29 | Apple Inc. | Social reminders |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10049675B2 (en) | 2010-02-25 | 2018-08-14 | Apple Inc. | User profiling for voice input processing |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10079014B2 (en) | 2012-06-08 | 2018-09-18 | Apple Inc. | Name recognition system |
US10083690B2 (en) | 2014-05-30 | 2018-09-25 | Apple Inc. | Better resolution when referencing to concepts |
US10108612B2 (en) | 2008-07-31 | 2018-10-23 | Apple Inc. | Mobile device having human language translation capability with positional feedback |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10269345B2 (en) | 2016-06-11 | 2019-04-23 | Apple Inc. | Intelligent task discovery |
US10303715B2 (en) | 2017-05-16 | 2019-05-28 | Apple Inc. | Intelligent automated assistant for media exploration |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
US10311871B2 (en) | 2015-03-08 | 2019-06-04 | Apple Inc. | Competing devices responding to voice triggers |
US10318871B2 (en) | 2005-09-08 | 2019-06-11 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US10332518B2 (en) | 2017-05-09 | 2019-06-25 | Apple Inc. | User interface for correcting recognition errors |
US10354011B2 (en) | 2016-06-09 | 2019-07-16 | Apple Inc. | Intelligent automated assistant in a home environment |
US10356243B2 (en) | 2015-06-05 | 2019-07-16 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10354652B2 (en) | 2015-12-02 | 2019-07-16 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10381016B2 (en) | 2008-01-03 | 2019-08-13 | Apple Inc. | Methods and apparatus for altering audio output signals |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
US10403283B1 (en) | 2018-06-01 | 2019-09-03 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
US10410637B2 (en) | 2017-05-12 | 2019-09-10 | Apple Inc. | User-specific acoustic models |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
US10417405B2 (en) | 2011-03-21 | 2019-09-17 | Apple Inc. | Device access using voice authentication |
US10417344B2 (en) | 2014-05-30 | 2019-09-17 | Apple Inc. | Exemplar-based natural language processing |
US10431204B2 (en) | 2014-09-11 | 2019-10-01 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10438595B2 (en) | 2014-09-30 | 2019-10-08 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US10453443B2 (en) | 2014-09-30 | 2019-10-22 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US10482874B2 (en) | 2017-05-15 | 2019-11-19 | Apple Inc. | Hierarchical belief states for digital assistants |
US10496705B1 (en) | 2018-06-03 | 2019-12-03 | Apple Inc. | Accelerated task performance |
US10497365B2 (en) | 2014-05-30 | 2019-12-03 | Apple Inc. | Multi-command single utterance input method |
US10529332B2 (en) | 2015-03-08 | 2020-01-07 | Apple Inc. | Virtual assistant activation |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US10580409B2 (en) | 2016-06-11 | 2020-03-03 | Apple Inc. | Application integration with a digital assistant |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
US10643611B2 (en) | 2008-10-02 | 2020-05-05 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US10657961B2 (en) | 2013-06-08 | 2020-05-19 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
US10684703B2 (en) | 2018-06-01 | 2020-06-16 | Apple Inc. | Attention aware virtual assistant dismissal |
US10699717B2 (en) | 2014-05-30 | 2020-06-30 | Apple Inc. | Intelligent assistant for home automation |
US10706841B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Task flow identification based on user intent |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
US10733993B2 (en) | 2016-06-10 | 2020-08-04 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
US10755703B2 (en) | 2017-05-11 | 2020-08-25 | Apple Inc. | Offline personal assistant |
US10769385B2 (en) | 2013-06-09 | 2020-09-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
US10791176B2 (en) | 2017-05-12 | 2020-09-29 | Apple Inc. | Synchronization and task delegation of a digital assistant |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US10789945B2 (en) | 2017-05-12 | 2020-09-29 | Apple Inc. | Low-latency intelligent automated assistant |
US10795541B2 (en) | 2009-06-05 | 2020-10-06 | Apple Inc. | Intelligent organization of tasks items |
US10810274B2 (en) | 2017-05-15 | 2020-10-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
US10904611B2 (en) | 2014-06-30 | 2021-01-26 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US10942702B2 (en) | 2016-06-11 | 2021-03-09 | Apple Inc. | Intelligent device arbitration and control |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
US11023513B2 (en) | 2007-12-20 | 2021-06-01 | Apple Inc. | Method and apparatus for searching using an active ontology |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US11048473B2 (en) | 2013-06-09 | 2021-06-29 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US11069347B2 (en) | 2016-06-08 | 2021-07-20 | Apple Inc. | Intelligent automated assistant for media exploration |
US11069336B2 (en) | 2012-03-02 | 2021-07-20 | Apple Inc. | Systems and methods for name pronunciation |
US11080012B2 (en) | 2009-06-05 | 2021-08-03 | Apple Inc. | Interface for a virtual digital assistant |
US11127397B2 (en) | 2015-05-27 | 2021-09-21 | Apple Inc. | Device voice control |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
US11217255B2 (en) | 2017-05-16 | 2022-01-04 | Apple Inc. | Far-field extension for digital assistant services |
US11231904B2 (en) | 2015-03-06 | 2022-01-25 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
US11314370B2 (en) | 2013-12-06 | 2022-04-26 | Apple Inc. | Method for extracting salient dialog usage from live data |
US11350253B2 (en) | 2011-06-03 | 2022-05-31 | Apple Inc. | Active transport based notifications |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
US11495218B2 (en) | 2018-06-01 | 2022-11-08 | Apple Inc. | Virtual assistant operation in multi-device environments |
WO2024189935A1 (en) * | 2023-03-15 | 2024-09-19 | パイオニア株式会社 | Information processing system, information processing device, control method for information processing system, and program |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07334458A (en) * | 1994-06-13 | 1995-12-22 | Nippon Telegr & Teleph Corp <Ntt> | Information interchange supporting device |
JP2000341658A (en) * | 1999-05-27 | 2000-12-08 | Nec Eng Ltd | Speaker direction detecting system |
JP2003241797A (en) * | 2002-02-22 | 2003-08-29 | Fujitsu Ltd | Spoken dialogue system |
JP2003308079A (en) * | 2002-04-15 | 2003-10-31 | Nissan Motor Co Ltd | Voice input device |
JP2004286805A (en) * | 2003-03-19 | 2004-10-14 | Sony Corp | Method, apparatus, and program for identifying speaker |
-
2007
- 2007-06-01 JP JP2007147383A patent/JP2008299221A/en active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07334458A (en) * | 1994-06-13 | 1995-12-22 | Nippon Telegr & Teleph Corp <Ntt> | Information interchange supporting device |
JP2000341658A (en) * | 1999-05-27 | 2000-12-08 | Nec Eng Ltd | Speaker direction detecting system |
JP2003241797A (en) * | 2002-02-22 | 2003-08-29 | Fujitsu Ltd | Spoken dialogue system |
JP2003308079A (en) * | 2002-04-15 | 2003-10-31 | Nissan Motor Co Ltd | Voice input device |
JP2004286805A (en) * | 2003-03-19 | 2004-10-14 | Sony Corp | Method, apparatus, and program for identifying speaker |
Cited By (109)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10318871B2 (en) | 2005-09-08 | 2019-06-11 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US11023513B2 (en) | 2007-12-20 | 2021-06-01 | Apple Inc. | Method and apparatus for searching using an active ontology |
US10381016B2 (en) | 2008-01-03 | 2019-08-13 | Apple Inc. | Methods and apparatus for altering audio output signals |
US9865248B2 (en) | 2008-04-05 | 2018-01-09 | Apple Inc. | Intelligent text-to-speech conversion |
US10108612B2 (en) | 2008-07-31 | 2018-10-23 | Apple Inc. | Mobile device having human language translation capability with positional feedback |
US10643611B2 (en) | 2008-10-02 | 2020-05-05 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US11348582B2 (en) | 2008-10-02 | 2022-05-31 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US10795541B2 (en) | 2009-06-05 | 2020-10-06 | Apple Inc. | Intelligent organization of tasks items |
US11080012B2 (en) | 2009-06-05 | 2021-08-03 | Apple Inc. | Interface for a virtual digital assistant |
US11423886B2 (en) | 2010-01-18 | 2022-08-23 | Apple Inc. | Task flow identification based on user intent |
US10706841B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Task flow identification based on user intent |
US10692504B2 (en) | 2010-02-25 | 2020-06-23 | Apple Inc. | User profiling for voice input processing |
US10049675B2 (en) | 2010-02-25 | 2018-08-14 | Apple Inc. | User profiling for voice input processing |
US10417405B2 (en) | 2011-03-21 | 2019-09-17 | Apple Inc. | Device access using voice authentication |
US11350253B2 (en) | 2011-06-03 | 2022-05-31 | Apple Inc. | Active transport based notifications |
US11069336B2 (en) | 2012-03-02 | 2021-07-20 | Apple Inc. | Systems and methods for name pronunciation |
US10079014B2 (en) | 2012-06-08 | 2018-09-18 | Apple Inc. | Name recognition system |
US9971774B2 (en) | 2012-09-19 | 2018-05-15 | Apple Inc. | Voice-based media searching |
US9966060B2 (en) | 2013-06-07 | 2018-05-08 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US10657961B2 (en) | 2013-06-08 | 2020-05-19 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10769385B2 (en) | 2013-06-09 | 2020-09-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
US11048473B2 (en) | 2013-06-09 | 2021-06-29 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US11314370B2 (en) | 2013-12-06 | 2022-04-26 | Apple Inc. | Method for extracting salient dialog usage from live data |
US11133008B2 (en) | 2014-05-30 | 2021-09-28 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US11810562B2 (en) | 2014-05-30 | 2023-11-07 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US10083690B2 (en) | 2014-05-30 | 2018-09-25 | Apple Inc. | Better resolution when referencing to concepts |
US11257504B2 (en) | 2014-05-30 | 2022-02-22 | Apple Inc. | Intelligent assistant for home automation |
US10699717B2 (en) | 2014-05-30 | 2020-06-30 | Apple Inc. | Intelligent assistant for home automation |
JP2016004270A (en) * | 2014-05-30 | 2016-01-12 | アップル インコーポレイテッド | Reducing need for manual start/end-pointing and trigger phrases |
US10657966B2 (en) | 2014-05-30 | 2020-05-19 | Apple Inc. | Better resolution when referencing to concepts |
US10714095B2 (en) | 2014-05-30 | 2020-07-14 | Apple Inc. | Intelligent assistant for home automation |
US12118999B2 (en) | 2014-05-30 | 2024-10-15 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US10417344B2 (en) | 2014-05-30 | 2019-09-17 | Apple Inc. | Exemplar-based natural language processing |
US10497365B2 (en) | 2014-05-30 | 2019-12-03 | Apple Inc. | Multi-command single utterance input method |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US10904611B2 (en) | 2014-06-30 | 2021-01-26 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10431204B2 (en) | 2014-09-11 | 2019-10-01 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US9986419B2 (en) | 2014-09-30 | 2018-05-29 | Apple Inc. | Social reminders |
US10453443B2 (en) | 2014-09-30 | 2019-10-22 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US10390213B2 (en) | 2014-09-30 | 2019-08-20 | Apple Inc. | Social reminders |
US10438595B2 (en) | 2014-09-30 | 2019-10-08 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
CN106796786A (en) * | 2014-09-30 | 2017-05-31 | 三菱电机株式会社 | Speech recognition system |
WO2016051519A1 (en) * | 2014-09-30 | 2016-04-07 | 三菱電機株式会社 | Speech recognition system |
DE112014007015B4 (en) * | 2014-09-30 | 2021-01-14 | Mitsubishi Electric Corporation | Speech recognition system |
US11231904B2 (en) | 2015-03-06 | 2022-01-25 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US11087759B2 (en) | 2015-03-08 | 2021-08-10 | Apple Inc. | Virtual assistant activation |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US10311871B2 (en) | 2015-03-08 | 2019-06-04 | Apple Inc. | Competing devices responding to voice triggers |
US10529332B2 (en) | 2015-03-08 | 2020-01-07 | Apple Inc. | Virtual assistant activation |
US11127397B2 (en) | 2015-05-27 | 2021-09-21 | Apple Inc. | Device voice control |
US10356243B2 (en) | 2015-06-05 | 2019-07-16 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10354652B2 (en) | 2015-12-02 | 2019-07-16 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US11069347B2 (en) | 2016-06-08 | 2021-07-20 | Apple Inc. | Intelligent automated assistant for media exploration |
US10354011B2 (en) | 2016-06-09 | 2019-07-16 | Apple Inc. | Intelligent automated assistant in a home environment |
US10733993B2 (en) | 2016-06-10 | 2020-08-04 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10269345B2 (en) | 2016-06-11 | 2019-04-23 | Apple Inc. | Intelligent task discovery |
US10580409B2 (en) | 2016-06-11 | 2020-03-03 | Apple Inc. | Application integration with a digital assistant |
US10942702B2 (en) | 2016-06-11 | 2021-03-09 | Apple Inc. | Intelligent device arbitration and control |
US11152002B2 (en) | 2016-06-11 | 2021-10-19 | Apple Inc. | Application integration with a digital assistant |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10553215B2 (en) | 2016-09-23 | 2020-02-04 | Apple Inc. | Intelligent automated assistant |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
US10332518B2 (en) | 2017-05-09 | 2019-06-25 | Apple Inc. | User interface for correcting recognition errors |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
US10755703B2 (en) | 2017-05-11 | 2020-08-25 | Apple Inc. | Offline personal assistant |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
US10847142B2 (en) | 2017-05-11 | 2020-11-24 | Apple Inc. | Maintaining privacy of personal information |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
US10410637B2 (en) | 2017-05-12 | 2019-09-10 | Apple Inc. | User-specific acoustic models |
US11405466B2 (en) | 2017-05-12 | 2022-08-02 | Apple Inc. | Synchronization and task delegation of a digital assistant |
US10789945B2 (en) | 2017-05-12 | 2020-09-29 | Apple Inc. | Low-latency intelligent automated assistant |
US10791176B2 (en) | 2017-05-12 | 2020-09-29 | Apple Inc. | Synchronization and task delegation of a digital assistant |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
US10810274B2 (en) | 2017-05-15 | 2020-10-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
US10482874B2 (en) | 2017-05-15 | 2019-11-19 | Apple Inc. | Hierarchical belief states for digital assistants |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
US10303715B2 (en) | 2017-05-16 | 2019-05-28 | Apple Inc. | Intelligent automated assistant for media exploration |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
US11217255B2 (en) | 2017-05-16 | 2022-01-04 | Apple Inc. | Far-field extension for digital assistant services |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
US10684703B2 (en) | 2018-06-01 | 2020-06-16 | Apple Inc. | Attention aware virtual assistant dismissal |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
US11009970B2 (en) | 2018-06-01 | 2021-05-18 | Apple Inc. | Attention aware virtual assistant dismissal |
US10403283B1 (en) | 2018-06-01 | 2019-09-03 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US11495218B2 (en) | 2018-06-01 | 2022-11-08 | Apple Inc. | Virtual assistant operation in multi-device environments |
US10984798B2 (en) | 2018-06-01 | 2021-04-20 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US10504518B1 (en) | 2018-06-03 | 2019-12-10 | Apple Inc. | Accelerated task performance |
US10496705B1 (en) | 2018-06-03 | 2019-12-03 | Apple Inc. | Accelerated task performance |
US10944859B2 (en) | 2018-06-03 | 2021-03-09 | Apple Inc. | Accelerated task performance |
WO2024189935A1 (en) * | 2023-03-15 | 2024-09-19 | パイオニア株式会社 | Information processing system, information processing device, control method for information processing system, and program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2008299221A (en) | Speech detection device | |
JP5649488B2 (en) | Voice discrimination device, voice discrimination method, and voice discrimination program | |
CN112424860A (en) | Detection of replay attacks | |
JP2003308079A (en) | Voice input device | |
US11089404B2 (en) | Sound processing apparatus and sound processing method | |
JP2005195895A (en) | Noise eliminating device, speech recognition device, and car navigation device | |
JP2001075594A (en) | Voice recognition system | |
JP2007219207A (en) | Speech recognition device | |
CN112397065A (en) | Voice interaction method and device, computer readable storage medium and electronic equipment | |
US20070198268A1 (en) | Method for controlling a speech dialog system and speech dialog system | |
JP6847324B2 (en) | Speech recognition device, speech recognition system, and speech recognition method | |
JP6459330B2 (en) | Speech recognition apparatus, speech recognition method, and speech recognition program | |
JP2012163692A (en) | Voice signal processing system, voice signal processing method, and voice signal processing method program | |
JP2008250236A (en) | Speech recognition device and speech recognition method | |
JP4752028B2 (en) | Discrimination processing method for non-speech speech in speech | |
JP2005338454A (en) | Spoken dialogue device | |
KR20220104693A (en) | Live speech detection | |
JPH04318900A (en) | Multidirectional simultaneous sound collection type voice recognizing method | |
JP2005354223A (en) | Sound source information processing apparatus, sound source information processing method, and sound source information processing program | |
JP3649032B2 (en) | Speech recognition method | |
CN112530452B (en) | Post-filtering compensation method, device and system | |
CN110942770B (en) | Voice recognition device, voice recognition method, and non-transitory computer-readable medium storing voice recognition program | |
CN113707156A (en) | Vehicle-mounted voice recognition method and system | |
JP2010164992A (en) | Speech interaction device | |
KR20220067276A (en) | Speaker diarization of single channel speech using source separation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110201 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20110719 |