DE69829187T2 - Semi-monitored speaker adaptation - Google Patents
Semi-monitored speaker adaptation Download PDFInfo
- Publication number
- DE69829187T2 DE69829187T2 DE69829187T DE69829187T DE69829187T2 DE 69829187 T2 DE69829187 T2 DE 69829187T2 DE 69829187 T DE69829187 T DE 69829187T DE 69829187 T DE69829187 T DE 69829187T DE 69829187 T2 DE69829187 T2 DE 69829187T2
- Authority
- DE
- Germany
- Prior art keywords
- module
- utterance
- received
- adaptation
- speaker
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0638—Interactive procedures
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Electrically Operated Instructional Devices (AREA)
- Document Processing Apparatus (AREA)
Description
Diese Erfindung bezieht sich auf die automatische Spracherkennung (ASE), insbesondere auf Verfahren, um eine nicht überwachte oder Online-Anpassung eines automatischen Spracherkennungssystems auszuführen, und auf ein Spracherkennungssystem, das die Verfahren der Erfindung ausführen kann.These Invention relates to automatic speech recognition (ASE), in particular, to procedures for unmonitored or online adaptation an automatic speech recognition system, and on a speech recognition system, the methods of the invention To run can.
Die Spracherkennungseinrichtungen des Standes der Technik umfassen eine Menge statistischer Verteilungen, die die akustischen Eigenschaften bestimmter Sprachsegmente modellieren. Diese akustischen Eigenschaften sind in Merkmalsvektoren codiert. Als ein Beispiel kann eine Gaußsche Verteilung für jedes Phonem genommen werden. Diese Verteilungen sind mit Zuständen verbunden. Ein (stochastisches) Zustandsübergangsnetz (normalerweise Hidden-Markov-Modelle) definiert die Wahrscheinlichkeiten für die Folgen der Zustände und die Folgen der Merkmalsvektoren. Das Hindurchleiten eines Zustands verbraucht einen Merkmalsvektor, der einen Rahmen von z. B. 10 ms des Sprachsignals überdeckt.The Prior art speech recognizers include a Amount of statistical distributions showing the acoustic properties model specific speech segments. These acoustic properties are coded in feature vectors. As an example, a Gaussian distribution for each Phonem be taken. These distributions are associated with states. A (stochastic) state transition network (usually hidden Markov models) defines the probabilities for the consequences of the states and the consequences of the feature vectors. Passing a state consumes a feature vector containing a frame of e.g. B. 10 ms the voice signal covers.
Die stochastischen Parameter einer derartigen Erkennungseinrichtung werden unter Verwendung einer großen Menge von Sprachdaten entweder von einem einzelnen Sprecher, was ein sprecherabhängiges System (SD-System) hervorbringt, oder von vielen Sprechern, was ein sprecherunabhängiges System (SI-System) hervorbringt, trainiert.The stochastic parameters of such a recognition device are either using a large amount of voice data from a single speaker, which is a speaker-dependent system (SD system), or by many speakers, what a speaker-independent system (SI system), trained.
Die Anpassung an den Sprecher (SA) ist ein weit und breit verwendetes Verfahren, um die Erkennungsraten der SI-Systeme zu vergrößern. Die sprecherabhängigen Systeme des Standes der Technik liefern viel höherer Erkennungsraten als die sprecherunabhängigen Systeme. Für viele Anwendungen ist es jedoch nicht ausführbar, ausreichend Daten von einem einzelnen Sprecher zu sammeln, um das System zu trainieren. In dem Fall einer Verbrauchervorrichtung könnte dies sogar unerwünscht sein. Um diese Nichtübereinstimmung der Erkennungsraten zu überwinden, werden Algorithmen für die Anpassung an den Sprecher weit und breit verwendet, um Erkennungsraten zu erreichen, die nahe an die sprecherabhängigen Systeme kommen, aber nur einen Bruchteil der sprecherabhängigen Daten im Vergleich zu sprecherabhängigen Systemen verwenden. Diese Systeme nehmen anfangs sprecherunabhängige Modelle, die dann angepasst werden, damit sie besser mit der Akustik der Sprecher übereinstimmen.The Adaptation to the Speaker (SA) is a widely used one Method to increase the detection rates of SI systems. The speaker-dependent Prior art systems provide much higher recognition rates than the prior art speaker independent Systems. For However, many applications are unable to run enough data from one to collect individual speakers to train the system. By doing In the case of a consumer device, this could even be undesirable. To this mismatch to overcome the detection rates become algorithms for the adaptation to the speaker widely used to recognition rates but that come close to the speaker-dependent systems only a fraction of the speaker-dependent data compared to speaker-dependent Use systems. These systems initially use speaker-independent models, which are then adjusted to better match the acoustics of the Speakers agree.
Normalerweise wird die Anpassung überwacht ausgeführt. Das heißt, die gesprochenen Wörter sind bekannt, wobei die Erkennungseinrichtung gezwungen wird, sie zu erkennen. Hiermit wird eine Zeitausrichtung der segmentspezifischen Verteilungen erreicht. Die Nichtübereinstimmung zwischen den tatsächlichen Merkmalsvektoren und den Parametern der entsprechenden Verteilung schafft die Grundlage für die Anpassung. Die überwachte Anpassung erfordert, dass eine Anpassungssitzung mit jedem neuen Sprecher ausgeführt wird, bevor er/sie die Erkennungseinrichtung tatsächlich verwenden kann.Usually the adjustment is monitored executed. This means, the spoken words are known, wherein the detection device is forced, they to recognize. This is a time alignment of the segment-specific Achieved distributions. The mismatch between the actual Feature vectors and the parameters of the corresponding distribution creates the basis for the adaptation. The supervised Customization requires having an adaptation session with each new one Speaker executed before he / she can actually use the recognizer.
Für das Training
ist das Merkmalsextraktionsmodul
Nachdem
das Spracherkennungssystem eine Menge von SI-Modellen geladen hat,
werden die Kontakte a und b des Schalters
Normalerweise modifizieren die Techniken für die Anpassung an den Sprecher die Parameter der Hidden-Markov-Modelle, sodass sie besser mit der Akustik der neuen Sprecher übereinstimmen. Wie oben dargelegt worden ist, wird dies normalerweise in einer Stapel- oder Offline-Anpassung ausgeführt. Dies bedeutet, dass ein Sprecher einen vorgegebenen Text lesen muss, bevor er/sie das System für die Erkennung verwenden kann, der dann verarbeitet wird, um die Anpassung auszuführen. Sobald dies abgeschlossen ist, kann das System für die Erkennung verwendet werden. Diese Betriebsart wird außerdem als überwachte Anpassung bezeichnet, weil der Text dem System bekannt war und eine erzwungene Ausrichtung des entsprechenden Sprachsignals auf die dem Text entsprechenden Modelle ausgeführt und für die Anpassung verwendet wird.Usually modify the techniques for the adaptation to the speaker the parameters of the hidden Markov models, so they better match the acoustics of the new speakers. As as stated above, this is normally done in a batch or offline customization. This means that a speaker must read a given text, before he / she the system for can use the detection, which is then processed to the To perform customization. Once this is done, the system can be used for detection. This mode will also work as supervised Adaptation referred to because the text was known to the system and a forced alignment of the corresponding speech signal on the textual models and used for customization.
Für die meisten Arten von Verbrauchervorrichtungen ist jedoch ein nicht überwachtes oder Online-Verfahren besser geeignet. In diesem Fall findet die Anpassung statt, während sich das System in Gebrauch befindet. Die erkannte Äußerung wird für die Anpassung verwendet, wobei die modifizierten Modelle für das Erkennen der nächsten Äußerung verwendet werden usw. In diesem Fall ist der gesprochene Text dem System nicht bekannt, sondern das Wort (die Wörter), das (die) erkannt worden ist (sind), werden stattdessen verwendet.For the most However, types of consumer devices is an unmonitored one or online method more suitable. In this case, the Adaptation takes place while the system is in use. The recognized statement becomes for the adjustment The modified models used to recognize the next utterance etc. In this case, the spoken text is not the system known but the word (the words), the one that has been recognized is used instead.
Andererseits
offenbart
Die Erfindung betrifft die Anpassung sprecherunabhängiger Hidden-Markov-Modelle in Spracherkennungssystemen unter Verwendung der nicht überwachten oder Online-Anpassung. In diesen Systemen müssen die HMMs ständig nach jeder neuen Äußerung oder sogar nach Teilen der Äußerungen verfeinert werden. Außerdem werden die Wörter, die in das System eintreten, nicht mehrmals wiederholt, wobei sie dem System nicht bekannt sind. Deshalb ist nur eine schrittweise Anpassung an den Sprecher möglich, d. h. es sind nur sehr wenige Anpassungsdaten auf einmal verfügbar, wobei sich außerdem das Problem ergibt, dass die fehlerhaften Erkennungen abhängig von der Leistung des sprecherunabhängigen Systems auftreten, weil angenommen werden muss, dass die Ausgabe des Erkennungsmoduls das richtige Wort ist. Diese Wörter werden dann für die Anpassung verwendet, wobei, falls das Wort falsch erkannt worden ist, der Anpassungsalgorithmus die Modelle in einer falschen Weise modifiziert. Die Erkennungsleistung könnte drastisch abnehmen, wenn dies wiederholt geschieht.The The invention relates to the adaptation of speaker-independent hidden Markov models in speech recognition systems using the unmonitored or online customization. In these systems, the HMMs are constantly in decline every new statement or even refined after parts of the utterances become. Furthermore become the words, who enter the system, not repeated several times, and they the system is not known. That's why it's just a gradual one Adaptation to the speaker possible, d. H. There are very few customization data available at once, with also the Problem results that the erroneous detections depend on the performance of the speaker independent Systems occur because it must be assumed that the output the recognition module is the right word. These words become then for the Adaptation uses, where, if the word has been misrecognized The adaptation algorithm is the models in a wrong way modified. The recognition performance could decrease drastically if this happens repeatedly.
In "Iterative Unsupervised Speaker Adaptation for Batch Dictation" von Shigeru Homma u. a., veröffentlicht in den Sitzungsberichten der ICSLP, 3. Oktober 1996, XP-002100688, ist ein automatisches Stapelstil-Diktatparadigma offen bart, in dem die ganze diktierte Sprache vollständig für die Anpassung an den Sprecher verwendet wird, wobei sie unter Verwendung der Ergebnisse der Anpassung an den Sprecher erkannt wird. Um die Wirkung fehlerhafter Erkennungsergebnisse auf die Anpassung zu verringern, werden die fehlerhaften Erkennungsergebnisse aus der Anpassung beseitigt. Um die fehlerhaften Erkennungsergebnisse zu beseitigen, wird ein bestimmtes Vertrauensmaß bestimmt. Die Genauigkeit der Bestimmung dieses bestimmten Vertrauensmaßes kann jedoch nicht ausreichend genau sein, wobei Wörter, die in der Tat fehlerhaft erkannt werden, folglich für die Anpassung des Systems verwendet werden.In "Iterative Unsupervised Speaker Adaptation for Batch Dictation "by Shigeru Homma et al., Published in the proceedings of ICSLP, 3 October 1996, XP-002100688, is an automatic stacking style dictation paradigm open in which the whole dictated language completely for adaptation to the speaker using them, using the results of the fitting is recognized to the speaker. To the effect of faulty recognition results to reduce the adjustment, the erroneous recognition results are off the adjustment eliminated. To the faulty recognition results to eliminate, a certain measure of confidence is determined. The accuracy of However, determining this particular level of confidence may not be sufficient be exact, with words, which in fact are erroneously recognized, hence for the adaptation of the system.
Es ist deshalb die der Erfindung zugrundeliegende Aufgabe, ein Verfahren und eine Vorrichtung für die nicht überwachte Anpassung vorzuschlagen, die die oben im Zusammenhang mit dem Stand der Technik beschriebenen Probleme überwinden.It is therefore the object underlying the invention, a method and a device for the unmonitored To propose adaptation that is related to the above overcome the problems described in the art.
Die Verfahren der Erfindung sind in den unabhängigen Ansprüchen 1 und 17 definiert, während die Vorrichtung der Erfindung im unabhängigen Anspruch 23 definiert ist. Ihre bevorzugten Ausführungsformen sind jeweils in den folgenden abhängigen Ansprüchen definiert.The Methods of the invention are set forth in independent claims 1 and 17 defines while the Device of the invention defined in independent claim 23 is. Your preferred embodiments are defined in the following dependent claims, respectively.
Gemäß der Erfindung gibt eine Art der Messung an, wie zuverlässig das Erkennungsergebnis gewesen ist. Die Anpassung des Systems basiert dann auf dem Grad der Zuverlässigkeit dieses Erkennungsergebnisses. Deshalb wird dieses Verfahren gemäß der Erfindung als halbüberwachte Anpassung an den Sprecher bezeichnet, weil kein überwachender Benutzer oder keine feste Menge des Vokabulars für die Anpassung notwendig ist.According to the invention indicates a way of measuring how reliable the detection result has been is. The adaptation of the system is then based on the degree of reliability this recognition result. Therefore, this method becomes according to the invention as semi-supervised Adaptation to the speaker designates because no supervising user or no fixed amount of vocabulary is needed for customization.
In dem Fall einer zuverlässigen Erkennung kann eine Äußerung für die Anpassung an einen speziellen Sprecher verwendet werden, aber im Fall einer unzuverlässigen Erkennung wird die Äußerung verworfen, um eine falsche Modifikation der Modelle zu vermeiden. Alternativ kann abhängig vom Grad der Zuverlässigkeit ein Gewicht berechnet werden, das die Stärke der Anpassung bestimmt.In the case of a reliable Detection can be an expression for customization be used to a special speaker, but in the case of a unreliable Recognition the statement is rejected, to avoid a wrong modification of the models. alternative can be dependent the degree of reliability a weight that determines the strength of the fit.
Die Erfindung und ihre verschiedenen Verfahren der Entscheidung, ob eine Äußerung für die Anpassung zu verwenden ist oder nicht, werden aus der folgenden ausführlichen Beschreibung ihrer beispielhaften Ausführungsformen, zusammengenommen mit der beigefügten Zeichnung, besser verstanden, worin:The Invention and its various methods of deciding whether a statement for the adaptation to use or not will become more detailed from the following Description of her exemplary embodiments, taken together with the attached Drawing, better understood, in which:
In
diesem ersten Schritt S21 wird die Erkennung einer Benutzeräußerung wie
in einem Spracherkennungssystem gemäß dem Stand der Technik ausgeführt. Im
folgenden Schritt S22 wird eine Vertrauensmessung auf das Erkennungsergebnis
des Schrittes S21 angewendet. In diesem Schritt werden Vertrauensmaße verwendet,
um zu messen, wie zuverlässig
das Erkennungsergebnis ist. Falls das Vertrauensmaß kleiner
als ein bestimmter Schwellenwert ist, wird das erkannte Wort als
unzuverlässig
betrachtet, wobei es für
die Anpassung nicht verwendet wird, sodass die Anpassungsprozedur
abermals mit dem Schritt
Um ein Vertrauensmaß gemäß der Erfindung zu berechnen, werden zuerst ein oder mehrere Merkmale aus der Erkennungshypothese und/oder dem Sprachsignal extrahiert. Dann wird auf der Grundlage dieser Merkmale eine Entscheidung getroffen, ob das Phonem/das Wort/die Wortverbindung als richtig oder falsch erkannt klassifiziert werden kann. Diese Entscheidung ist keine harte Entscheidung, sondern es wird eine bestimmte Wahrscheinlichkeit für die Richtigkeit einer empfangenen Äußerung berechnet. Diese Entscheidung basiert z. B. auf einem neuronalen Netz oder auf Entscheidungsbäumen, die die Merkmale als Eingabe nehmen und auf der Grundlage einiger interner Parameter das Vertrauensmaß berechnen.Around a confidence measure according to the invention calculate, first, one or more features from the recognition hypothesis and / or extracted from the speech signal. Then, based on this Features made a decision whether the phoneme / the word / the Word connection can be classified as right or wrong recognized can. This decision is not a hard decision, but it a certain probability is calculated for the correctness of a received utterance. These Decision is based z. On a neural network or on decision trees that take the characteristics as input and based on some internal Calculate the confidence measure.
Wenn ein neuronales Netz verwendet wird, um das Vertrauensmaß zu berechnen, ist die Ausgabe, d. h. das Vertrauensmaß, typischerweise ein Wert zwischen 0 und 1; je näher dieser Wert bei 1 liegt, desto wahrscheinlicher ist das Phonem/das Wort/die Äußerung oder die Folgen hiervon richtig erkannt worden. Deshalb wird ein Schwellenwert zwischen 0 und 1 definiert, wobei die Vertrauensmaße über diesem Schwellenwert ein Erkennungsergebnis als richtig klassifizieren.If a neural network is used to calculate the confidence measure is the output, d. H. the measure of confidence, typically a value between 0 and 1; the nearer this value is 1, the more likely the phoneme / is Word / statement or the consequences of this have been correctly recognized. That is why it becomes a threshold between 0 and 1, with confidence levels above this Threshold classify a recognition result as correct.
Die Merkmale, auf deren Grundlage das Vertrauensmaß berechnet wird, werden aus dem Erkennungsergebnis extrahiert oder basierend auf dem Erkennungsergebnis direkt aus dem Sprachsignal berechnet. Derartige Merkmale können z. B. die (relativen) Bewertungen der n besten Erkennungshypothesen, die HMM-Zustandsdauern, die Dauern der den erkannten Wörtern zugrundeliegenden erkannten Phoneme oder die Segmentwahrscheinlichkeiten sein. Die Letzteren werden durch ein stochastisches Modell berechnet, das die Wahrscheinlichkeit für ein derartiges in einer Worthypothese enthaltenes Phonem bei einem gegebenen ganzen Sprachsegment, das mehrere Rahmen enthält, bestimmt.The Characteristics on the basis of which the confidence measure is calculated become extracted from the recognition result or based on the recognition result calculated directly from the speech signal. Such features can z. B. the (relative) evaluations of the n best recognition hypotheses, the HMM state durations, the durations of the underlying words be recognized phonemes or the segment probabilities. The The latter are calculated by a stochastic model, the the probability for such a phoneme contained in a word hypothesis at a given whole speech segment containing multiple frames.
Das Vertrauensmaß kann dann direkt verwendet werden, um außerdem den Grad der Anpassung zu bestimmen. Selbstverständlich ist der einfachste Fall eines Vertrauensmaßes, nur ein Merkmal zu extrahieren, z. B. die durch die HMMs während der Erkennung bereitgestellte Bewertung, und direkt auf der Grundlage eines Schwellenwertes zu entscheiden, ob das Wort richtig erkannt worden ist oder nicht. In diesem Fall ist der Grad der Anpassung immer konstant.The confidence measure can then be used directly to also determine the degree of customization. Of course, the simplest case of a confidence measure is just a mark times to extract, z. For example, the score provided by the HMMs during recognition, and directly based on a threshold, decide whether the word has been recognized correctly or not. In this case, the degree of adaptation is always constant.
Als eine Alternative zum festen Schwellenwert kann die Vertrauensmessung verwendet werden, um ein Gewicht zu berechnen, das die Stärke der im Schritt S23 ausgeführten Anpassung bestimmt.When An alternative to the fixed threshold may be the measurement of confidence used to calculate a weight that is the strength of the executed in step S23 Adjustment determined.
Außerdem ist es möglich, andere Parameter zu verändern, auf denen die Entscheidung während der Anpassung basiert, z. B. wie der für das Entscheiden verwendete Schwellenwert abhängig von den abgeleiteten Merkmalen des Sprachsignals angepasst werden kann.Besides that is it is possible to change other parameters, on which the decision during the Customization based, e.g. For example, as used for deciding Threshold dependent be adapted from the derived features of the speech signal can.
Während der Anpassung der HMM-Modelle an den Sprecher tritt ein Problem auf, weil dies die Merkmale des Vertrauensmaßes beeinflusst. Dies erfordert entweder eine Normierung der Merkmale, sodass sie gegenüber derartigen Änderungen der HMM-Modelle invariant sind, oder es erfordert eine automatische Online-Anpassung der Merkmale oder der Parameter des Vertrauensmaßes oder des Schwellenwertes, mit dem das Vertrauensmaß verglichen wird. Diese Anpassung basiert auf einem formalen Algorithmus, der ein Kriterium wie die Richtigkeit des Vertrauensmaßes optimiert. Das Letztere kann basierend auf der Benutzerreaktion geschätzt werden, wie sie in den Video-, Interpretations- und Prosodie-Modulen bestimmt wird.During the Adaptation of the HMM models to the speaker occurs a problem because that influences the characteristics of the measure of trust. This requires either a standardization of the features, so they are against such changes HMM models are invariant, or it requires an automatic Online adjustment of the features or the parameters of the confidence measure or the threshold against which the confidence measure is compared. This adaptation is based on a formal algorithm that has a criterion like that Correctness of the confidence measure optimized. The latter can be based on the user reaction to be appreciated, as determined in the video, interpretation and prosody modules.
Außerdem kann das Vertrauensmaß nicht nur auf ganze Benutzeräußerungen angewendet werden, sondern außerdem wortweise oder phonemweise, sodass nicht immer die ganze Äußerung für die Anpassung zurückgewiesen wird, sondern nur die einzelnen fehlerhaft erkannten Wörter oder die Wörter, die fehlerhaft erkannte Phoneme enthalten. Es ist außerdem möglich, die Vertrauensmaße auf ein Sprachsegment einer anderen beliebigen Länge anzuwenden.In addition, can the measure of trust not only on whole user comments but also word by word or phoneme wise, so not always the whole utterance for the adaptation rejected but only the individual erroneously recognized words or the words, contain the incorrectly recognized phonemes. It is also possible that confidence measures to apply to a speech segment of any other length.
Eine derartige durch die Vertrauensmaße geführte Anpassung benötigt keine Handlung vom Benutzer, wie z. B. die Mitteilung an das System, dass ein Wort fehlerhaft erkannt worden ist. Deshalb erreicht dieses Verfahren eine beträchtlich bessere Erkennungsrate für die nicht überwachte oder Online-Anpassung in automatischen Spracherkennungssystemen als die Systeme gemäß dem Stand der Technik, weil nicht jede Benutzeräußerung oder jedes durch den Benutzer gesprochene Wort ungeachtet der Tatsache, dass eine derartige Äußerung oder ein derartiges Wort fehlerhaft erkannt werden kann, für die Anpassung verwendet wird und der Grad der Anpassung von der Wahrscheinlichkeit eines richtigen erkannten Ergebnisses abhängt.A Such adjustment, guided by the measure of confidence, does not require any Action by the user, such as B. the message to the system that a word has been detected incorrectly. That is why this is achieved Procedure a considerable better recognition rate for the unmonitored or online adaptation in automatic speech recognition systems as the systems according to the state the technique, because not every user utterance or every one through the User spoken word regardless of the fact that such an utterance or a such word can be erroneously recognized for customization is used and the degree of adaptation of the probability of a depends on the correct recognized result.
In
einem Dialogsystem zeigt die Reaktion eines Benutzers oft, ob das
erkannte Wort richtig war oder nicht. Ein Verfahren, um eine derartige
Benutzerreaktion zu beurteilen, ist in
Im Schritt S31 wird eine Erkennung einer Benutzeräußerung Nummer i wie in den Systemen gemäß dem Stand der Technik ausgeführt. Danach wird das Erkennungsergebnis im Schritt S32 einer Interpretation unterzogen, in dem beurteilt wird, ob der Benutzer mit der Systemreaktion auf seine vor der Äußerung Nummer i gesprochene Äußerung zufriedengestellt worden ist. Ein Beispiel einer derartigen Äußerung Nummer i – 1 könnte "schalte den Fernsehapparat ein" sein, wobei aus irgendwelchen Gründen das System "schalte das Radio ein" erkannt hat und folglich das Radio eingeschaltet worden ist. Wenn der Benutzer diesen Fehler erkennt, wird seine/ihre nächste Äußerung (d. h. die Äußerung Nummer i) irgendetwas wie "nein, nicht das Radio, den Fernsehapparat" oder "falsch, ich sagte Fernsehapparat" sein. In diesem Fall interpretiert das System im Schritt S32 auf der Grundlage der Äußerung Nummer i, dass die vorher erkannte Äußerung fehlerhaft erkannt worden ist und für die Anpassung nicht verwendet werden sollte. Der Schritt S33, in dem die Benutzeräußerung Nummer i – 1 für die Anpassung verwendet wird, wird in diesem Fall ausgelassen, wobei der Schritt S34, in dem das System eine Handlung oder Reaktion ausführt, nicht nach dem Schritt S33, sondern direkt nach dem Schritt S32 ausgeführt wird. Nach der Handlung oder Reaktion des Systems im Schritt S34 wird i im Schritt S35 inkrementiert, bevor die nächste Äußerung Nummer i + 1 des Benutzers im Schritt S31 erkannt wird.in the Step S31 will be a recognition of a user utterance number i as in Systems according to the state executed the technique. Thereafter, the recognition result in step S32 becomes an interpretation in which is judged whether the user with the system response on his before the utterance number i uttered utterance satisfied has been. An example of such an utterance number i-1 could "turn off the TV be a ", where For some reason the system "switch the radio has "recognized and consequently the radio has been turned on. If the user recognizes this error becomes his / her next utterance (i.e., the utterance number i) something like "no, not the radio, the TV "or" wrong, I said TV "In this Case, the system interprets in step S32 on the basis of the utterance number i, that the previously recognized statement is flawed has been recognized and for the adjustment should not be used. The step S33, in the user utterance number i - 1 for the Adjustment is used, is omitted in this case, the Step S34, in which the system performs an action or reaction, not after step S33, but is executed immediately after step S32. To the action or reaction of the system in step S34 becomes i im Step S35 is incremented before the user's next utterance number i + 1 in Step S31 is detected.
Abgesehen vom Wortlaut oder Interpretationsergebnis einer Äußerung können außerdem Informationen über den Gefühlszustand eines Benutzers, d. h. die Intonation und/oder die Prosodie, berücksichtigt werden, um im Schritt S32 zu beurteilen, ob der Benutzer zufriedengestellt worden ist oder nicht. Deshalb sind durch das Interpretieren der Äußerung unter Verwendung der Intonation und/oder Prosodie keine speziellen Schlüsselwörter für das System notwendig, um zu erkennen, dass eine fehlerhafte Erkennung der vorher erkannten Äußerung aufgetreten ist. Falls ein Benutzer z. B. in einer ärgerlichen Weise dem System "schalte den Fernsehapparat ein" sagt, nachdem seine/ihre vorher gesprochene Äußerung fehlerhaft erkannt worden ist, kann das System interpretieren, dass er/sie seine/ihre Meinung nicht geändert hat, sondern dass der vorher erkannte Befehl fehlerhaft erkannt worden ist, sodass er für die Anpassung nicht verwendet werden sollte.Besides the wording or interpretation result of an utterance, information about a user's feeling state, ie, intonation and / or prosody, may also be taken into account to judge whether the user has been satisfied or not in step S32. Therefore, by interpreting the utterance using intonation and / or prosody, no special keywords are necessary for the system to recognize that an erroneous recognition of the previously recognized utterance occured. If a user z. For example, in an annoying way, the system "turn on the TV" says after his / her previously spoken utterance has been erroneously recognized, the system can interpret that he / she has not changed his / her opinion, but that previously recognized Command has been detected incorrectly, so it should not be used for customization.
Außerdem können die durch ein Video-Rechensystem, wie z. B. eine Videokamera, die mit einem Computer verbunden ist, der die Reaktionen eines Benutzers, z. B. die Mimik, interpretieren kann, beobachteten Benutzerreaktionen verwendet werden, um eine erkannte Äußerung zu verifizieren, z. B. basierend auf einem Bild oder einer Videosequenz, das bzw. die vom Benutzer und/oder dem Gesicht des Benutzers genommen worden ist.In addition, the through a video computing system such. B. a video camera with connected to a computer that detects the reactions of a user, z. As the facial expressions, interpret, observed user reactions used to verify a recognized utterance, e.g. Based on an image or video sequence, the or been taken by the user and / or the user's face is.
In diesem Fall kann bestimmt werden, ob die Mimik Ärger oder Verwunderung zeigt oder ob die Lippen des Benutzers geschlossen gewesen sind, obwohl die Erkennungseinrichtung auf der Grundlage von Hintergrundstimmen oder -geräusch einige Wörter erkannt hat.In In this case, it can be determined whether the facial expressions show anger or amazement or whether the user's lips have been closed, though the recognizer based on background voices or noise some words has recognized.
Abhängig von nur einer oder einer Kombination aus diesen Benutzerreaktionen und von der Intensität kann ein Grad der Anpassung bestimmt werden. Wie im Fall der Vertrauensmaße ist es außerdem möglich, einen Schwellenwert festzulegen und damit eine harte Entscheidung zu definieren, sodass der Grad der Anpassung konstant ist.Depending on only one or a combination of these user reactions and from the intensity a degree of adaptation can be determined. As in the case of the confidence measures it is Furthermore possible, set a threshold and thus a hard decision so that the degree of adaptation is constant.
In
diesem Fall erkennt das System eine Situation, in der die Anpassung
(wiederholt) unter Verwendung fehlerhaft erkannter Wörter ausgeführt worden
ist oder ein neuer Sprecher das System verwendet, weil dann die
Erkennungsleistung abfallen kann. Deshalb schaltet das System zurück zu den
ursprüngli chen
sprecherunabhängigen
Modellen. Ähnlich
zu den in den
Deshalb
wird in diesem Schritt S41 eine Erkennung einer Benutzeräußerung unter
Verwendung der angepassten Modelle ausgeführt, während im Schritt S43 eine Erkennung
derselben Benutzeräußerung unter
Verwendung der anfänglichen
sprecherunabhängigen
Modelle ausgeführt
wird. Auf beide Erkennungsergebnisse kann jeweils in den Schritten S42
und S44 eine Vertrauensmessung angewendet werden. In einem folgenden
Schritt S45 werden beide Ergebnisse, z. B. die Vertrauensmessungen,
verglichen, um zu entscheiden, ob im Schritt S46 die Anpassung mit
den anfänglichen
sprecherunabhängigen
Modellen neu zu beginnen ist oder ob in einem Schritt S47 die angepassten
Modelle weiter zu verwenden und anzupassen sind, bevor die in den Schritten
Dieses Verfahren ist nicht auf die Verwendung der Vertrauensmaße eingeschränkt, um diese beiden Erkennungsergebnisse zu vergleichen. Es ist außerdem möglich, dass das System andere Benutzerreaktionen verwendet, z. B. sein/ihr Verhalten eine bestimmte Zeit vor und/oder nach der jeweiligen Äußerung oder etwa die Intonation und/oder Prosodie. Es ist außerdem denkbar, dass das System den Benutzer auffordert, zu entscheiden, welche Modelle verwendet werden sollten oder welches der Erkennungsergebnisse das Richtige ist, und dann die jeweilige Modellmenge für die weitere Erkennung/Anpassung verwendet.This Procedure is not limited to the use of confidence measures to compare these two recognition results. It is also possible that the system uses other user reactions, e.g. For example, his / her behavior is one certain time before and / or after the respective utterance or about the intonation and / or prosody. It is also conceivable that the system prompts the user to decide which models should be used or which of the recognition results the right thing is, and then the model set for the rest Detection / adaptation used.
Deshalb werden durch das Behalten der ursprünglichen Modelle und das Vergleichen ihrer Leistung mit den angepassten Modellen, z. B. nach einer bestimmten Anzahl von Anpassungsschritten oder in Sprachpausen, die anfänglichen Modelle außerdem durch das System verwendet, wobei die Anpassung neu begonnen wird, falls das Erkennungsergebnis unter Verwendung der sprecherunabhängigen Modelle und/oder die Vertrauensmaße angeben, dass die angepassten Modelle nicht so gut wie die anfänglichen Modelle arbeiten. Damit kann sichergestellt werden, dass die Erkennungsraten niemals (signifikant) abnehmen, sondern nur zunehmen oder auf demselben Niveau bleiben. Durch das Ausführen dieses Verfahrens werden die Erwartungen des Benutzers genau erfüllt, weil ein Benutzer erwarten würde, dass sich ein automatisches Spracherkennungssystem ein seine Art des Sprechens gewöhnt, genau wie Menschen dies tun.Therefore Become by keeping the original models and comparing their performance with the adapted models, e.g. B. for a specific Number of adjustment steps or in speech pauses, the initial one Models through as well the system uses the adaptation to restart if the recognition result using the speaker independent models and / or the confidence measures state that the customized models are not as good as the initial ones Models work. This can ensure that the detection rates never (significantly) decrease, but only increase or on the same Stay level. By running this Procedure, the user's expectations are met exactly, because a user would expect that an automatic speech recognition system is one of its kind used to speaking, just as people do.
Es ist außerdem möglich, dass die sprecherangepassten Modelle nicht nur mit den sprecherunabhängigen Modellen verglichen werden, um sicherzustellen, dass eine Erkennungsrate niemals (signifikant) abnimmt, sondern dass außerdem oder stattdessen die neuesten sprecherangepassten Modelle mit den älteren sprecherangepassten Modellen verglichen werden, um die Modelle zu wählen, die die beste Erkennungsleistung besitzen, und die Anpassung basierend auf ihnen fortzusetzen.It is also possible, that the speaker-matched models not only with the speaker-independent models be compared to make sure that a recognition rate never (significantly) decreases, but that, in addition or instead, the latest speaker-matched models with the older speaker-matched ones Models are compared to choose the models that provide the best detection performance own, and continue the customization based on them.
Selbstverständlich können alle vier oben beschriebenen Verfahren gemäß der Erfindung oder nur eine Teilmenge von ihnen kombiniert werden, um die Anpassung an fehlerhaft erkannte Wörter oder Sätze in einer nicht überwachten oder Online-Anpassungsbetriebsart zu verhindern. Bei diesen Verfahren wird gesteuert, ob die Anpassung mit den erkannten Wörtern oder einer erkannten Äußerung ausgeführt wird oder nicht. Außerdem wird eine niemals (signifikant) abnehmende Erkennungsrate sichergestellt. Wie oben erwähnt worden ist, sind die vorgeschlagenen Algorithmen von den Anpassungsverfahren selbst unabhängig, d. h., sie können mit irgendeinem Algorithmus zur Anpassung an den Sprecher kombiniert werden.Of course, all four methods described above according to the invention or only a subset thereof may be combined to prevent adaptation to erroneously recognized words or phrases in an unmonitored or online fitting mode. In these procedures is controlled whether the adaptation is performed with the recognized words or a recognized utterance or not. In addition, a never (significantly) decreasing recognition rate is ensured. As mentioned above, the proposed algorithms are independent of the matching methods themselves, ie, they can be combined with any speaker matching algorithm.
In
Im
Gegensatz zu dem in
Gemäß der Erfindung
verteilt das Erkennungsmodul seine Ergebnisse weiterhin zu einem Prosodie-Extraktionsmodul
Für die Zwecke
der Veranschaulichung sollte erwähnt
werden, dass die Entscheidung, ob das System die sprecherunabhängigen Modelle
oder die sprecherangepassten Modelle verwenden sollte, in einem
Verifikationsmodul
Abgesehen
von der Veränderung
des Schwellenwertes, um zu entscheiden, ob eine Äußerung oder ein Teil einer Äußerung für die Anpassung verwendet
werden sollte, können
die Eingangsmerkmale des Entscheidungsmoduls
Selbstverständlich bestimmt
die Entscheidungseinheit
Deshalb
empfängt
gemäß der oben
beschriebenen bevorzugten Ausführungsform
die Entscheidungseinheit
Claims (21)
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP98124024A EP1011094B1 (en) | 1998-12-17 | 1998-12-17 | Semi-supervised speaker adaption |
Publications (2)
Publication Number | Publication Date |
---|---|
DE69829187D1 DE69829187D1 (en) | 2005-04-07 |
DE69829187T2 true DE69829187T2 (en) | 2005-12-29 |
Family
ID=8233165
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE69829187T Expired - Lifetime DE69829187T2 (en) | 1998-12-17 | 1998-12-17 | Semi-monitored speaker adaptation |
DE69833987T Expired - Lifetime DE69833987T2 (en) | 1998-12-17 | 1998-12-17 | Semi-monitored speaker adaptation |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE69833987T Expired - Lifetime DE69833987T2 (en) | 1998-12-17 | 1998-12-17 | Semi-monitored speaker adaptation |
Country Status (6)
Country | Link |
---|---|
US (1) | US6799162B1 (en) |
EP (2) | EP1011094B1 (en) |
JP (1) | JP2000181482A (en) |
KR (1) | KR100697961B1 (en) |
CN (1) | CN1248192C (en) |
DE (2) | DE69829187T2 (en) |
Families Citing this family (94)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001100781A (en) * | 1999-09-30 | 2001-04-13 | Sony Corp | Method and device for voice processing and recording medium |
US7580836B1 (en) * | 2000-06-15 | 2009-08-25 | Intel Corporation | Speaker adaptation using weighted feedback |
EP1205906B1 (en) * | 2000-11-07 | 2003-05-07 | Telefonaktiebolaget L M Ericsson (Publ) | Reference templates adaptation for speech recognition |
US20020143540A1 (en) * | 2001-03-28 | 2002-10-03 | Narendranath Malayath | Voice recognition system using implicit speaker adaptation |
GB2375211A (en) * | 2001-05-02 | 2002-11-06 | Vox Generation Ltd | Adaptive learning in speech recognition |
DE10122828A1 (en) * | 2001-05-11 | 2002-11-14 | Philips Corp Intellectual Pty | Procedure for training or adapting a speech recognizer |
KR100762588B1 (en) * | 2001-06-26 | 2007-10-01 | 엘지전자 주식회사 | Speech Recognition Method Combining Speaker Adaptation and False Input Rejection |
JP4947861B2 (en) * | 2001-09-25 | 2012-06-06 | キヤノン株式会社 | Natural language processing apparatus, control method therefor, and program |
US7031918B2 (en) * | 2002-03-20 | 2006-04-18 | Microsoft Corporation | Generating a task-adapted acoustic model from one or more supervised and/or unsupervised corpora |
US20030212761A1 (en) * | 2002-05-10 | 2003-11-13 | Microsoft Corporation | Process kernel |
US7191130B1 (en) * | 2002-09-27 | 2007-03-13 | Nuance Communications | Method and system for automatically optimizing recognition configuration parameters for speech recognition systems |
US7340396B2 (en) * | 2003-02-18 | 2008-03-04 | Motorola, Inc. | Method and apparatus for providing a speaker adapted speech recognition model set |
US7835910B1 (en) * | 2003-05-29 | 2010-11-16 | At&T Intellectual Property Ii, L.P. | Exploiting unlabeled utterances for spoken language understanding |
KR100612840B1 (en) * | 2004-02-18 | 2006-08-18 | 삼성전자주식회사 | Model Variation Based Speaker Clustering Method, Speaker Adaptation Method, and Speech Recognition Apparatus Using Them |
WO2005088607A1 (en) * | 2004-03-12 | 2005-09-22 | Siemens Aktiengesellschaft | User and vocabulary-adaptive determination of confidence and rejecting thresholds |
EP1787289B1 (en) * | 2004-07-30 | 2018-01-10 | Dictaphone Corporation | A system and method for report level confidence |
JP4456537B2 (en) * | 2004-09-14 | 2010-04-28 | 本田技研工業株式会社 | Information transmission device |
US7558389B2 (en) * | 2004-10-01 | 2009-07-07 | At&T Intellectual Property Ii, L.P. | Method and system of generating a speech signal with overlayed random frequency signal |
GB0426347D0 (en) * | 2004-12-01 | 2005-01-05 | Ibm | Methods, apparatus and computer programs for automatic speech recognition |
CN100458913C (en) * | 2005-01-24 | 2009-02-04 | 乐金电子(惠州)有限公司 | Phonic proving method for speech recognition system |
US8200495B2 (en) * | 2005-02-04 | 2012-06-12 | Vocollect, Inc. | Methods and systems for considering information about an expected response when performing speech recognition |
US7895039B2 (en) | 2005-02-04 | 2011-02-22 | Vocollect, Inc. | Methods and systems for optimizing model adaptation for a speech recognition system |
US7949533B2 (en) | 2005-02-04 | 2011-05-24 | Vococollect, Inc. | Methods and systems for assessing and improving the performance of a speech recognition system |
US7865362B2 (en) | 2005-02-04 | 2011-01-04 | Vocollect, Inc. | Method and system for considering information about an expected response when performing speech recognition |
US7827032B2 (en) | 2005-02-04 | 2010-11-02 | Vocollect, Inc. | Methods and systems for adapting a model for a speech recognition system |
DE102005010285A1 (en) * | 2005-03-01 | 2006-09-07 | Deutsche Telekom Ag | Speech recognition involves speech recognizer which uses different speech models for linguistic analysis and an emotion recognizer is also present for determining emotional condition of person |
KR100679044B1 (en) * | 2005-03-07 | 2007-02-06 | 삼성전자주식회사 | User adaptive speech recognition method and apparatus |
US7734471B2 (en) * | 2005-03-08 | 2010-06-08 | Microsoft Corporation | Online learning for dialog systems |
US7707131B2 (en) | 2005-03-08 | 2010-04-27 | Microsoft Corporation | Thompson strategy based online reinforcement learning system for action selection |
US7885817B2 (en) * | 2005-03-08 | 2011-02-08 | Microsoft Corporation | Easy generation and automatic training of spoken dialog systems using text-to-speech |
US20060206333A1 (en) * | 2005-03-08 | 2006-09-14 | Microsoft Corporation | Speaker-dependent dialog adaptation |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US8032372B1 (en) | 2005-09-13 | 2011-10-04 | Escription, Inc. | Dictation selection |
US8265933B2 (en) * | 2005-12-22 | 2012-09-11 | Nuance Communications, Inc. | Speech recognition system for providing voice recognition services using a conversational language model |
CN101390156B (en) * | 2006-02-27 | 2011-12-07 | 日本电气株式会社 | Reference pattern adapter, and reference pattern adapting method |
JP4594885B2 (en) * | 2006-03-15 | 2010-12-08 | 日本電信電話株式会社 | Acoustic model adaptation apparatus, acoustic model adaptation method, acoustic model adaptation program, and recording medium |
EP2541545B1 (en) * | 2006-04-03 | 2018-12-19 | Vocollect, Inc. | Methods and systems for adapting a model for a speech recognition system |
US7788205B2 (en) * | 2006-05-12 | 2010-08-31 | International Business Machines Corporation | Using stochastic models to diagnose and predict complex system problems |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8423364B2 (en) * | 2007-02-20 | 2013-04-16 | Microsoft Corporation | Generic framework for large-margin MCE training in speech recognition |
US8856002B2 (en) * | 2007-04-12 | 2014-10-07 | International Business Machines Corporation | Distance metrics for universal pattern processing tasks |
WO2008137616A1 (en) * | 2007-05-04 | 2008-11-13 | Nuance Communications, Inc. | Multi-class constrained maximum likelihood linear regression |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
KR101556594B1 (en) * | 2009-01-14 | 2015-10-01 | 삼성전자 주식회사 | Speech recognition method in signal processing apparatus and signal processing apparatus |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US9026444B2 (en) | 2009-09-16 | 2015-05-05 | At&T Intellectual Property I, L.P. | System and method for personalization of acoustic models for automatic speech recognition |
US8612364B2 (en) * | 2009-10-29 | 2013-12-17 | Xerox Corporation | Method for categorizing linked documents by co-trained label expansion |
US9218807B2 (en) * | 2010-01-08 | 2015-12-22 | Nuance Communications, Inc. | Calibration of a speech recognition engine using validated text |
JP5633042B2 (en) * | 2010-01-28 | 2014-12-03 | 本田技研工業株式会社 | Speech recognition apparatus, speech recognition method, and speech recognition robot |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
KR20120046627A (en) * | 2010-11-02 | 2012-05-10 | 삼성전자주식회사 | Speaker adaptation method and apparatus |
JP5494468B2 (en) * | 2010-12-27 | 2014-05-14 | 富士通株式会社 | Status detection device, status detection method, and program for status detection |
US8914290B2 (en) | 2011-05-20 | 2014-12-16 | Vocollect, Inc. | Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment |
US9390445B2 (en) | 2012-03-05 | 2016-07-12 | Visa International Service Association | Authentication using biometric technology through a consumer device |
TWI466101B (en) * | 2012-05-18 | 2014-12-21 | Asustek Comp Inc | Method and system for speech recognition |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
CN103578468B (en) * | 2012-08-01 | 2017-06-27 | 联想(北京)有限公司 | The method of adjustment and electronic equipment of a kind of confidence coefficient threshold of voice recognition |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
JP5852550B2 (en) * | 2012-11-06 | 2016-02-03 | 日本電信電話株式会社 | Acoustic model generation apparatus, method and program thereof |
KR20140082157A (en) * | 2012-12-24 | 2014-07-02 | 한국전자통신연구원 | Apparatus for speech recognition using multiple acoustic model and method thereof |
US8694315B1 (en) * | 2013-02-05 | 2014-04-08 | Visa International Service Association | System and method for authentication using speaker verification techniques and fraud model |
US9978395B2 (en) | 2013-03-15 | 2018-05-22 | Vocollect, Inc. | Method and system for mitigating delay in receiving audio stream during production of sound from audio stream |
CN104143330A (en) * | 2013-05-07 | 2014-11-12 | 佳能株式会社 | Voice recognizing method and voice recognizing system |
WO2014197336A1 (en) * | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US9589560B1 (en) * | 2013-12-19 | 2017-03-07 | Amazon Technologies, Inc. | Estimating false rejection rate in a detection system |
KR102225404B1 (en) * | 2014-05-23 | 2021-03-09 | 삼성전자주식회사 | Method and Apparatus of Speech Recognition Using Device Information |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10269342B2 (en) | 2014-10-29 | 2019-04-23 | Hand Held Products, Inc. | Method and system for recognizing speech using wildcards in an expected response |
US9984685B2 (en) | 2014-11-07 | 2018-05-29 | Hand Held Products, Inc. | Concatenated expected responses for speech recognition using expected response boundaries to determine corresponding hypothesis boundaries |
KR102199246B1 (en) * | 2014-11-18 | 2021-01-07 | 에스케이텔레콤 주식회사 | Method And Apparatus for Learning Acoustic Model Considering Reliability Score |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | Intelligent automated assistant in a home environment |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
US10714121B2 (en) | 2016-07-27 | 2020-07-14 | Vocollect, Inc. | Distinguishing user speech from background speech in speech-dense environments |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
JP6824795B2 (en) * | 2017-03-17 | 2021-02-03 | ヤフー株式会社 | Correction device, correction method and correction program |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | Far-field extension for digital assistant services |
CN110517680B (en) * | 2018-11-15 | 2023-02-03 | 腾讯科技(深圳)有限公司 | Artificial intelligence data detection method and device and storage medium |
KR20210144384A (en) | 2020-05-22 | 2021-11-30 | 송문선 | System of treatment wast gas with NOx-formation at oxidation and reduction |
JP7395446B2 (en) * | 2020-09-08 | 2023-12-11 | 株式会社東芝 | Speech recognition device, method and program |
CN113782005B (en) * | 2021-01-18 | 2024-03-01 | 北京沃东天骏信息技术有限公司 | Speech recognition method and device, storage medium and electronic equipment |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4618984A (en) * | 1983-06-08 | 1986-10-21 | International Business Machines Corporation | Adaptive automatic discrete utterance recognition |
JPS62239231A (en) | 1986-04-10 | 1987-10-20 | Kiyarii Rabo:Kk | Speech recognition method by inputting lip picture |
US5127055A (en) * | 1988-12-30 | 1992-06-30 | Kurzweil Applied Intelligence, Inc. | Speech recognition apparatus & method having dynamic reference pattern adaptation |
US5040213A (en) * | 1989-01-27 | 1991-08-13 | Ricoh Company, Ltd. | Method of renewing reference pattern stored in dictionary |
JPH0636156B2 (en) * | 1989-03-13 | 1994-05-11 | インターナショナル・ビジネス・マシーンズ・コーポレーション | Voice recognizer |
US5144672A (en) * | 1989-10-05 | 1992-09-01 | Ricoh Company, Ltd. | Speech recognition apparatus including speaker-independent dictionary and speaker-dependent |
US6101468A (en) * | 1992-11-13 | 2000-08-08 | Dragon Systems, Inc. | Apparatuses and methods for training and operating speech recognition systems |
US5559926A (en) * | 1993-12-22 | 1996-09-24 | Lucent Technologies Inc. | Speech recognition training using bio-signals |
US5666400A (en) * | 1994-07-07 | 1997-09-09 | Bell Atlantic Network Services, Inc. | Intelligent recognition |
JPH08202388A (en) * | 1995-01-24 | 1996-08-09 | Omron Corp | Voice recognition device and voice recognition method |
US5842168A (en) * | 1995-08-21 | 1998-11-24 | Seiko Epson Corporation | Cartridge-based, interactive speech recognition device with response-creation capability |
US5737489A (en) | 1995-09-15 | 1998-04-07 | Lucent Technologies Inc. | Discriminative utterance verification for connected digits recognition |
US5794189A (en) | 1995-11-13 | 1998-08-11 | Dragon Systems, Inc. | Continuous speech recognition |
DE19708184A1 (en) | 1997-02-28 | 1998-09-03 | Philips Patentverwaltung | Method for speech recognition with language model adaptation |
US6260013B1 (en) * | 1997-03-14 | 2001-07-10 | Lernout & Hauspie Speech Products N.V. | Speech recognition system employing discriminatively trained models |
US5970239A (en) * | 1997-08-11 | 1999-10-19 | International Business Machines Corporation | Apparatus and method for performing model estimation utilizing a discriminant measure |
-
1998
- 1998-12-17 DE DE69829187T patent/DE69829187T2/en not_active Expired - Lifetime
- 1998-12-17 DE DE69833987T patent/DE69833987T2/en not_active Expired - Lifetime
- 1998-12-17 EP EP98124024A patent/EP1011094B1/en not_active Expired - Lifetime
- 1998-12-17 EP EP03026645A patent/EP1426923B1/en not_active Expired - Lifetime
-
1999
- 1999-12-10 JP JP11352260A patent/JP2000181482A/en not_active Withdrawn
- 1999-12-15 US US09/461,981 patent/US6799162B1/en not_active Expired - Fee Related
- 1999-12-17 KR KR1019990058674A patent/KR100697961B1/en not_active Expired - Fee Related
- 1999-12-17 CN CNB991265025A patent/CN1248192C/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN1264888A (en) | 2000-08-30 |
KR100697961B1 (en) | 2007-03-23 |
DE69833987D1 (en) | 2006-05-18 |
DE69829187D1 (en) | 2005-04-07 |
EP1011094A1 (en) | 2000-06-21 |
EP1426923B1 (en) | 2006-03-29 |
DE69833987T2 (en) | 2006-11-16 |
JP2000181482A (en) | 2000-06-30 |
EP1426923A1 (en) | 2004-06-09 |
KR20000067829A (en) | 2000-11-25 |
US6799162B1 (en) | 2004-09-28 |
EP1011094B1 (en) | 2005-03-02 |
CN1248192C (en) | 2006-03-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69829187T2 (en) | Semi-monitored speaker adaptation | |
DE69707876T2 (en) | METHOD AND DEVICE FOR DYNAMICALLY SET TRAINING FOR VOICE RECOGNITION | |
DE69226796T2 (en) | Temporal decorrelation method for interference-free speaker recognition | |
DE69421911T2 (en) | VOICE RECOGNITION WITH PAUSE DETECTION | |
DE69311303T2 (en) | LANGUAGE TRAINING AID FOR CHILDREN. | |
DE60213595T2 (en) | UNDERSTANDING SPEAKER VOTES | |
DE69422097T2 (en) | Training of combined chain models with minimal error rate | |
DE69229816T2 (en) | Establishment and procedure for language pattern identification | |
DE69938374T2 (en) | Method and apparatus for speech recognition using both a neural network and hidden Markov models | |
DE69827586T2 (en) | Technique for the adaptation of Hidden Markov models for speech recognition | |
DE69800006T2 (en) | Procedure for performing stochastic pattern comparisons for speaker verification | |
DE69613338T2 (en) | METHOD AND SYSTEM FOR PATTERN RECOGNITION USING TREE-STRUCTURED PROBABILITY DENSITIES | |
DE69818231T2 (en) | METHOD FOR THE DISCRIMINATIVE TRAINING OF VOICE RECOGNITION MODELS | |
DE69514382T2 (en) | VOICE RECOGNITION | |
DE69822179T2 (en) | METHOD FOR LEARNING PATTERNS FOR VOICE OR SPEAKER RECOGNITION | |
DE69634784T2 (en) | Distinctive verification of statements for the recognition of connected numbers | |
DE69322894T2 (en) | Learning method and device for speech recognition | |
DE69814195T2 (en) | Speaker recognition device | |
DE69705830T2 (en) | VOICE PROCESSING | |
DE69635655T2 (en) | Speaker-adapted speech recognition | |
EP0987683B1 (en) | Speech recognition method with confidence measure | |
DE69924596T2 (en) | Selection of acoustic models by speaker verification | |
DE69607913T2 (en) | METHOD AND DEVICE FOR VOICE RECOGNITION ON THE BASIS OF NEW WORD MODELS | |
DE68924134T2 (en) | Speech recognition system. | |
DE60004331T2 (en) | SPEAKER RECOGNITION |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition | ||
8327 | Change in the person/name/address of the patent owner |
Owner name: SONY DEUTSCHLAND GMBH, 50829 KOELN, DE Owner name: SONY CORP., TOKIO/TOKYO, JP |