Conrad Szaküzlet 1067 Budapest, Teréz krt. 23. Tel: (061) 302-3588 Conrad Vevőszolgálat 1124 Budapest, Jagelló út 30. Tel: (061) 319-0250
VD 364 Speech Recognition Kit (Beszédfelismerő) Rend.sz.: 189150 A készlet tartalma: . VD 364 modul . Mikrofonkapszula (irányfüggetlen elektrét) . Hangszóró (kb. 6 cm Ø, 8 ohm) . Mikro-nyomógomb (4 db) . Passzív elemek a konfiguráláshoz . Útmutató Áttekintés: . A VD 364 segítségével max. 60 parancsot lehet betanítani . Max. 3 .Continuous-Listening. szó programozható a folyamatos beszédfelismeréshez; mindegyik 5 rákövetkező parancshoz biztosít hozzáférést . Német beszéd-promptok! Szükséges eszközök, tartozékok Feszültség forrás (4,5 - 5,25 V DC, 100mA tápegység, vagy 3 x 1,5V alkáli elem, tartóval), páka, multiméter; 2,54 mm-es csatlakozólécek, furatraszteres panel, kapcsoló vezeték Gyors elindulás További infók ügyében keresse meg weboldalunkat: www.sensoryinc.com. Tartalma: 1. Bevezető 2. Jellemzők 3. Egy egyszerű alkalmazás megépítése 4. Csatlakozáskiosztás, műszaki adatok 5.A VD 364 tanítása 6. Szavak felismerése 7. Beszédminták törlése 8. Tippek a legjobb kihasználáshoz 9. A beszédfelismerés 10. Kapcsolási rajz 11. Alkatészlista 12.További feslhasználási lehetőségek 13. Egyéb Sensory termékek 14. Egyéb tudnivalók, garancia 2. Néhány jellemző . Beszélő-függő (Speaker Dependent) és ContinuousListening (folyamatos hallgatás) beszédfelismerési technika . Minimális külső áramköri igény . Gyors megépítés . Slave-módban max. 60, Standalone (magában álló) módban 15 szó vagy mondat felismerése (1, 2 vagy 3 szetre osztva) . Helyes használat esetén 99%-os felismerési pontosság . Mondat felismerés 2,5s hosszig . Felhasználóbarát beszédkiadás . Német vagy angol kimenő beszéddel kapható 3. Egy egyszerű alkalmazás megépítése Néhány szempont a megépítés megkezdése előtt: FELÉPÍTÉS El kell dönteni pl., hogy a modult házba kívánjuk építeni – ez függhet a járulékos elektronikai igénytől, valamint a szállíthatóság szempontjától. Lehet egy kisebb házat használni, amelybe hangszóró, mikrofon, nyomógombok és a modul kerül. A külső
alkatelemeket alkatrész oldali kapcsoló vezetékkel lehet csatlakoztatni, a csatlakozóléccel ellentétes végen. Másik lehetőség a modellező panel használata (kb. 5 x 10 cm) amelyre 2,54 mm lyuktávolságú csatlakozót helyezünk, és amely alkalmas a modul, a nyomógombok, és egyéb alkatrészek hordozására. A hangszóró, mikrofon és tápfeszültség bekötéséhez 2,5 mm-es jack hüvelyek és –dugók használhatók. TÁPFESZÜLTSÉG Erre a célra 3db műanyag tartóba helyezett 1,5 V elem használható vagy egy szabályozott kimenetű dugasztápegység. Célszerű kapcsolót is betenni, pl. az elemek kímélésére. Egy dióda, pl. 1N4001, amit a tápfeszültséggel sorba kötünk, megvédheti az elemeket fordított polaritás esetére. KIMENETEK Attól függően, hogy mit akarunk a kimenetre tenni (LED, motorok, relé stb.), kimeneti erősítő végfokra lehet szükség. Ilyeneket megfelelő szakirodalomból vehet. . Vegye figyelembe, hogy a kimenetek csak 1s ideig vannak High állapotban. Ezt megfelelő kapcsolással (Flip-Flop) meg lehet hosszabbítani. A kimenetek a bekapcsolási inicializálás során is rövid időre High-ba kapcsolnak – erre is tekintettel kell lenni. A modul Stand-alone módban 15 szót tud felismerni, de csak 8 kimenete van. Ha ennél több szót kell azonosítani, dekóder kell a kimenetre. RENDSZER TERVEZÉS Ha a modul egyéb, órajeles áramkörhöz kapcsolódik (kapcsolós szabályzó, LCD-meghajtó stb.), gondot kell arra fordítani, nehogy ezek zavarják az audio részt. (Ld. a CE követelményeket az elektromnágneses zavarvédelemmel kapcsolatban.) A hangszóró vezetékeket 6 cm-nél rövidebbre kell venni; ezen vezetékeket és a tápfeszültséget a modul átellenes felén kel vezetni. MIKROFON Többnyire megfelel egy irányfüggetlen elektrét-kondenzátor mikrofon, -60dB minimális érzékenységgel. Szükség lehet irányfüggő mikrofonra akkor, ha a hang a környezeti zajoktól eltérő irányból jön. Az ilyen mikrofon frekvenciamenete függ a zajforrás távolságától, ezért óvatosan kell használni. A legjobb a modulokat nyugodt környezetben alkalmazni, valamint úgy, hogy a beszélő és a mikrofon távolsága kicsi legyen. Fontos mechanikai szempontok a mikrofon szereléséhez: - A házba építéskor a mikrofon elemet a lehető legközelebb kell a ház felületéhez és a ház körkörösen kell tartsa. A mikrofon elem és a ház között nem lehet légtér, mivel az akusztikus rezonanciát okozhat, és rontja a felismerést. - A mikrofon elem környezetében nem lehet a felismerést zavaró akadály. A mikrofon számára általában legalább 5mm átmérőjű ház kivágás szükséges. Amennyiben műanyag részeknek kell lenni a mikrofon előtt, ezek vastagsága max. 0,7 mm lehet. - A mikrofont lehetőleg akusztikusan izolált módon kell a házba szerelni, pl. a mikrofon elemet oldalt puha anyaggal, gumival vagy habszivaccsal körülvéve. Másik lehetőség, hogy flexibilis, nem keményedő ragasztót alkalmazunk. Ez megakadályozza, hogy a készülék kezelése során előálló zajok (kapargálás, kopogás) a mikrofonba jussanak. ÜZEMMÓD VÁLASZTÁS Az alkalmazási módtól függően két fő konfigurációs lehetőség van. Az egyik a beszélő-függő mód, a másik a Continuous-Listening mód. A Continuous-Listening módnak két típusa van: egy- vagy több szavas. A konfigurációkat az
1
eredeti útmutatóban látható kapcsolási rajzok mutatják; kezelést ld. később.
02
1. Beszélő-függő (SD, ang. Speaker-Dependent) konfiguráció, működés [ld. 1. rajz, 4. o.]
Többes szavak [ld. 3. rajz, 6. o.] 4. Csatlakozáskiosztás, műszaki adatok
JP1: 01…17
Leírás
I/O
Nem használt, nem kell bekötni
-
JP2: 01 MIC IN 02 MIC BIAS 03 MIC RETURN
I O -
04 05 06
Mikrofon bemenet Mikrofon bias (elektrét-mikrofon) Analog GND – zajcsökkentés érdekében az analóg és digitális földet csak a modulnál kell összekötni +5V +5V tápfeszültség GND föld csatlakozó SPEAKER hangszóró csatl. (pozitív) (+) SPEAKER hangszóró csatl. (belül GND-al összekötve) (-) DACOUT Analóg kimenet (erősítés nélkül)
I I O
07 08
09
-MHS (P0.0)
10
-RECOG (P0.1) -TRAIN (P0.2) OUT1 (P1.0) OUT2 (P1.1) OUT3 (P1.2) OUT4 (P1.3) OUT5 (P1.4) OUT6 (P1.5) OUT7 (P1.6)
11 12 13 14 15 16 17 18 19
OUT8 (P1.7)
JP3: 01…09 10 11 12 13 14
ERROR/ -PROCESS (P0.3) GND GND MODUS -RESET
Stand-alone /Save Mód: Stand-alone: nem használt Slave: soros interfész master handshake (MHS) Stand-alone: felismerés szelektivitása Slave: nem használt Stand-alone: tanítás szelektivitása Slave: nem használt Stand-alone: kimenet, 1 v. 9 (Active high) Slave: talk Stand-alone: kimenet, 2 v. 10 (Active high) Slave: konfigurálható I/O #0 Stand-alone: kimenet, 3 v. 11 (Active high) Slave: konfigurálható I/O #1 Stand-alone: kimenet, 4 v. 12 (Active high) Slave: konfigurálható I/O #2 Stand-alone: kimenet, 5 v. 13 (Active high) Slave: konfigurálható I/O #3 Stand-alone: kimenet, 6 v. 14 (Active high) Slave: konfigurálható I/O #4 Stand-alone: kimenet, 7 v. 15 (Active high) Slave: soros interfész slave handshake (SHS) Stand-alone: kimenet, 6 v. 14 (Active high) Slave: soros interfész adat I/O (DATA)
O O
I I I O O O I/O O I/O O I/O O I/O O I/O O I/O O I/O
Nem használt, nem kell bekötni Stand-alone: error LED Slave: Low a parancs feldolgozás alatt
O O
föld föld Slave/Stand-alone: mód kiválasztás Reset (Active low) (null-aktív)
I I I I
JP4: 01
-TALK / CL CFG (P0.6)
Stand-alone: TALK LED, Single-CL/MultiCL választás Slave: nem használt
Stand-alone: CL tanít ás szelektivitása Slave: nem használt
I -
TANULÁS, FELISMERÉS SZELEKTIVITÁS A -TRAIN, -CL TRAIN és -RECOG kivezetések kontrollálják a szelektivitást, és aktiválják a VD 364 modult. A tanulás- és felismerés szelektivitás minden bekapcsoláskor és minden reset alkalmával meg lesz állapítva. A kivezetés bekötési lehetőségeket és azok hatását a következő táblázat mutatja:
2. Continuous-Listening (CL) módú konfiguráció Kétféleképpen lehetséges: Egyes szavak [ld. 2. rajz, 5. o.]
Kivez. Név sz.
-CL TRAIN (P0.7)
Kiosztás -TRAIN nincs bekötve -TRAIN 100 kohmmal földre (GND) kötve -CL TRAIN 47 kohmmal földre kötve -CL TRAIN 680 kohmmal földre kötve -RECOG nincs bekötve -RECOG 100 kohmmal földre kötve
Szelektivitás Toleráns SD tanítás – egyszerű betanítás; több hasonló szót elfogad (kevesebb visszautasítás) Pontos SD tanítás – nehezebb betanítani, több hasonló hangzású szót elutasít; pontosabb azonosítás (kevesebb tévesztés) Toleráns CL tanítás – egyszerű betanítás; több hasonló szót elfogad (kevesebb visszautasítás) Pontos CL tanítás – nehezebb betanítani, több hasonló hangzású szót elutasít; pontosabb azonosítás (kevesebb tévesztés) Toleráns SD és CL azonosítás – több hasonló szót elfogad, de több tévesztéssel járhat (kevesebb visszautasítás) Pontos SD és CL azonosítás – több hasonló hangzású szót elfogad, de betanítottakat is elutasíthat (kevesebb tévesztés)
Némely ’Continuous-Listening’ alkalmazás maximális pontosságot és minimális hibázást igényel - ilyen pl. a világítás kapcsolás. Ilyenkor a modul sok, a trigger kifejezéshez hasonló kifejezést hall, sok hibalehetőség van, tehát nagy pontosság szükséges; ez egyúttal nagyobb válaszidővel is jár. Más alkalmazások, pl. játék, olykor tűrik a hibázást, ugyanakkor gyors választ igényelnek. Ezeknél a trigger kifejezések gyakorisága is nagyobb lehet, a hibajelzés kevésbé súlyosan esik a latba. A Continuous-Listening pontosság és válaszidő arányát R2vel lehet beállítani. Nagy pontossághoz R2 legyen 680k, rövid válaszidőhöz pedig 47k. MŰSZAKI ADATOK Absz. határértékek Bármely kivezetés és GND között: -0,1V … +6,5V Teljesítményfelvétel: 1 W Tárolási hőmérséklet (TS): -20°C … +70°C Üzemi feltételek VDD = 4,5 - 5,25V VSS = 0V Üzemi hőmérséklet (TO): -20°C … +70°C Figyelem: a határértékek túllépése tartós károsodáshoz vezethet; az üzemi feltételek be nem tartása hosszabb idő alatt hátrányosan befolyásolja a megbízhatóságot és az élettartamot. DC jellemzők (TO = -20°C …+70°C, VDD = 5V ) Jel, egység VIL, V
Param.
Min
Input Alacsony fesz. . MODUS, I/O Pins, -RESET
-0,1
Tip
Max
Teszt felt.
0,75
I/O -
2
Input VIH, V 3,0 VDD (VDD>4.5) Magas fesz. +0,3 . MODUS, I/O pins, -RESET VOL, V Kimenet 0,3 0,1*VDD IOL= 2 mA Alacsony fesz. . I/O Pins VOH, V Kimenet 0,8·VDD 0,9·VDD IOL= -2 mA Magas fesz. . I/O Pins IIL, µA Logikai 0 <1 10 VSS< VPIN< Bem. áram VDD IDD1, mA Áramfelvétel, 37 100 Hi-Z kim. üzemi IDD2, mA Áramfelvétel, 4 6 Hi-Z kim. nyugalmi RPU, Felhúzó ell. 5; 6,5; Szoftverből kohm P0.0-P1.7 80; 200; állítható Hi-Z Hi-Z (Pin(s)=kivezetés(ek); input=bemenet; Hi-Z=nagyimpedanciás; magas fesz=logikai High)
(„mondja a második szót”) Kezelő: VD 364: Kezelő: VD 364:
„kikapcsolni” „Ismételje” „kikapcsolni” (elfogadva)
VD 364:
„Sagen sie wort drei” („mondja a harmadik szót”)
Kezelő: VD 364: Kezelő: VD 364:
„világítás” „Ismételje” „világítás” (elfogadva)
Akció
-TRAIN gomb nyomása
(„kikapcsolni”) tanulása
a harmadik SD szó („világítás”) tanulása
Tanítás stop
A VD 364 addig kéri az újabb szavakat, míg a 15-öt el nem érte. Korábbi befejezéshez újból a –TRAIN-t kell megnyomni.
5. A VD 364 tanítása Beszélő-függő mód Konfigurálja a modult beszélő-függő módra (1. ábra). Ha a -TRAIN láb legalább 100 ms ideig GND-n van (pl. megnyomják a rajzon -TRAIN.-nel jelzett gombot), a tanítás elkezdődik. A modul így szól: „mondja az x. szót”, ahol x a tanítandó szó sorszáma. A tanítandó szó vagy kifejezés 2,5s-nál rövidebb kell legyen, és nem lehetnek benne 0,5s-nál hosszabb szünetek. Pl: „Müller Péter” elfogadható, ha nincs a két szó közt hosszabb szünet. A tanítás befejeződik a következő esetekben: a) egy prompt (felszólítás) után nem mondanak szót, b) egy gombot másodszor is megnyomnak a tanítás alatt, c) három hiba lépett fel a tanítás alatt, vagy d) miután mind a 15 szó meg lett tanítva.
„CONTINUOUS-LISTENING” - egyes szó Ehhez a módhoz konfigurálja a modult a 2. ábra szerint. Itt külön gombok szolgálnak a beszélőtől függő szavak tanulására (-TRAIN) és a „Continuous-Listening”-hez (-CL TRAIN). A Continuous-Listening szó tanítása után összesen 15 beszélő-függő parancs tanítható. További eltérés, hogy a –TRAIN-t az SD tanás alatt minden egyes szóhoz nyomni kell.
VD 364:
„Sagen sie wort eins” („mondja az első szót”)
Ha a későbbiek során a -TRAIN gombot nyomják, a tanítás ismét megindul. Egy már megtanított szethez új szavak csatolhatók, max. 15 szóig. A szetből nem lehet egyes szavakat törölni, vagy felülírni, de a teljes szet törölhető (ld. 7 fejezet, beszédminták törlése). A ’mondjon egy szót’ prompt után a felhasználónak be kell mondania a tanítandó szót. A VD válasza: „Wiederholen Sie” (ismételje). Az ismétlés után a VD válasza: Akzeptiert (elfogadva), amennyiben a szó sikeresen meg lett tanítva; egyébként pedig megnevezi a hibát. Hiba esetén ilyen üzenetek fordulhatnak elő: „Sie haben zu früh gesprochen” (túl korán szólalt meg); „Bitte sprechen Sie lauter” (beszéljen hagosabban), stb. és az Error-Pin (hibajelzés kivezetés) 1sra High-ba megy. Háromszor lehet megkísérelni egy szó tanítását, mielőtt a VD azt lezárná a „Fehler beim Training Training beendet. (Hiba történt- tanítás vége) üzenettel (az Error láb 1s-ra High-ba megy). A tanítás leáll, ha: a felhasználó megnyomja a –TRAIN vagy a -RECOG gombot; nem válaszol a promptokra; vagy ha már mind a 15 szó meg lett tanítva.
Kezelő: VD 364:
„Kommando” „Wiederholen sie” („Ismételje meg”) „Kommando” „Akzeptiert” (elfogadva)
Példa (SD): Akció -TRAIN gomb nyomása VD 364: Kezelő: VD 364: Kezelő: VD 364: VD 364:
Tanítás kezdés
„Sagen sie wort eins” („mondja az első szót”) „Start” „Wiederholen sie” („Ismételje meg”) „Start” „Akzeptiert” (elfogadva)
Első SD szó („Start”) tanulása
„Sagen sie wort zwei”
a második SD szó
Példa (egyes szó CL): Akció -CL TRAIN gomb nyomása
Kezelő: VD 364: Akció
-TRAIN gomb nyomása
VD 364:
„Sagen sie wort eins - eins” („mondja az 1/első szót”)
Kezelő: VD 364:
„Start” „Wiederholen sie” („Ismételje meg”) „Start” „Akzeptiert” (elfogadva)
Kezelő: VD 364: Akció
CL tanítás kezdés CL szó („Kommando”) tanulása
SD tanítás kezdés Első SD szó („Start”) tanulása a szetben
Kezelő: VD 364: Kezelő: VD 364:
SD tanítás folytatás „Sagen sie wort eins - zwei” a második SD szó („mondja az 1/ második („kikapcsolni”) szót”) tanítása a szetben „kikapcsolni” „Ismételje” „kikapcsolni” (elfogadva)
Akció
-TRAIN gomb nyomása
VD 364:
„Sagen sie wort eins - drei” („mondja az 1/ harmadik szót”)
VD 364:
-TRAIN gomb nyomása
SD tanítás folytatás a harmadik SD szó („világítás”) tanulása
3
Kezelő: VD 364: Kezelő: VD 364:
„világítás” „Ismételje” „világítás” (elfogadva)
CONTINUOUS-LISTENING, multiword (több szó) Konfigurálja a modult a 3. ábra szerint a CONTINUOUSLISTENING, több szó módra. A tanítás hasonlóan folyik az egyes szó Continuous-Listening módéhoz, eltérés, hogy három különböző Continuous-Listening szó tanítható. Mindegyik szó tanítása után összesen öt beszélőfüggő szó tanítható. Figyelem: a beszélőfüggő szeteket közvetlenül a hozzátartozó Continuous-Listening szó után kell tanítani. Nincs arra lehetőség, hogy a következő ContinuousListening szó tanítása után visszamenjünk, és a beszélőfüggő szetet újra tanítsuk, anélkül, hogy a teljes memóriát törölnénk. Ha megkísérli két hasonló hangzású Continuous-Listening szó tanítását, hibaüzenetet kap: Ähnlich zu Wort x (hasonlít az x szóhoz). A beszélőfüggő tanítás alatt egy szet minden szava meg lesz vizsgálva, nem hasonlít-e ugyanott egy másikra. Más szettel nincs ilyen összevetés. A multiword Continuous-Listening használható úgy, hogy egy felhasználó több jelszóval bír különféle funkciókhoz, vagy úgy, hogy több felhasználó egy-egy saját jelszóval, valamint saját, beszélő-függő kommandószóval rendelkezik. Példa (MULTI-WORT CL): Akció -CL TRAIN gomb nyomása VD 364:
CL tanítás kezdés, 1. felhasználó (’kezelő’)
„Sagen sie wort eins” („mondja az első szót”) Kezelő 1: „Licht” VD 364: „Wiederholen sie” („Ismételje meg”) Kezelő 1: „Licht” VD 364: „Akzeptiert” (elfogadva)
Első CL szó („Licht”) (világítás) tanulása
Akció
SD tanítás kezdés, 1. felhasználó Első SD szó („Ein”) (be) tanulása az első szetben
-TRAIN nyomása
VD 364:
„Sagen sie wort eins - eins” (mondja az 1/első szót) Kezelő 1: „Ein” VD 364: „Wiederholen sie” („Ismételje meg”) Kezelő 1: „Ein” VD 364: „Akzeptiert” (elfogadva) Akció
-TRAIN nyomása
VD 364:
„Sagen sie wort eins - zwei” (mondja az 1/második szót) „kikapcsolni” „Ismételje” „kikapcsolni” (elfogadva)
Kezelő1: VD 364: Kezelő1: VD 364: Akció VD 364:
-CL TRAIN nyomása „Sagen sie wort zwei”
SD tanítás folytatás, 1. felhasználó a második SD szó („Ausschalten=kikapcsolni”) tanulása az első szetben
(„mondja a második tanulása szót”) Kezelő 2: „Sztereókészülék” VD 364: „Wiederholen sie” („Ismételje meg”) Kezelő 2: „Sztereókészülék” VD 364: „Akzeptiert” (elfogadva) Akció
-TRAIN nyomása
VD 364:
„Sagen sie wort zwei - eins” (mondja a 2/első szót) „Start” „Wiederholen sie” („Ismételje meg”) „Start” „Akzeptiert” (elfogadva)
Kezelő: VD 364: Kezelő: VD 364: Akció
-TRAIN nyomása
VD 364:
„Sagen sie wort zwei - zwei” (mondja a 2/második szót) „kikapcsolni” „Ismételje” „kikapcsolni” (elfogadva)
Kezelő: VD 364: Kezelő: VD 364:
SD tanítás kezdés, 2. felhasználó Első SD szó („Start”) tanulása a második szetben
SD tanítás folytatás, 2. felhasználó a második SD szó („Ausschalten=kikapcsolni”) tanulása a második szetben
6. Szófelismerés Beszélő-függő mód Ha a -RECOG láb legalább 100 ms-ig GND-re van húzva, elkezdődik az azonosítás. A VD 364 azt mondja: Sagen Sie ein Wort (mondjon egy szót). Ha a válaszul kapott szó nem lesz felismerve, a VD 364 azt mondja: Wort nicht erkannt (a szó nem ismerhető fel), és kilép az azonosító módból. Ha a kimondott szó egyezik egy korábban tárolt beszédmintával, a 8 kimenetből egy v. kettő aktiválódik (kb. 1s-ra High lesz), és a VD 364 jelzi a felismert szó számot. A nyolc szónál kevesebbet tartalmazó szeteknél a kivezetések közvetlenül használhatók akciók vezérlésére; nyolcnál több szó esetében a kimenethez dekóder kell. Az alábbi táblázatban látható a kimeneti logika formája. Kimenet (OUT) Felismert 1 2 3 4 5 6 7 8 SD szó 01 A 02 A 03 A 04 A 05 A 06 A 07 A 08 A 09 A A 10 A A 11 A A 12 A A 13 A A 14 A A 15 A A „A” jelentése: Active-high kimenet
CL tanítás kezdés, 2. felhasználó a második CL szó („Sztereókészülék”)
Hiba esetén (kivéve a Wort nicht erkannt (szó nem lett felismerve) esetet), a modul jelentést ad ki: Sie haben zu früh gesprochen (Ön korán szólalt meg); Bitte sprechen Sie lauter (beszéljen hangosabban), stb., és az Error láb 1s-ra
4
High lesz. Ha a szó valamiért nem lesz felismerve, akkor egyik kivezetés sem aktiválódik, és kiadásra kerül a beszéd prompt. Az Error-láb ekkor inaktív marad, mivel a jelenség akkor is fellép, ha a kimondott szó nem lett betanítva, vagyis nem a korábbiak szerinti hibáról van szó. A beszélőfüggő szavak felismerésénél a VD364 a háttérzajra is tekintettel van, és figyelmeztető jelzést ad ki, amennyiben ez a zaj túl nagy a sikeres felismeréshez. A VD 364 nagyobb háttérzaj mellett is jól működik (> 80dB), amennyiben a zaj egyenletes, pl. ventilátor. Egyenetlen zajnál, pl. TV, rádió, azonban hibajelzést ad. Persze legjobb a kiszajú környezet. Figyelmeztetés van akkor is, ha a szavakat túl halkan ill. hangosan, vagy túl gyorsan a prompt után mondják (Errorláb High lesz). Egyes szó, „continuous-listening” mód Bekapcsolás vagy reset után a VD 364 megvizsgálja, hogy Continuous-Listening módra van-e konfigurálva. Ha lettek szavak tanítva, azonnal elkezd Continuous-Listening szavak után hallgatózni. Ebbe a módba lehet jutni tanítás után a -RECOG gombbal is. Vegye figyelembe, hogy a modul csak akkor hall, amikor a TALK LED világít. Ezt indikátorként lehet használni, mielőtt parancsszavakat adnak be, különösen első használatkor. Egy Continuous-Listening szó azonosítása után 3s idő van, hogy a rákövetkező, beszélőfüggő parancsot beadják (amennyiben az meg lett tanítva). Ha nincsenek ilyen szavak betanítva, akkor a Continuous-Listening szó azonosítása azonnal aktiválja az 1-es kimeneti lábat. Ez hasznos funkció, amikor csak egy parancs szükséges, pl. világítás kapcsolásnál. Figyeljen arra, hogy a VD 364 nem várja végig a 3s-t, ha egy parancsszó után szünetet észlel; a beszédfelismerés ilyenkor rögtön megindul. Amennyiben egy betanított szósorozat (ContinuousListening + beszélőfüggő szó) lett azonosítva, a megfelelő kimeneti láb 1s-ra High-ba megy. Kimenet (OUT) Felismert 1 2 3 4 5 6 7 CL+SD szó 01 A 02 A 03 A 04 A 05 A 06 A 07 A 08 09 A 10 A 11 A 12 A 13 A 14 A 15 A „A” jelentése: Active-high kimenet
8
A A A A A A A A
Többszavas Continuous-Listening mód A többszavas Continuous-Listening mód az egyszavashoz hasonlóan működik, annyi különbséggel, hogy a modul egyidejűleg összesen három különböző szót tud hallani. A Continuous-Listening szót követő beszélőfüggő szó csak a megfelelő beszédminta szetekkel lesz összevetve. Ha nincsenek beszélőfüggő szavak tanítva, a ContinuousListening szó felismerése ugyanazon reakciót váltja ki, mint ha a beszélőfüggő szó készletből lett volna egy szó azonosítva. Ha pl. a B szetbe nem kerültek betanított beszélőfüggő szavak, az Out 2 és Out 4 High-ba megy. Ez a funkció olyan alkalmazásokban hasznos, ahol összesen csak 3 parancsra van szükség, vagy több felhasználó van, akik azonban csak egy parancsot alkalmaznak. OUT
CL szó SD szó 1 2 3 4 5 6 A 01 A A A 02 A A A 03 A A A 04 A A 05 A B 01 A A B 02 A A B 03 A A B 04 A B 05 A C 11 A A C 12 A A C 13 A A C 14 A C 15 A „A” jelentése: Active-high kimenet
7 8
A A
A A
A A
7. Beszédminták törlése Ha a -TRAIN és –RECOG lábak legalább 0,5s-ig GND-re kerülnek, akkor a VD 364 minden betanított beszédmintát töröl. A modul kiad egy üzenetet: „Der Speicher ist gelöscht” (tár törölve). Az Error láb 1s-ra High lesz, és kilépünk a törlés módból. Egyes szavakat vagy szeteket külön nem lehet törölni. 8. Tippek az optimális működtetéshez A sikeres beszédfelismerés azzal kezdődik, hogy gondosan kell kiválasztani a szavakat mindegyik felismerő szethez. Ebben több tényező játszik szerepet. A felismerési pontosság problematikus szeteknél többnyire javítható egy vagy több, hasonló hangzású szónak más hangzású szinonimára történő kicserélésével. Minél kisebb a szet, annál jobb a pontosság. A mikrofon kialakítás olyan, hogy jó eredményhez kis távolságból (<1m) kell beszélni. Nagyobb távolságból is lehet beszélni, de ehhez meg kell növelni a mikrofon érzékenységet. Ekkor azonban a közeli beszéd okoz problémát. A tér akusztika erősebb befolyással bír nagyobb távolság esetén; hallok, mellékzajok, visszhangok kiszámíthatatlan következményeket okozhatnak. A kielégítő eredményhez kísérletezni kell (mikrofon pozíció és érzékenység, modul szelektivitás). Mikrofon témában nézze meg weboldalunkat is: www.sensoryinc.com. Kulcspontok a sikeres beszédfelismeréshez A beszéd felvétel ugyanazon felépítés, külső és belső körülmények között történjen, mint a felismerés. A mikrofon, mikrofon ház stb. ne térjen el A felvételhez ugyanazon száj-mikrofon távolságot alkalmazzuk, mint a felismeréshez Természetes módon beszéljünk. Testi jellemzők: pl. sportkészülékhez való felvételnél testi erőkifejtés közben beszéljünk. Gondolni kell az érzelmi hatásokra: pl. világítást nyugodt hangon kapcsolunk be, játék közben izgatottabban beszélünk. A használat helye: pl. az autóba szánt készülékhez a felvételeket járó autóban célszerű készíteni. Mindazonáltal ne legyen túl nagy zaj. A beszédhang határozottan emelkedjék ki a háttérzajból - ne lépjenek fel hirtelen zajok. Ne készítsünk felvételt hangszigetelt helyiségben, ha nem ilyenben lesz a modul használva. 9. A beszédfelismerésről A VD 364 diszkrét szavak beszélőfüggő azonosítását valósidejű módon végzi, mintaösszehasonlítás útján, korábban betanított beszédmintákra támaszkodva. A minták a beszédparancsok digitális rekonstrukcióján alapulnak. Minden szót először be kell tanítani. A tanítás során a VD 364 beszédmintát készít, amely megfelel a beszélő
5
személyes hangjának minden felismerendő kifejezésnél. A beszédminták EEPROM-ba kerülnek. A felismerés során új minta készül, amely össze lesz hasonlítva a korábban tároltakkal. A VD 364-ben beépített beszéd visszaadás van (prompt-ok), a tanulási és visszaadási eljárások céljára. Ezek könnyebbé teszik igényes, új interaktív termékek előállítását. Egy szó felismerésének folyamata: 1. Audio jel (kimondott szó) felerősítése, szűrés. Analóg jel digitálissá alakítása. 2. A VD 364 elemzi a beszéd-jelet, és információ mintát készít, amely tartalmazza a lényeges jellemzőket. 3. A megfelelő jelminőség érdekében módosítja az előerősítő erősítését. 4. Az elkészült mintát neurális hálózat segítségével összeveti a tárolt mintával, és a szóba jöhető mintákból kiválaszt néhányat. 5. A megmaradtakat további feldolgozásnak veti alá, hogy a legjobban illeszkedőt megtalálja. 6. Amikor a kiválasztott minta egy meghatározott mértékű egyezést mutat, az ismeretlen mintához egy korábban tanult szót hozzárendel. Ha nincs egyezés, speciális érték, a .Nichtübereinstimmung. (nem egyezik) lesz kiválasztva. Az 1 …3 pontok a tanítás során minden szóra meg lesznek ismételve. A VD 364 két tárolt beszédminta átlagát tárolja el minden szóhoz, a pontosság javítására. A minta a tárba vitel előtt össze lesz hasonlítva a szetben meglévő bevitelekkel. Az új jelölt nem lesz elfogadva, ha nagyon hasonlít egy meglévő szóhoz (pl. Haus/Maus). Szokásos módon két alapvető hiba lehet: - elutasít egy szót, ami szerepel a szótárában - összetévesztés (a szótár másik szavával); - vagy ott nem szereplő szó ’felismerése’ A hibák jelentősége a felhasználástól függ. A beállítható szelektivitás lehetőséget ad a megfelelő összehangoláshoz és kompromisszumos megoldáshoz. 10. Kapcsolási rajz [ld. eredeti útmutatóban] 11. Alkatrészlista 1 2
1 1
3
1
4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
2 1 2 2 1 1 2 1 2 1 1 1 1 1 1 5 9
21 22 23
1 1 1
24
1
25
1
26 27 28
1 1 1
Panel, VD 364 PCB EPROM, VD 364, angol vagy német RSC-300 ill. VD 364 TQFPIC Ellenállás, 100 kohm Ellenállás, 10 ohm Ellenállás, 1 kohm Ellenállás, 100 ohm Ellenállás, 2,7 kohm Ellenállás, 4,7 kohm Ellenállás, 47 kohm Ellenállás, 220 kohm Ellenállás, 300 kohm Ellenállás, 0 ohm Ellenállás, 47 ohm Ellenállás, 1,2 Mohm Kondenzátor, 27 pF / 50 V Kondenzátor, 100 pF / 50 V Kondenzátor, 1 µF / 16 V Kondenzátor, 100 µF / 6,3 V Kondenzátor, 0,1 µF / 50 V
U2* U1*
R6* ,R7* ,R12 R19 R4,R16 R8,R9 R1 R11 R15,R18 R2 R14,R17 R5*, R10* R3 R13 C11 C20 C16 C5,C8,C15,C17,C19 C1,C3,C9,C10,C12,C13 ,C14,C21,C22 Kondenzátor, 0,01 µF / 50 V C6 Kondenzátor, 220 pF / 50 V C4 Kondenzátor, 0,022 µF / 50 C7 V Kondenzátor, 4700 pF / 100 C2 V Kondenzátor, 1000 pF / 50 C18 V 24LC65T/SM U3 LM386M-1 U4 Csatlakozóléc, 17 tűs anya JP1
29 30 31 32
1 1 1 1
Csatlakozóléc, 19 tűs anya Csatlakozóléc, 14 tűs anya Csatlakozóléc, 2 tűs anya Kvarc, 14,318 MHz,
JP2 JP3 JP4 Y1
Eltérő beültetés: a VD 364 IC .German. ill. .English. az EPROM kódot belső MASKROM-ban tartalmazza. Azon moduloknál, melyek RSC300-al és VD 364 EPROM –mal vannak ellátva, R7 és R10 elmarad. A VD 364 IC –vel ellátott moduloknál elmarad U2, R5 és R6.
12. További felhasználások A VD 364 meglevő rendszerek továbbfejlesztéséhez is használható. A felhasználó által definiált beszéd kiadását jelenleg nem támogatja. Kivitel: Singlechip 64-Pin 10 x 10 mm TQFP-IC vagy DieChip. Komplett, részletes adatgyűjteményt, programozást Slave módban ld.: www.sensoryinc.com. 13. Egyéb SENSORY termékek „INTERACTIVE SPEECH” termékek: Fejlettebb beszédfelismerés és audio technika pl. telefonokhoz, épület és lakás automatizáláshoz, kommunikációhoz, távvezérléshez, személyi biztonsági készülékekhez. RSC mikrokontrollerek Az RSC-mikrokontroller család (RSC-164, RSC-200/264T, és RSC-300/364) gazdaságos 8-bites mikrokontrollerek, konzumelektronikához. Teljesen integráltak, és tartalmaznak beszéd processzort, A/D, D/A, ROM-ot (kiv. RSC-200/300), és RAM-ot a chipen. Az RSC-200/264T és RSC-300/364 chipjén előerősítő is van. Zene szintézisre is vannak termékek. 14. Tudnivaló, garancia Figyelem: A kit azoknak van szánva, akik rendelkeznek megfelelő elektronikus áramkör építési ismeretekkel. A tápfeszültség ráadása előtt még egyszer át kell nézni, nem tartalmaz-e hibát a megépített áramkör. GARANCIA A Sensory cég nem vállal felelősséget arra nézve, hogy a VD 364 alkalmas arra a célra, amire szánták. Ezt a felhasználónak kell megítélnie. Nem szabad az áramkört életfenntartó funkcióval kapcsolatos berendezésekben használni.
6