Hang-asszisztensek: nézzük az alapokat!

Ez a bejegyzés eredetileg ezen az oldalon jelent meg.

Hang-asszisztensek

A hang-asszisztensek közötti választás nem egyszerű, így mielőtt kiválasztanánk a számunkra legmegfelelőbbet, ismerkedjünk meg velük.

Az első hang-asszisztens 2011. október 4-én jelent meg az Apple iPhone 4S-sel: Ő volt Siri a digitális asszisztens, akit azóta többször megújult hangszínileg, új képességeket szerzett és egy időben eléggé lemaradt közben a feltörekvő konkurenciához képest.
Na de hogyan is működik egy hang-asszisztens, milyen célból hozták létre és mire használják elsősorban az emberek?
Nézzük sorban:

Hogy működik egy hang-asszisztens, egyáltalán mi is az?

A hang-asszisztensek két irány találkozásából jöttek létre. Az egyik a virtuális asszisztens, amely nyelvtani mondatokat dolgozott fel és próbált rá választ adni természetesnek ható szöveggel. Chat szerű megoldások korán, már az 1960-as évektől rendelkezésre álltak, a az ELIZA nevű “chat-bot” például az össes Tandy/Radio Shack számítógépen elérhető volt az 1970-es években. A működés a begépelt szövegben lévő kulcskifejezések megtalálására és erre való “dobozolt válaszra” épített, így az életszerű beszélgetéstől messze állt, viszont nagyon jól tudta hozni a “táv psziho-analítikust”, aki mindig visszakérdez a válaszadás helyett.

A másik irányvonal a természetes hang alapú szöveg írásos leképzése (TTS) függetlenül a hang egyedi tulajdonságaitól.
Viszonylag korán rendelkezésre álltak a hangutasításokat feldolgozó rendszerek, amelyek egy konkrét hangmintára reagáltak: Azonos szórend, hanglejtés, akcentus és szövegdinamika kellett ahhoz, hogy a hangutasítást egy parancshoz tudják rendelni. A viruális asszisztensek megjelenésével egy lépéssel közelebb kerültünk a Turing által megálmodott világhoz, ahol nem lehet különbséget tenni csak a beszélgetés alapján, hogy emberrel vagy géppel folytatunk-e párbeszédet. Ez persze koránt sem jelenti azt, hogy a Apple Siri, Google Assistant (mért nincs még emberi neve vajon?), és Amazon Alexa képesek úgy kommunikálni, mintha egy valódi asszisztenssel beszélgetnénk (bár a Google Duplex eléggé meggyőző), és ennek több oka is van, amit a következő pontokban fogok kifejteni.
A hang-asszisztens célja tehát, hogy az élő beszédet “megértse” és annak megfelelően reagáljon, akár valamilyen feladat végrehajtásával akár válaszadással.

Miért nem képesek a jelenlegi hang-asszisztensek úgy kommunikálni, mint egy valódi asszisztens?

Több oka is meghúzódik a háttérben.

  1. A jelenleg elterjedt megoldások “kiszervezik a megértést”: Valójában egy hangszóró és mikrofon párost kapunk, amely az adott hívószóval való aktiválás után elküldi a rögzített szöveget egy szerverfarmban található számítógép együttesre (értsd “felhőbe”) az interneten keresztül és az onnan érkező hangfájlt játsza le. Bár vannak próbálkozások a lokális hang-asszisztensi működésre is (ezekről is ejtünk szót a későbbiekben), jelenleg szinte csak felhős megoldáshoz férhetünk hozzá. Ennek az egyértelmű hátránya a hálózati szolgáltatástól való függés: ha nincs internet kapcsolat, akkor csak hangszóróként alkalmazhatjuk ezeket, illetve a szolgáltatás feltételei is változhatnak idővel.
  2. A válaszadások nem tanuló algoritmusokkal történnek (még), hanem vagy egy előre felépített végrehajtási sorrend alapján, amit akár magunk is megtaníthatunk nekik.
  3. A legtöbben nem virtuális asszisztensként használják, hanem szórakozásra. A komplexebb feladatokat nem bízzák az asszisztensre, így a legtöbb esetben az időmérés, zene lejátszás vagy az időjárás előrejelzés funkciót használják.

A legtöbb mobiltelefonban ott csak egy gombnyomásra van a hang-asszisztens, használatának viszont van egy nagyon fontos vetülete, ami korlátozza a felhasználhatóságukat, ez pedig az általuk ismert nyelvek.

Milyen nyelven beszélnek a hang-asszisztensek?

Google Home Sonos integráció: ez sem működik Magyarországon
Google Home Sonos integráció: ez sem működik Magyarországon
Alexa Sonos integráció: Magyarországon nem használható
Alexa Sonos integráció: Magyarországon nem használható

Azt egyből kijelenthetjük, hogy magyarul jelenleg (2021. június) nem beszélnek. Van rá lehetőség, hogy a Google Assistant-ot rábirjuk magyar mondatok kimondására, sőt Siri is képes feladatokat végrehajtani egy-egy rövid magyar kifejezésre, de ennél többet jelenleg nem hajlandóak megtenni.
Amellett sem szabad elmennünk, hogy hivatalosan sem a Google, sem az Amazon hang-asszisztens szolgáltatása nem támogatott Magyarországon. Ez annyit tesz, hogy az USA-ban rendelkezésre álló lehetőségek nagyjából 5-10%-át lehet itthoni címmel kihasználni.
A hang-asszisztensek ugyanis geolokációs alapon engedélyeznek és tiltanak egyes funkciókat, így előfordulhat, hogy egy termék bőszen hirdeti, hogy bizony ő Google Home és Amazon Alexa kompatibilis, majd hazaérve és kicsomagolva döbbenünk rá, hogy kis országunk bizony nem szerepel a támogatottak között, így el is felejthetjük a “legális” hozzáférést.

Persze a probléma megoldásához nem kell az USA-ba költöznünk, vagyis elég, ha azt virtuálisan tesszük. Ha sikerül meggyőznünk a hang-asszisztensünket, hogy valójában New York egyik kertvárosában lakunk, akkor ezek a problémák egy csapásra megoldódnak, bár előfordul, hogy ideiglenesen, mert viszonylag hamar feltűnik a magyar IP címről való folyamatos bejelentkezés.
Ez egyébként a legtöbb tartósan külföldön dolgozó felhasználó problémája is, amint kiérnek az országhatáron, rögtön elvesztik a jogosultságukat a szolgáltatások egy jelentős része felett.

De nézzük akkor jelenleg mely nyelveket támogatják a legjelentősebb hang-asszisztensek:

Amazon Alexa Google Assistant (Eszközönként eltérő lehet) Apple Siri
Angol Angol Angol
Német Német Német
Francia Francia Francia
Hindi Hindi
Olasz Olasz Olasz
Japán Japán Japán
Portugál (Brazil) Portugál (Brazil)
Spanyol Spanyol Spanyol
Holland Holland
 – Norvég Norvég
Svéd Svéd
 – Koreai Koreai
 – Dán Dán
 – Mandarin (Tajvan) Mandarin
 –  – Arab
 –  – Kanton
 –  – Finn
 –  – Héber
 – Maláj
 –  – Orosz
 – Thai
Török

Általánosságban igaz, hogy a főbb nyelveket a támogatással nem rendelkező országokban lehet használni, így nálunk az angol, német, spanyol, francia nyelvek érhetőek el elsősorban.

Milyen megoldások vannak jelenleg a piacon?

A fent említett három, nagy piaci részesedéssel rendelkező hang-asszisztens (Amazon Alexa, Google Assistant, Apple Siri) mellett a nagyobb telefon- és okoseszköz gyártóknak is vannak hang-asszisztens megoldásai: Samsung Bixby/Viv, a Microsoft Cortana (ami már csak vállalati szinten érhető el), Yandex Alice, Alibaba csoport AliGerie, Huawei Celia, Xiaomi XiaoAI, csak hogy a nagyobb márkákat említsük. Közös bennük a “felhős működés.

A bejegyzés elején említettem, hogy néhány lokálisan működő megoldás van a piacon, többségük vagy túl kicsi, vagy felvásárlás során elvesztette a lokális funkcióját. A tgalpon lévő megoldások közül a Mycroft emelkedik ki, nyílt-forráskódú és az adatbiztonság a fő fókusza, viszont jelenleg nem “Plug & Play” (a Mark II 2021-ben érkezik, a chip válság hátráltatja a megjelenést), ezért a felhasználók jelentős részének nem jelent alternatív megoldást.

Az Alexa, Google Assistant és Siri összehasonlítását a következő bejegyzésünkben ejtem meg.

Kövess minket!

About okosotthon.guru

„A hálószoba lámpa kapcsolójához miért nincs távirányító?” Ez volt az a kérdés, ami elindított 2013-ban az okosotthonok világa felé, ekkor fogalmazódott meg bennem az elhatározás, hogy az otthonomat még kényelmesebbé, biztonságosabbá és nem utolsósorban energiatakarékosabbá teszem. Évekig nézelődtem a piacon fellelhető megoldások között, de még alaposabb utánajárás után sem tudtam eligazodni a rengeteg lehetőség és megoldás között, nem volt a piacon olyan megoldás vagy személy, aki átlátta volna a gyorsan változó okosotthon piacot és személyre szabottan tudott volna segíteni az otthonom kialakításában. Az elmúlt évek a lehetőségek feltérképezésével, kipróbálásával, valamint az önképzéssel teltek. Megismertem a „csináld magad” megoldásokat, a kész eszközöket majd a komplett épületautomatizálási rendszereket is. Kipróbáltam, szétszedtem, hogy megértsem, hogyan is működik, elkövettem az összes lehetséges hibát, amit ezen téren el lehet követni. Mindig arra törekedtem, hogy átfogóan megértsem és megismerjem a különböző megoldásokat és azok előnyeinek és hátrányainak ismeretében tudjak egyik vagy másik megoldás mellett dönteni. Az idő során azt vettem észre, hogy mások is hasonló helyzetbe kerültek, mint annak idején én. Szembesültek az őket elárasztó lehetőségekkel és nem tudnak választani az okosotthon megoldások között, mert úgy érzik, nincsenek a megfelelő információ birtokában. Feladatomnak éreztem, hogy segítsek nekik, így megalapítottam a Smartopert Kft-t és életre keltettem az Okosotthon Guru márkát, ahol márkafüggetlenül segítek eligazodni azoknak, akik okosotthont szeretnének, hogy valóban rájuk szabott okosotthonuk legyen. Telepítők és villanyszerelők is megkerestek, hogy melyik megoldást javaslom nekik, mert ők sem igazodtak ki a lehetőségek között, így született meg a Smopet, mely naprakész tudást biztosít a szakembereknek a piacon lévő megoldásokhoz, mert így lehetnek kiemelkedőek a területükön és szolgálhatják az ügyfeleik érdekeit.
View all posts by okosotthon.guru →