|
Közösségi média streamek valós idejű, nagyléptékű trendfigyelése és összegzése
|
tarix | 18.05.2017 | ölçüsü | 1,25 Mb. |
|
Közösségi média streamek valós idejű, nagyléptékű trendfigyelése és összegzése Közösségi média streamek valós idejű, nagyléptékű trendfigyelése és összegzése 2011-2014: - DFKI (de), U. Sheffield, U. Southampton (uk), OntoText (bg), Sora (at), Internet Memory (fr), Eurokleis (it)
2013-2014: - MTA NYTI (hu), U. Madrid, Daedalus (es), IPIPAN (pl)
Twitter streamek valós idejű követése Twitter streamek valós idejű követése - Felhőalapú architektúra; nem tárol minden üzenetet
Entitások felismerése és ontológiához kapcsolása, több nyelven - „ Wikification” / egyértelműsítés (Dbpedia)
Összegzés (summarization) - Többnyelvű spektrális klaszterezés, reprezentáns választása
Trendfigyelés - Gépi tanulás: SM üzenetek + valós idősorozatok modellezése
Vizualizációs UI Use Cases - Pénzügyi folyamatok
- Politikai események
- Gyógyszerek és hatóanyagok a SM-ban
Milyen (szociál)pszichológiai jelenségek, trendek figyelhetők meg a magyar Fb hozzászólók politikai témákra reagáló üzeneteiben? Milyen (szociál)pszichológiai jelenségek, trendek figyelhetők meg a magyar Fb hozzászólók politikai témákra reagáló üzeneteiben? - Facebook Magyarországon: 4.27M regisztrált felhasználó = internethasználók 59.2%-a, teljes népesség 43%-a
Politikusok, politikai szerveztek publikus Facebook posztjaira érkezett publikus kommentek letöltése és elemzése - Alapszintű NLP (tokenizálás, PoS, szótövesítés) -- domain-adaptáció
- Entitások: politikai szereplők (személyek, pártok, szervezetek)
- Sentiment (érzelempolaritás)
- Szociálpszichológiai dimenziók: közösségiség-ágencia, individualizmus-kollektivizmus, optimizmus-pesszimizmus, elsődleges-másodlagos gondolkodási folyamatok
Együttműködés - MTA TTK Kognitív Idegtudományi és Pszichológiai Intézet Narratív Pszichológiai Kutatócsoport
Jelenleg: 1.9M komment 141K poszthoz Jelenleg: 1.9M komment 141K poszthoz - 2013.10.01 – 2014.09.22 időszak
- Facebook Graph API, folyamatos letöltés
1344 fb oldalról - Szervezetek: politikai pártok, tagszervezeteik
- Személyek: országgyűlési képviselők és –jelöltek (OEVK)
- Hivatalos és nem hivatalos oldalak
3 kategóriában - Magyar országgyűlés 2010-2014
- Magyar országgyűlés 2014-2018 + országgyűlési választások 2014
- Magyar EP képviselők 2014-2019 + magyar EP választások 2014
Források (entitások): valasztas.hu, wikipedia.hu SQL adatbázis (kommentek, metaadatok, annotációk)
Letöltés (Fb Graph API), AB-ba töltés Letöltés (Fb Graph API), AB-ba töltés Tokenizálás (huntoken) Szófaji egyértelműsítés (PoS-tagging) (hunmorph) Morfológiai elemzés (hunmorph) Szótő és morf. elemzés egyértelműsítése (saját szkript) Entitások azonosítása, tartalomelemzés (NooJ) Annotációk, kiszámított mutatók AB-ban tárolása Vizualizációs szerverre feltöltés
A meglévő NLP eszközöket eltérő szövegdomainre fejlesztették ki A meglévő NLP eszközöket eltérő szövegdomainre fejlesztették ki - „sztenderd” nyelv (hírek)
- Közösségi média szövegeken rosszul teljesítenek
- 2 irány: input normalizálása & eszközök kiterjesztése
Adaptáció előkészítése korpuszvizsgálattal - 1.25M fb komment, 29M token
- 2.25M ismeretlen token (694K típus)
- Gyakorisági lista: f > 15 manuális átnézése
- Gyakori problématípusok, releváns és gyakori ismeretlen szavak kigyűjtése stb.
Gyakori problémák Gyakori problémák - Hiányzó szóközök írásjelek után Első mondat vége.Következő mondat eleje
- Többször ismételt írásjelek első rész.…… második rész => [„első”, „rész.”, „…”, „…”, „második”, „rész”]
- Egybe írt szleng kifejezések asszem (azt hiszem)
- Szóvégi mássalhangzók többszörözése pl. pffffffffffff, uffffffffffff, ejjjjjjjjjjjjj (pff, uff, ej)
- Emotikonok felbontása :D => [„:”, „D”]
- URL-ek felbontása
- Nagy számoknál ezres csoportok felbontása 125 000 => [„125”, „000”]
Gyakori problémák Gyakori problémák - Gyakori és fontos ismeretlen szavak (nincs szótő, elemzés):
- hozzáadás a hunmorph elemző lexikonjához
- analóg, elemző által ismert szavak alapján (azonos paradigma) traffipax, chipsadó, E-útdíj, MVM, nyugger, lájkol, ...
- Gyakori elírt szóalakok:
- javítás helyes alakra (lista) dúrva-durva, má-már, enyi-ennyi, korupt-korrupt, simicska-Simicska, ...
- Nem sztenderd kisbetű-/nagybetűhasználat pl. CSUPA NAGYBETŰS MONDATOK
- Hiányzó ékezetek
NooJ, Java NooJ, NooJ-cmd - Véges automaták (lexikon, nyelvtan): annotáció, konkordanciák stb.
NooJ nyelvtanok (automaták) annotációhoz: - Szereplők (entitások)
- Érzelmi valencia (polaritás / sentiment)
- Regresszív képzeleti szótár
- Közösségiség-ágencia
- Optimizmus-pesszimizmus
- Individualizmus-kollektivizmus
Együttműködés MTA TTK PI szociálpszichológus kutatóival Együttműködés MTA TTK PI szociálpszichológus kutatóival - Pólya Tibor, Fülöp Éva, Csertő István, Kővágó Pál
Fejlesztői korpusz - 176K minta fb komment 570 fb oldalról (4.9M token)
- NLP annotáció
- Gyakorisági listák: szótő, szótő+szófaj, szótő+morfológiai elemzés stb.
Maxent NER eszköz (huntag): alacsony teljesítmény ezen a domain-en Maxent NER eszköz (huntag): alacsony teljesítmény ezen a domain-en - Híroldalak szövegein tanult (sztenderd nyelv)
- Kategóriahibák, hamis pozitív entity-k, entityhatár-felismerési problémák
NooJ lexikon és nyelvtan - Személynevek: családnév, családnév+utónév, becenevek
- Szervezetek (pártok) nevei: Hivatalos név, rövidített/betűszavas változat, becenevek
Érzelmek pozitív vagy negatív polaritással Érzelmek pozitív vagy negatív polaritással - Főnevek, melléknevek, igék, határozószók, emotikonok, többszavas kifejezések
- 500 pozitív, 420 negatív elem
- Kontextusfüggő polaritás: pl. negáció felismerése egyszerű szabályokkal
Fejlesztése: - f > 100 tartalmas szavak a fejlesztői korpuszból (3500 típus)
- 6 független annotátor: pozitív, negatív, semleges
- >= 4 annotátor egyetért: végső ellenőrzés és döntés
- Lexikonok, szabályok: NooJ nyelvtanba szerkesztés
Martindale (1975, 1990): szövegben tükröződő pszichológiai folyamatok felfedése Martindale (1975, 1990): szövegben tükröződő pszichológiai folyamatok felfedése 2 szint a gondolkodási folyamatokban: - Elsődleges: asszociatív, konkrét, a realitáshoz kevésbé kapcsolódó (fantázia, ábrándozás, álmok)
- Másodlagos: absztrakt, logikus, realitásközpontú és problémamegoldásra fókuszáló
29+14 további kategória (közösségi viselkedés, megismerés, érzékelés, érzelmek stb.) Magyar változat: Pólya--Szász 2013 3000+ kifejezés
2 alapvető dimenzió a társas értékelésben: 2 alapvető dimenzió a társas értékelésben: - Közösségiség: az egyén másokhoz/csoporthoz való viszonyát jellemzi
- morális szempontból (pl. együttműködés, becsületesség, hűség, őszinteség, önfeláldozás)
- érzelmi szempontból (pl. barátságosság, szeretet, ragaszkodás, tisztelet)
- Ágencia: az egyént a célkövető viselkedés hatékonysága szempontjából jellemzi
- motiváció (pl. ambiciózus, elszánt, céltudatosság, akarat)
- kompetencia (pl. intelligens, ügyes, ravasz, szakértelem)
- kontroll (pl. önérvényesítő, sikeres, győztes, hatalom)
Pozitív és negatív értékek mindkét dimenzióban - Köntextusfüggő lehet (pl. tagadás)
Fejlesztés: - f > 100 tartalmas szavak a fejlesztői korpuszból (3500 típus)
- 3+3 annotátor: minden szó: +/0/- közösségiség/ágencia szempontból
- 7. annotátor: egyetértés <100% => végső ítélet
640 elem
Események idejének szerepe az egyéni gondolkodásban Események idejének szerepe az egyéni gondolkodásban - Múlt dominál: a személy megváltoztathatatlanak gondolja a világot
- Jelen dominál: reálisan megvalósítható feladatok fontossága
- Jövő dominál: nyitott lehetőségek megjelenése
Szófaji, morfológiai elemzésre + időkifejezések felismerésére alapul 2 mutató: 1. | jövő idejű igealakok | / | múlt idejű igealakok | 2. | jelen vagy jövő idejű igealakok | / | múlt idejű igealakok | Mindkettő: minél magasabb, annál magasabb szintű optimizmus
Individualizmus: mennyire fontos a személy kategóriája a világról való gondolkodásban Individualizmus: mennyire fontos a személy kategóriája a világról való gondolkodásban Személyes névmások használata: - Gyakori: a személy kategóriája van az előtérben (fontos), individualizmus szintje magas
- Ritkább: a személy kategóriája a háttérben (környezet az előtérben), individualizmus szintje alacsonyabb
Szófaji, morfológiai elemzésre alapul 1 mutató: |személyes névmások| / (|személyragos igealakok| + |birtokos személyragos főnévi alakok|)
OWL politikai témájú ontológia OWL politikai témájú ontológia Fogalmi osztályok, tulajdonságok, axiómák Lengyel, magyar, osztrák adatok Individuumok: személyek, pártok, események (választások, jelölések) stb. - 1300 magyar politikus és párt + kapcsolataik
- 2010, 2014 magyar és 2014 EP választások
Szabadon hozzáférhető - http://Corpus.nytud.hu/trendminer
http://corpus.nytud.hu/trendminer http://corpus.nytud.hu/trendminer - Cikkek, előadások stb.
- Forráskódok (via github)
- Letölthető politikai ontológia (.ttl)
- Letölthető 1.9M facebook komment (teljes annotációval)
Dostları ilə paylaş: |
|
|