Közösségi média streamek valós idejű, nagyléptékű trendfigyelése és összegzése



Yüklə 1,25 Mb.
tarix18.05.2017
ölçüsü1,25 Mb.



Közösségi média streamek valós idejű, nagyléptékű trendfigyelése és összegzése

  • Közösségi média streamek valós idejű, nagyléptékű trendfigyelése és összegzése

  • 2011-2014:

    • DFKI (de), U. Sheffield, U. Southampton (uk), OntoText (bg), Sora (at), Internet Memory (fr), Eurokleis (it)
  • 2013-2014:

    • MTA NYTI (hu), U. Madrid, Daedalus (es), IPIPAN (pl)


Twitter streamek valós idejű követése

  • Twitter streamek valós idejű követése

    • Felhőalapú architektúra; nem tárol minden üzenetet
  • Entitások felismerése és ontológiához kapcsolása, több nyelven

    • „ Wikification” / egyértelműsítés (Dbpedia)
  • Összegzés (summarization)

    • Többnyelvű spektrális klaszterezés, reprezentáns választása
  • Trendfigyelés

    • Gépi tanulás: SM üzenetek + valós idősorozatok modellezése
  • Vizualizációs UI

  • Use Cases

    • Pénzügyi folyamatok
    • Politikai események
    • Gyógyszerek és hatóanyagok a SM-ban


Milyen (szociál)pszichológiai jelenségek, trendek figyelhetők meg a magyar Fb hozzászólók politikai témákra reagáló üzeneteiben?

  • Milyen (szociál)pszichológiai jelenségek, trendek figyelhetők meg a magyar Fb hozzászólók politikai témákra reagáló üzeneteiben?

    • Facebook Magyarországon: 4.27M regisztrált felhasználó = internethasználók 59.2%-a, teljes népesség 43%-a
  • Politikusok, politikai szerveztek publikus Facebook posztjaira érkezett publikus kommentek letöltése és elemzése

    • Alapszintű NLP (tokenizálás, PoS, szótövesítés) -- domain-adaptáció
    • Entitások: politikai szereplők (személyek, pártok, szervezetek)
    • Sentiment (érzelempolaritás)
    • Szociálpszichológiai dimenziók: közösségiség-ágencia, individualizmus-kollektivizmus, optimizmus-pesszimizmus, elsődleges-másodlagos gondolkodási folyamatok
  • Együttműködés

    • MTA TTK Kognitív Idegtudományi és Pszichológiai Intézet Narratív Pszichológiai Kutatócsoport


Jelenleg: 1.9M komment 141K poszthoz

  • Jelenleg: 1.9M komment 141K poszthoz

    • 2013.10.01 – 2014.09.22 időszak
    • Facebook Graph API, folyamatos letöltés
  • 1344 fb oldalról

    • Szervezetek: politikai pártok, tagszervezeteik
    • Személyek: országgyűlési képviselők és –jelöltek (OEVK)
    • Hivatalos és nem hivatalos oldalak
  • 3 kategóriában

    • Magyar országgyűlés 2010-2014
    • Magyar országgyűlés 2014-2018 + országgyűlési választások 2014
    • Magyar EP képviselők 2014-2019 + magyar EP választások 2014
  • Források (entitások): valasztas.hu, wikipedia.hu

  • SQL adatbázis (kommentek, metaadatok, annotációk)



Letöltés (Fb Graph API), AB-ba töltés

  • Letöltés (Fb Graph API), AB-ba töltés

  • Tokenizálás (huntoken)

  • Szófaji egyértelműsítés (PoS-tagging) (hunmorph)

  • Morfológiai elemzés (hunmorph)

  • Szótő és morf. elemzés egyértelműsítése (saját szkript)

  • Entitások azonosítása, tartalomelemzés (NooJ)

  • Annotációk, kiszámított mutatók AB-ban tárolása

  • Vizualizációs szerverre feltöltés



A meglévő NLP eszközöket eltérő szövegdomainre fejlesztették ki

  • A meglévő NLP eszközöket eltérő szövegdomainre fejlesztették ki

    • „sztenderd” nyelv (hírek)
    • Közösségi média szövegeken rosszul teljesítenek
    • 2 irány: input normalizálása & eszközök kiterjesztése
  • Adaptáció előkészítése korpuszvizsgálattal

    • 1.25M fb komment, 29M token
    • 2.25M ismeretlen token (694K típus)
    • Gyakorisági lista: f > 15 manuális átnézése
    • Gyakori problématípusok, releváns és gyakori ismeretlen szavak kigyűjtése stb.


Gyakori problémák

  • Gyakori problémák

    • Hiányzó szóközök írásjelek után Első mondat vége.Következő mondat eleje
    • Többször ismételt írásjelek első rész.…… második rész => [„első”, „rész.”, „…”, „…”, „második”, „rész”]
    • Egybe írt szleng kifejezések asszem (azt hiszem)
    • Szóvégi mássalhangzók többszörözése pl. pffffffffffff, uffffffffffff, ejjjjjjjjjjjjj (pff, uff, ej)
    • Emotikonok felbontása :D => [„:”, „D”]
    • URL-ek felbontása
    • Nagy számoknál ezres csoportok felbontása 125 000 => [„125”, „000”]


Gyakori problémák

  • Gyakori problémák

    • Gyakori és fontos ismeretlen szavak (nincs szótő, elemzés):
      • hozzáadás a hunmorph elemző lexikonjához
      • analóg, elemző által ismert szavak alapján (azonos paradigma) traffipax, chipsadó, E-útdíj, MVM, nyugger, lájkol, ...
    • Gyakori elírt szóalakok:
      • javítás helyes alakra (lista) dúrva-durva, má-már, enyi-ennyi, korupt-korrupt, simicska-Simicska, ...
    • Nem sztenderd kisbetű-/nagybetűhasználat pl. CSUPA NAGYBETŰS MONDATOK
    • Hiányzó ékezetek


NooJ, Java NooJ, NooJ-cmd

  • NooJ, Java NooJ, NooJ-cmd

    • Véges automaták (lexikon, nyelvtan): annotáció, konkordanciák stb.
  • NooJ nyelvtanok (automaták) annotációhoz:

    • Szereplők (entitások)
    • Érzelmi valencia (polaritás / sentiment)
    • Regresszív képzeleti szótár
    • Közösségiség-ágencia
    • Optimizmus-pesszimizmus
    • Individualizmus-kollektivizmus


Együttműködés MTA TTK PI szociálpszichológus kutatóival

  • Együttműködés MTA TTK PI szociálpszichológus kutatóival

    • Pólya Tibor, Fülöp Éva, Csertő István, Kővágó Pál
  • Fejlesztői korpusz

    • 176K minta fb komment 570 fb oldalról (4.9M token)
    • NLP annotáció
    • Gyakorisági listák: szótő, szótő+szófaj, szótő+morfológiai elemzés stb.


Maxent NER eszköz (huntag): alacsony teljesítmény ezen a domain-en

  • Maxent NER eszköz (huntag): alacsony teljesítmény ezen a domain-en

    • Híroldalak szövegein tanult (sztenderd nyelv)
    • Kategóriahibák, hamis pozitív entity-k, entityhatár-felismerési problémák
  • NooJ lexikon és nyelvtan

    • Személynevek: családnév, családnév+utónév, becenevek
    • Szervezetek (pártok) nevei: Hivatalos név, rövidített/betűszavas változat, becenevek


Érzelmek pozitív vagy negatív polaritással

  • Érzelmek pozitív vagy negatív polaritással

    • Főnevek, melléknevek, igék, határozószók, emotikonok, többszavas kifejezések
    • 500 pozitív, 420 negatív elem
    • Kontextusfüggő polaritás: pl. negáció felismerése egyszerű szabályokkal
  • Fejlesztése:

    • f > 100 tartalmas szavak a fejlesztői korpuszból (3500 típus)
    • 6 független annotátor: pozitív, negatív, semleges
    • >= 4 annotátor egyetért: végső ellenőrzés és döntés
    • Lexikonok, szabályok: NooJ nyelvtanba szerkesztés


Martindale (1975, 1990): szövegben tükröződő pszichológiai folyamatok felfedése

  • Martindale (1975, 1990): szövegben tükröződő pszichológiai folyamatok felfedése

  • 2 szint a gondolkodási folyamatokban:

    • Elsődleges: asszociatív, konkrét, a realitáshoz kevésbé kapcsolódó (fantázia, ábrándozás, álmok)
    • Másodlagos: absztrakt, logikus, realitásközpontú és problémamegoldásra fókuszáló
  • 29+14 további kategória (közösségi viselkedés, megismerés, érzékelés, érzelmek stb.)

  • Magyar változat: Pólya--Szász 2013

  • 3000+ kifejezés



2 alapvető dimenzió a társas értékelésben:

  • 2 alapvető dimenzió a társas értékelésben:

    • Közösségiség: az egyén másokhoz/csoporthoz való viszonyát jellemzi
      • morális szempontból (pl. együttműködés, becsületesség, hűség, őszinteség, önfeláldozás)
      • érzelmi szempontból (pl. barátságosság, szeretet, ragaszkodás, tisztelet)
    • Ágencia: az egyént a célkövető viselkedés hatékonysága szempontjából jellemzi
      • motiváció (pl. ambiciózus, elszánt, céltudatosság, akarat)
      • kompetencia (pl. intelligens, ügyes, ravasz, szakértelem)
      • kontroll (pl. önérvényesítő, sikeres, győztes, hatalom)
  • Pozitív és negatív értékek mindkét dimenzióban

    • Köntextusfüggő lehet (pl. tagadás)
  • Fejlesztés:

    • f > 100 tartalmas szavak a fejlesztői korpuszból (3500 típus)
    • 3+3 annotátor: minden szó: +/0/- közösségiség/ágencia szempontból
    • 7. annotátor: egyetértés <100% => végső ítélet
  • 640 elem



Események idejének szerepe az egyéni gondolkodásban

  • Események idejének szerepe az egyéni gondolkodásban

    • Múlt dominál: a személy megváltoztathatatlanak gondolja a világot
    • Jelen dominál: reálisan megvalósítható feladatok fontossága
    • Jövő dominál: nyitott lehetőségek megjelenése
  • Szófaji, morfológiai elemzésre + időkifejezések felismerésére alapul

  • 2 mutató: 1. | jövő idejű igealakok | / | múlt idejű igealakok | 2. | jelen vagy jövő idejű igealakok | / | múlt idejű igealakok |

  • Mindkettő: minél magasabb, annál magasabb szintű optimizmus



Individualizmus: mennyire fontos a személy kategóriája a világról való gondolkodásban

  • Individualizmus: mennyire fontos a személy kategóriája a világról való gondolkodásban

  • Személyes névmások használata:

    • Gyakori: a személy kategóriája van az előtérben (fontos), individualizmus szintje magas
    • Ritkább: a személy kategóriája a háttérben (környezet az előtérben), individualizmus szintje alacsonyabb
  • Szófaji, morfológiai elemzésre alapul

  • 1 mutató: |személyes névmások| / (|személyragos igealakok| + |birtokos személyragos főnévi alakok|)

  • Magasabb érték magasabb szintű individualizmusra utal



OWL politikai témájú ontológia

  • OWL politikai témájú ontológia

  • Fogalmi osztályok, tulajdonságok, axiómák

  • Lengyel, magyar, osztrák adatok

  • Individuumok: személyek, pártok, események (választások, jelölések) stb.

    • 1300 magyar politikus és párt + kapcsolataik
    • 2010, 2014 magyar és 2014 EP választások
  • Szabadon hozzáférhető

    • http://Corpus.nytud.hu/trendminer
















http://corpus.nytud.hu/trendminer

  • http://corpus.nytud.hu/trendminer

    • Cikkek, előadások stb.
    • Forráskódok (via github)
    • Letölthető politikai ontológia (.ttl)
    • Letölthető 1.9M facebook komment (teljes annotációval)




Yüklə 1,25 Mb.

Dostları ilə paylaş:




Verilənlər bazası müəlliflik hüququ ilə müdafiə olunur ©azkurs.org 2020
rəhbərliyinə müraciət

    Ana səhifə