Szógyakoriság (2025. május)

Kategória: access - középszint

Feladat leírása

Szógyakoriság (2025. május) illusztráció

Ebben a feladatban a magyar nyelv szavainak webes előfordulását vizsgáljuk adatbáziskezelő segítségével. A szo10000.txt szöveges állományban megtalálható egy-egy szó
szótöve, szófaja és a vizsgált weboldalakon való előfordulásának száma. A szótár
elkészítéséhez 2004-ben gyűjtötték össze az interneten található magyar szövegeket. Ezt a több
mint ötszázmillió szóelőfordulást tartalmazó adathalmazt, használták fel a szótár
összeállításához. A feladatban szereplő forrás nem teljes, mert abban csak azok a főnevek,
melléknevek, határozószók és igék szerepelnek, amelyek előfordulása legalább 10000.

Az állományban azért szerepelnek szótövek, mert egy-egy szó ragozott alakja valójában
ugyanazt a szót jelenti. Például a „kell” szótő előfordulása a „kell”, „kellett”, „kellene” stb.
szavak előfordulásának összege, így csak egyszer szerepel az állományban. Vannak olyan
szótövek, amelyek több szófajhoz tartoznak, például a „fog” szó főnév is és ige is. Ezek
természetesen többször fordulnak elő az állományban, például az előbb említett „fog” szó
főnévként is és igeként is. 

Tábla:
szavak (azon, szoto, szofaj, gyakori)

azon A szó azonosítója (szám), ez a kulcs
szoto A szó szótöve (szöveg)
szofaj A szó szófaja (szöveg), lehetséges értékei: fn, mn, ige, hsz (azaz: főnév,
melléknév, ige, határozószó)
gyakori A szótő előfordulásának gyakorisága (szám)


A következő feladatok megoldásánál a lekérdezéseket a zárójelben olvasható néven mentse!
Ügyeljen arra, hogy a megoldásban pontosan a kívánt mezők szerepeljenek! 


Részfeladatok

  1. 1. Készítsen új adatbázist szogyak néven! A forrásként kapott szo10000.txt tabulátorokkal tagolt, UTF-8 kódolású szöveges állományt importálja a szavak nevű táblába! Az állomány első sora tartalmazza a mezőneveket. A létrehozás során állítsa be a megfelelő típusokat!

  2. 2. Készítsen lekérdezést, amely megadja azoknak az igéknek a szótövét, amelyeknek az előfordulása legalább 500 000! (2ige500)

  3. 3. Lekérdezéssel adja meg azokat az adatbázisban megtalálható mellékneveket („mn”), amelyek szótöve a „br” szórészlettel kezdődik! A melléknév szótővét és gyakoriságát jelenítse meg! (3brmellek)

  4. 4. Készítsen lekérdezést, amely megadja a 10 leggyakoribb szótövet a határozószó („hsz”) szófajú szavak közül! (4hatar10)

  5. 5. Lekérdezés segítségével listázza ki, hogy mely szófajban hány szótő szerepel az adatsorozatban! A szófajok jelölését és a szótövek számát jelenítse meg! (5szofajok)

  6. 6. Bizonyos szótövek többször is előfordulhatnak az adatbázisban. Ennek az az oka, hogy egy a szótőnek különböző jelentései is lehetnek, és ezért eltérő szófajokhoz is tartozhat. Készítsen lekérdezést, amely megadja azokat a szótöveket, amelyek legalább háromszor szerepelnek az adatbázisban! (6tobb)


Forrásfájlok

Megoldásfájlok