Szógyakoriság (2025. május)
Kategória: access - középszint
Feladat leírása
 
                            Ebben a feladatban a magyar nyelv szavainak webes előfordulását vizsgáljuk adatbáziskezelő segítségével. A szo10000.txt szöveges állományban megtalálható egy-egy szó
szótöve, szófaja és a vizsgált weboldalakon való előfordulásának száma. A szótár
elkészítéséhez 2004-ben gyűjtötték össze az interneten található magyar szövegeket. Ezt a több
mint ötszázmillió szóelőfordulást tartalmazó adathalmazt, használták fel a szótár
összeállításához. A feladatban szereplő forrás nem teljes, mert abban csak azok a főnevek,
melléknevek, határozószók és igék szerepelnek, amelyek előfordulása legalább 10000.
Az állományban azért szerepelnek szótövek, mert egy-egy szó ragozott alakja valójában
ugyanazt a szót jelenti. Például a „kell” szótő előfordulása a „kell”, „kellett”, „kellene” stb.
szavak előfordulásának összege, így csak egyszer szerepel az állományban. Vannak olyan
szótövek, amelyek több szófajhoz tartoznak, például a „fog” szó főnév is és ige is. Ezek
természetesen többször fordulnak elő az állományban, például az előbb említett „fog” szó
főnévként is és igeként is. 
Tábla:
szavak (azon, szoto, szofaj, gyakori)
| azon | A szó azonosítója (szám), ez a kulcs | 
| szoto | A szó szótöve (szöveg) | 
| szofaj | A szó szófaja (szöveg), lehetséges értékei: fn, mn, ige, hsz (azaz: főnév, melléknév, ige, határozószó) | 
| gyakori | A szótő előfordulásának gyakorisága (szám) | 
A következő feladatok megoldásánál a lekérdezéseket a zárójelben olvasható néven mentse!
Ügyeljen arra, hogy a megoldásban pontosan a kívánt mezők szerepeljenek! 
Részfeladatok
- 1. Készítsen új adatbázist szogyak néven! A forrásként kapott szo10000.txt tabulátorokkal tagolt, UTF-8 kódolású szöveges állományt importálja a szavak nevű táblába! Az állomány első sora tartalmazza a mezőneveket. A létrehozás során állítsa be a megfelelő típusokat! 
- 2. Készítsen lekérdezést, amely megadja azoknak az igéknek a szótövét, amelyeknek az előfordulása legalább 500 000! (2ige500) 
- 3. Lekérdezéssel adja meg azokat az adatbázisban megtalálható mellékneveket („mn”), amelyek szótöve a „br” szórészlettel kezdődik! A melléknév szótővét és gyakoriságát jelenítse meg! (3brmellek) 
- 4. Készítsen lekérdezést, amely megadja a 10 leggyakoribb szótövet a határozószó („hsz”) szófajú szavak közül! (4hatar10) 
- 5. Lekérdezés segítségével listázza ki, hogy mely szófajban hány szótő szerepel az adatsorozatban! A szófajok jelölését és a szótövek számát jelenítse meg! (5szofajok) 
- 6. Bizonyos szótövek többször is előfordulhatnak az adatbázisban. Ennek az az oka, hogy egy a szótőnek különböző jelentései is lehetnek, és ezért eltérő szófajokhoz is tartozhat. Készítsen lekérdezést, amely megadja azokat a szótöveket, amelyek legalább háromszor szerepelnek az adatbázisban! (6tobb)