A tagset is a list of part-of-speech tags (POS tags for short), i.e. labels used to indicate the part of speech and sometimes also other grammatical categories (case, tense etc.) of each token in a text corpus.

MULTEXT-East Morphosyntactic Slovenian Specification version 4 is available in Slovenian corpora. The MULTEXT-East resources are a multilingual dataset for language engineering research and development.

In comparison with the 3rd version of the tagset, there are a number of changes, e.g. certain attributes or their values, allowed combinations of attribute-values, as well as the lexical assignment of MSD to particular words or word groups. Furthermore, they re-ordered some attributes to allow for more compact encoding on MSDs.

The version 4 of the MULTEXT-East Slovenian part-of-speech tagset.

An Example of a tag in the CQL concordance search box[tag="S.m.*"] finds all masculine nouns, e.g. človek, Maribor (note: please make sure that you use straight double quotation marks)

For each tag, the first character specifies the major word class, as specified in Table 1 below, and each character thereafter is to be interpreted according to the relevant Table below, e.g. Table 2 for nouns. So the tag Somet–d is to be interpreted, character by character, as follows:

S Samostalnik N Category Noun
o občno_ime c Type Common
m moški m Gender Masculine
e ednina s Number Singular
t tožilnik a Case Accusative
Definitiness Unspecified
Clitic Unspecified
d da y Animate Yes

All aspects of the tagset exist in both Slovene and English. Corpora are tagged with the Slovene version.


Tagset

Part-of-speech categories

PoS-en Code-en PoS-sl Code-sl
Noun N.* Samostalnik S.*
Verb V.* Glagol G.*
Adjective A.* Pridevnik P.*
Adverb R.* Prislov R.*
Pronoun P.* Zaimek Z.*
Numeral M.* Števnik K.*
Adposition S.* Predlog D.*
Conjunction C.* Veznik V.*
Particle Q.* Členek L.*
Interjection I.* Medmet M.*
Abbreviation Y.* Okrajšava O.*
Residual X.* Neuvrščeno N.*
Punctuation Z.* Ločilo U.*

2. Noun (N) // Samostalnik (S)

P Attribute (sl) Value (sl) Code (sl) Attribute (en) Value (en) Code (en)
0 Besedna_vrsta samostalnik S Category Noun N
1 Vrsta občno_ime o Type common c
lastno_ime l proper p
2 Spol moški m Gender masculine m
ženski z feminine f
srednji s neuter n
3 Število ednina e Number singular s
dvojina d dual d
množina m plural p
4 Sklon imenovalnik i Case nominative n
rodilnik r genitive g
dajalnik d dative d
tožilnik t accusative a
mestnik m locative l
orodnik o instrumental i
5 Živost ne n Animate no n
da d yes y

3. Verb (V) // Glagol (G)

P Attribute (sl) Value (sl) Code (sl) Attribute (en) Value (en) Code (en)
0 Besedna_vrsta glagol G Category Verb V
1 Vrsta glavni g Type main m
pomožni p auxiliary a
2 Vid dovršni d Aspect perfective e
nedovršni n progressive p
dvovidski v biaspectual b
3 Oblika nedoločnik n VForm infinitive n
namenilnik m supine u
deležnik d participle p
sedanjik s present r
prihodnjik p future f
pogojnik g conditional c
velelnik v imperative m
4 Oseba prva p Person first 1
druga d second 2
tretja t third 3
5 Število ednina e Number singular s
množina m plural p
dvojina d dual d
6 Spol moški m Gender masculine m
ženski z feminine f
srednji s neuter n
7 Nikalnost nezanikani n Negative no n
zanikani d yes y

4. Adjective (A) // Pridevnik (P)

P Attribute (sl) Value (sl) Code (sl) Attribute (en) Value (en) Code (en)
0 Besedna_vrsta pridevnik P Category Adjective A
1 Vrsta splošni p Type general g
svojilni s possessive s
deležniški d participle p
2 Stopnja nedoločeno n Degree positive p
primernik p comparative c
presežnik s superlative s
3 Spol moški m Gender masculine m
ženski z feminine f
srednji s neuter n
4 Število ednina e Number singular s
dvojina d dual d
množina m plural p
5 Sklon imenovalnik i Case nominative n
rodilnik r genitive g
dajalnik d dative d
tožilnik t accusative a
mestnik m locative l
orodnik o instrumental i
6 Določnost ne n Definiteness no n
da d yes y

5. Adverb (R) // Prislov (R)

P Attribute (sl) Value (sl) Code (sl) Attribute (en) Value (en) Code (en)
0 besedna_vrsta prislov R Category Adverb R
1 vrsta splošni s Type general g
deležje d participle r
2 stopnja nedoločeno n Degree positive p
primernik r comparative c
presežnik s superlative s

6. Pronoun (P) // Zaimek (Z)

P Attribute (sl) Value (sl) Code (sl) Attribute (en) Value (en) Code (en)
0 Besedna_vrsta zaimek Z Category Pronoun P
1 Vrsta osebni o Type personal p
svojilni s possessive s
kazalni k demonstrative d
oziralni z relative r
povratni p reflexive x
celostni c general g
vprašalni v interrogative q
nedoločni n indefinite i
nikalni l negative z
2 Oseba prva p Person first 1
druga d second 2
tretja t third 3
3 Spol moški m Gender masculine m
ženski z feminine f
srednji s neuter n
4 Število ednina e Number singular s
dvojina d dual d
množina m plural p
5 Sklon imenovalnik i Case nominative n
rodilnik r genitive g
dajalnik d dative d
tožilnik t accusative a
mestnik m locative l
orodnik o instrumental i
6 Število_svojine ednina e Owner_Number singular s
dvojina d dual d
množina m plural p
7 Spol_svojine moški m Owner_Gender masculine m
ženski z feminine f
srednji s neuter n
8 Naslonskost klitična k Clitic yes y
navezna z bound b

7. Numeral (M) // Števnik (K)

P Attribute (sl) Value (sl) Code (sl) Attribute (en) Value (en) Code (en)
0 Besedna_vrsta števnik K Category Numeral M
1 Zapis arabski a Form digit d
rimski r roman r
besedni b letter l
2 Vrsta glavni g Type cardinal c
vrstilni v ordinal o
zaimkovni z pronominal p
drugi d special s
3 Spol moški m Gender masculine m
ženski z feminine f
srednji s neuter n
4 Število ednina e Number singular s
dvojina d dual d
množina m plural p
5 Sklon imenovalnik i Case nominative n
rodilnik r genitive g
dajalnik d dative d
tožilnik t accusative a
mestnik m locative l
orodnik o instrumental i
6 Določnost ne n Definiteness no n
da d yes y

7. Adposition (S) // Predlog (D)

P Attribute (sl) Value (sl) Code (sl) Attribute (en) Value (en) Code (en)
0 Besedna_vrsta predlog D Category Adposition S
1 Sklon imenovalnik i Case nominative n
rodilnik r genitive g
dajalnik d dative d
tožilnik t accusative a
mestnik m locative l
orodnik o instrumental i

8. Conjunction (C) // Veznik (V)

P Attribute (sl) Value (sl) Code (sl) Attribute (en) Value (en) Code (en)
0 Besedna_vrsta veznik V Category Conjunction C
1 Vrsta priredni p Type coordinating c
podredni d subordinating s

9. Particle (Q) // Členek (L)

P Attribute (sl) Value (sl) Code (sl) Attribute (en) Value (en) Code (en)
0 besedna_vrsta členek L category Particle Q

10. Interjection (I) // Medmet (M)

P Attribute (sl) Value (sl) Code (sl) Attribute (en) Value (en) Code (en)
0 Besedna_vrsta medmet M Category Interjection I

12. Abbreviation (Y) // Okrajšava (O)

P Attribute (sl) Value (sl) Code (sl) Attribute (en) Value (en) Code (en)
0 Besedna_vrsta okrajšava O Category Abbreviation Y

13. Residual (X) // Neuvrščeno (N)

P Attribute (sl) Value (sl) Code (sl) Attribute (en) Value (en) Code (en)
0 Besedna_vrsta neuvrščeno N Category Residual X
1 Vrsta tujejezično j Type foreign f
tipkarska t typo t
splet w web w
emo e emo e
ključnik h hashtag h
afna a at a
program p program p

14. Punctuation (Z) // Ločilo (U)

P Attribute (sl) Value (sl) Code (sl) Attribute (en) Value (en) Code (en)
0 Besedna_vrsta ločilo U Category Punctuation Z

Source: http://nl.ijs.si/ME/V4/msd/html/