gadict: py/gadict.py@4d45194c71b6 (annotated)

385 18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	1
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	2	import regex
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	3
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	4
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	5	class ParseException(Exception):
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	6
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	7	def __init__(self, msg):
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	8	self.msg = msg
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	9
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	10	def __repr__(self):
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	11	return self.msg
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	12
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	13
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	14	class Parser:
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	15
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	16	SEPARATOR_RE = regex.compile(r"^__$")
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	17	HEADWORD_RE = regex.compile(r"^(\p{L}.*)$")
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	18	HEADWORD_VAR_RE = regex.compile(r"^ +(s\|pl\|v[123]\|male\|female\|comp\|super)$")
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	19	HEADWORD_PRON_RE = regex.compile(r"^ +\[([\p{L}' ]+)\]$")
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	20	TRANSL_POS_RE = regex.compile(r"^n\|pron\|adj\|v\|adv\|prep\|conj\|num\|int\|phr\.v\|abbr$")
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	21	TRANSL_RE = regex.compile(r"^(ru\|uk\|la\|en): ([\p{L}(][\p{L}\p{P}~ ]*)$")
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	22	TRANSL_EX_RE = regex.compile(r"^(ru\|uk\|la\|en)> (\p{L}.*)$")
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	23
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	24	TRAILING_SPACES_RE = regex.compile(r"\p{Z}+$")
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	25
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	26	def __init__(self):
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	27	pass
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	28
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	29	def readline(self):
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	30	self.line = self.stream.readline()
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	31	self.eof = len(self.line) == 0
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	32	if not self.eof:
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	33	self.lineno += 1
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	34
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	35	def parse(self, stream):
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	36	self.lineno = 0
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	37	self.stream = stream
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	38	self.dom = []
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	39	try:
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	40	self.parse_prelude()
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	41	while not self.eof:
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	42	self.parse_article()
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	43	except ParseException as ex:
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	44	if self.TRAILING_SPACES_RE.match(self.line):
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	45	fout.write("{:s}:{:d}: {:s}".format(fgadict, self.lineno, "Traling spaces detected...\n"))
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	46	fout.write("{:s}:{:d}: {:s}\nLINE: {:s}\n".format(fgadict, self.lineno, str(ex), self.line))
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	47	raise Exception(ex)
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	48	return self.dom
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	49
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	50	def parse_prelude(self):
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	51	"""Read dictionary prelude until first "__" delimiter."""
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	52	while True:
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	53	self.readline()
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	54	if self.eof:
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	55	raise ParseException("There are no articles...")
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	56	if self.SEPARATOR_RE.match(self.line):
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	57	break
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	58
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	59	def parse_article(self):
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	60	"""Try to match article until next "__" delimiter. Assume that `self.line` point to "__" delimiter."""
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	61	self.words = None
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	62	self.tran = None
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	63	self.parse_empty_line()
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	64	self.parse_headlines()
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	65	self.parse_translation()
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	66	self.dom.append((self.words, self.tran))
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	67
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	68	def parse_empty_line(self):
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	69	self.readline()
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	70	if self.eof or len(self.line) != 1:
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	71	raise ParseException(""""__" delimiter should followed by empty line...""")
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	72
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	73	def parse_headlines(self):
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	74	"""Try to match word variations with attributed. Assume that `self.line` on preceding empty line."""
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	75	self.words = {}
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	76	self.readline()
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	77	if self.eof:
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	78	raise ParseException("""There are no definition after "__" delimiter...""")
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	79	m = self.HEADWORD_RE.match(self.line)
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	80	if m is None:
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	81	raise ParseException("""There are no headword after "__" delimiter...""")
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	82	word = m.group(1)
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	83	pron = None
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	84	attrs = set()
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	85	while True:
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	86	self.readline()
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	87	if self.eof or len(self.line) == 1:
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	88	break
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	89	m = self.HEADWORD_RE.match(self.line)
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	90	if m is not None:
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	91	if word is None:
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	92	raise ParseException("""Didn't match previous headword...""")
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	93	self.words[word] = (pron, attrs)
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	94	word = m.group(1)
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	95	pron = None
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	96	attrs = set()
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	97	continue
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	98	m = self.HEADWORD_PRON_RE.match(self.line)
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	99	if m is not None:
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	100	if pron is not None:
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	101	raise ParseException("""Pronunciation is redefined...""")
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	102	pron = m.group(1)
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	103	continue
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	104	m = self.HEADWORD_VAR_RE.match(self.line)
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	105	if m is not None:
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	106	attrs.add(m.group(1))
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	107	continue
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	108	raise ParseException("""Line is not headword or translation or headword attribute...""")
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	109	self.words[word] = (pron, attrs)
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	110
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	111	def parse_translation(self):
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	112	senses = []
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	113	pos = None
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	114	tr = []
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	115	ex = []
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	116	while True:
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	117	self.readline()
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	118	if self.eof:
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	119	break
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	120	m = self.SEPARATOR_RE.match(self.line)
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	121	if m is not None:
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	122	break
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	123	if len(self.line) == 1:
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	124	senses.append((pos, tr, ex))
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	125	pos = None
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	126	tr = []
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	127	ex = []
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	128	continue
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	129	m = self.TRANSL_POS_RE.match(self.line)
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	130	if m is not None:
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	131	if pos is not None:
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	132	raise ParseException("""Each translation should have only one part of speech marker...""")
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	133	pos = m.group(0)
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	134	continue
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	135	m = self.TRANSL_RE.match(self.line)
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	136	if m is not None:
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	137	tr.append((m.group(1), m.group(2)))
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	138	continue
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	139	m = self.TRANSL_EX_RE.match(self.line)
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	140	if m is not None:
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	141	ex.append((m.group(1), m.group(2)))
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	142	continue
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	143	raise ParseException("""Uknown syntax...""")
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	144	if len(tr) > 0:
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	145	senses.append((pos, tr, ex))
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	146	self.tran = senses
18284ce77c7a gadict format parser. Oleksandr Gavenko <gavenkoa@gmail.com> parents: diff changeset	147

author	Oleksandr Gavenko <gavenkoa@gmail.com>
	Sun, 27 Mar 2016 16:49:11 +0300
changeset 394	4d45194c71b6
parent 393	2756a6deca7e
child 399	a6a7036f3c6f
permissions	-rw-r--r--