Re: Bengla syllables <... 09BF 09BE> and <... 09BF 09C0>

From: Manish Goregaokar <manish_at_mozilla.com>
Date: Tue, 7 Feb 2017 21:38:26 -0800

> The very first one কিী‎ (0995 09BF 09C0) had 1090 hits and shows up in a
book of short stories:

That's bad OCR, that's an apostrophe, a Ka, and an E, with the apostrophe
being interpreted as a matra somehow.

I bet there are only a couple of OCR algorithms out there handling Bangla.
Indic scripts aren't something you can OCR glyph by glyph in such a
straightforward way due to ligatures, so these algorithms are probably
noticing components of a character and producing it. It sees a preceding
line and the curve above, and interprets that as an I. It also sees the
proceeding line and curve above, and interprets that as an EE. It then just
puts the two together. It shouldn't, but it does.

Given a small set of OCR algorithms I think it's reasonable to assume that
such aberrations would be common across outputs -- so hundreds of hits for
a typo doesn't sound out of the ordinary to me.

> Tried a random one: ঘিা (0998 09BF 09BE)

I went through the results for ঘিা (0998 09BF 09BE). Most occurrences are
actually ঘন্টা (0998 09A8 09CD 099F 09BE), "ghanta" which can mean "hour"
or "bell". Reasonably common word. These documents don't look scanned --
the text isn't garbled or anything, but it could be a cleaned up scanned
document because I copied out some more of the text and there were similar
aberrations all over the place. For example, in [1] the letter ব ("ba") is
used frequently, but is written with a fancier script where it has an extra
line through it. Many occurrences of it have been interpreted as sequences
of vowel diacritics. The last line of the second-last stanza on page 5 has
an absolutely ridiculous number of consecutive diacritics in the PDF text.

 [1]:
http://yousigma.com/religionandphilosophy/poojasloka/Sri%20Hari%20Kathamruta%20Sara%20Datta%20Swatantrya%20Sandhi%20(Sri%20Jagannatha%20Vittala%20Dasaru)%20-%20Assamese.pdf

-Manish

On Tue, Feb 7, 2017 at 7:53 PM, Asmus Freytag <asmusf_at_ix.netcom.com> wrote:

> On 2/7/2017 10:08 AM, Eric Muller wrote:
>
> In looking at the wiki{pedia,book.source,tionary} corpus for Bengla, I
> see a relatively large number of syllables with <... 09BF 09BE> or <...
> 09BF 09C0>. I checked a couple of sources, and I did not find them listed
> anywhere as being normally used.
>
> Are they in normal use or are those all typos?
>
> Tried a random one: ঘিা (0998 09BF 09BE) and got 385 hits in google.
> Would surprise me if all of these were typos.
>
> The very first one কিী‎ (0995 09BF 09C0) had 1090 hits and shows up in a
> book of short stories:
>
> where it starts a paragraph.
>
> A./
>
>
> I did not find any occurrence in the Assamese corpus.
>
> Thanks,
> Eric.
>
> The syllables (o is the number of occurrences):
>
>
> <string s='&#x0995;&#x09bf;&#x09c0;' o='198'/>
> <string s='&#x0995;&#x09cd;&#x09a4;&#x09bf;&#x09be;' o='262'/>
> <string s='&#x0995;&#x09cd;&#x09b0;&#x09bf;&#x09be;' o='447'/>
> <string s='&#x0995;&#x09cd;&#x09b0;&#x09bf;&#x09c0;' o='77'/>
> <string s='&#x0995;&#x09cd;&#x09b2;&#x09bf;&#x09be;' o='245'/>
> <string s='&#x0995;&#x09cd;&#x09b7;&#x09bf;&#x09c0;' o='161'/>
> <string s='&#x0995;&#x09cd;&#x09b8;&#x09bf;&#x09be;' o='138'/>
> <string s='&#x0996;&#x09bf;&#x09be;' o='949'/>
> <string s='&#x0997;&#x09bf;&#x09be;' o='2671'/>
> <string s='&#x0997;&#x09bf;&#x09c0;' o='250'/>
> <string s='&#x0997;&#x09cd;&#x09a8;&#x09bf;&#x09be;' o='57'/>
> <string s='&#x0997;&#x09cd;&#x09a8;&#x09bf;&#x09c0;' o='110'/>
> <string s='&#x0997;&#x09cd;&#x09b0;&#x09bf;&#x09be;' o='143'/>
> <string s='&#x0998;&#x09bf;&#x09be;' o='83'/>
> <string s='&#x0999;&#x09cd;&#x0995;&#x09bf;&#x09be;' o='403'/>
> <string s='&#x0999;&#x09cd;&#x0997;&#x09bf;&#x09be;' o='267'/>
> <string s='&#x0999;&#x09cd;&#x0997;&#x09bf;&#x09c0;' o='150'/>
> <string s='&#x099a;&#x09bf;&#x09be;' o='905'/>
> <string s='&#x099a;&#x09bf;&#x09c0;' o='135'/>
> <string s='&#x099a;&#x09cd;&#x099a;&#x09bf;&#x09be;' o='91'/>
> <string s='&#x099a;&#x09cd;&#x099b;&#x09bf;&#x09be;' o='323'/>
> <string s='&#x099b;&#x09bf;&#x09be;' o='712'/>
> <string s='&#x099b;&#x09bf;&#x09c0;' o='61'/>
> <string s='&#x099c;&#x09bf;&#x09be;' o='527'/>
> <string s='&#x099c;&#x09bf;&#x09c0;' o='140'/>
> <string s='&#x099c;&#x09cd;&#x099c;&#x09bf;&#x09be;' o='56'/>
> <string s='&#x099d;&#x09bf;&#x09be;' o='81'/>
> <string s='&#x099e;&#x09bf;&#x09be;' o='71'/>
> <string s='&#x099e;&#x09cd;&#x099a;&#x09bf;&#x09be;' o='175'/>
> <string s='&#x099e;&#x09cd;&#x099c;&#x09bf;&#x09be;' o='270'/>
> <string s='&#x099e;&#x09cd;&#x099c;&#x09bf;&#x09c0;' o='316'/>
> <string s='&#x099f;&#x09bf;&#x09be;' o='807'/>
> <string s='&#x099f;&#x09bf;&#x09c0;' o='586'/>
> <string s='&#x09a0;&#x09bf;&#x09be;' o='549'/>
> <string s='&#x09a0;&#x09bf;&#x09c0;' o='89'/>
> <string s='&#x09a1;&#x09bc;&#x09bf;&#x09be;' o='1361'/>
> <string s='&#x09a1;&#x09bc;&#x09bf;&#x09c0;' o='135'/>
> <string s='&#x09a1;&#x09bf;&#x09be;' o='257'/>
> <string s='&#x09a2;&#x09bc;&#x09bf;&#x09be;' o='71'/>
> <string s='&#x09a3;&#x09bf;&#x09be;' o='354'/>
> <string s='&#x09a4;&#x09bf;&#x09c0;' o='270'/>
> <string s='&#x09a4;&#x09bf;&#x09cd;&#x09af;&#x09c1;' o='75'/>
> <string s='&#x09a4;&#x09cd;&#x09a4;&#x09bf;&#x09be;' o='143'/>
> <string s='&#x09a4;&#x09cd;&#x09a4;&#x09bf;&#x09c0;' o='144'/>
> <string s='&#x09a4;&#x09cd;&#x09a4;&#x09cd;&#x09ac;&#x09bf;&#x09be;'
> o='54'/>
> <string s='&#x09a4;&#x09cd;&#x09ac;&#x09bf;&#x09be;' o='72'/>
> <string s='&#x09a4;&#x09cd;&#x09ae;&#x09bf;&#x09be;' o='161'/>
> <string s='&#x09a4;&#x09cd;&#x09af;&#x09bf;&#x09be;' o='129'/>
> <string s='&#x09a4;&#x09cd;&#x09b0;&#x09bf;&#x09be;' o='217'/>
> <string s='&#x09a4;&#x09cd;&#x09b0;&#x09bf;&#x09c0;' o='264'/>
> <string s='&#x09a4;&#x09cd;&#x09f0;&#x09bf;&#x09be;' o='102'/>
> <string s='&#x09a5;&#x09bf;&#x09be;' o='290'/>
> <string s='&#x09a5;&#x09bf;&#x09c0;' o='127'/>
> <string s='&#x09a6;&#x09bf;&#x09c0;' o='514'/>
> <string s='&#x09a6;&#x09cd;&#x09a7;&#x09bf;&#x09be;' o='228'/>
> <string s='&#x09a6;&#x09cd;&#x09ac;&#x09bf;&#x09be;' o='505'/>
> <string s='&#x09a6;&#x09cd;&#x09ac;&#x09bf;&#x09c0;' o='121'/>
> <string s='&#x09a6;&#x09cd;&#x09af;&#x09bf;&#x09be;' o='53'/>
> <string s='&#x09a7;&#x09bf;&#x09c0;' o='235'/>
> <string s='&#x09a8;&#x09bf;&#x09c0;' o='551'/>
> <string s='&#x09a8;&#x09cd;&#x09a4;&#x09bf;&#x09be;' o='100'/>
> <string s='&#x09a8;&#x09cd;&#x09a4;&#x09cd;&#x09b0;&#x09bf;&#x09be;'
> o='93'/>
> <string s='&#x09a8;&#x09cd;&#x09a4;&#x09cd;&#x09b0;&#x09bf;&#x09c0;'
> o='171'/>
> <string s='&#x09a8;&#x09cd;&#x09a6;&#x09bf;&#x09be;' o='102'/>
> <string s='&#x09a8;&#x09cd;&#x09a6;&#x09cd;&#x09b0;&#x09bf;&#x09be;'
> o='238'/>
> <string s='&#x09a8;&#x09cd;&#x09a6;&#x09cd;&#x09b0;&#x09bf;&#x09c0;'
> o='79'/>
> <string s='&#x09a8;&#x09cd;&#x09a7;&#x09bf;&#x09be;' o='109'/>
> <string s='&#x09a8;&#x09cd;&#x09ae;&#x09bf;&#x09be;' o='98'/>
> <string s='&#x09aa;&#x09bf;&#x09be;' o='1199'/>
> <string s='&#x09aa;&#x09cd;&#x09a4;&#x09bf;&#x09be;' o='67'/>
> <string s='&#x09aa;&#x09cd;&#x09b0;&#x09bf;&#x09be;' o='203'/>
> <string s='&#x09ab;&#x09bf;&#x09be;' o='174'/>
> <string s='&#x09ab;&#x09cd;&#x09b0;&#x09bf;&#x09be;' o='60'/>
> <string s='&#x09ac;&#x09bf;&#x09c0;' o='715'/>
> <string s='&#x09ac;&#x09cd;&#x09b0;&#x09bf;&#x09be;' o='87'/>
> <string s='&#x09ad;&#x09bf;&#x09be;' o='908'/>
> <string s='&#x09ad;&#x09bf;&#x09c0;' o='80'/>
> <string s='&#x09ae;&#x09bf;&#x09c0;' o='373'/>
> <string s='&#x09ae;&#x09cd;&#x09aa;&#x09bf;&#x09be;' o='55'/>
> <string s='&#x09ae;&#x09cd;&#x09ac;&#x09bf;&#x09be;' o='117'/>
> <string s='&#x09ae;&#x09cd;&#x09ae;&#x09bf;&#x09be;' o='67'/>
> <string s='&#x09af;&#x09bf;&#x09be;' o='204'/>
> <string s='&#x09b0;&#x09bf;&#x09be;' o='4703'/>
> <string s='&#x09b0;&#x09cd;&#x09a3;&#x09bf;&#x09be;' o='55'/>
> <string s='&#x09b0;&#x09cd;&#x09a4;&#x09bf;&#x09c0;' o='56'/>
> <string s='&#x09b0;&#x09cd;&#x09ac;&#x09bf;&#x09be;' o='105'/>
> <string s='&#x09b0;&#x09cd;&#x09ae;&#x09bf;&#x09be;' o='68'/>
> <string s='&#x09b0;&#x09cd;&#x09ae;&#x09bf;&#x09c0;' o='70'/>
> <string s='&#x09b0;&#x09cd;&#x09b7;&#x09bf;&#x09be;' o='65'/>
> <string s='&#x09b2;&#x09bf;&#x09c0;' o='419'/>
> <string s='&#x09b2;&#x09cd;&#x09aa;&#x09bf;&#x09c0;' o='113'/>
> <string s='&#x09b6;&#x09bf;&#x09c0;' o='216'/>
> <string s='&#x09b6;&#x09cd;&#x09ac;&#x09bf;&#x09be;' o='145'/>
> <string s='&#x09b7;&#x09bf;&#x09be;' o='376'/>
> <string s='&#x09b7;&#x09cd;&#x099f;&#x09bf;&#x09be;' o='269'/>
> <string s='&#x09b7;&#x09cd;&#x099f;&#x09cd;&#x09af;&#x09bf;&#x09be;'
> o='75'/>
> <string s='&#x09b7;&#x09cd;&#x09a0;&#x09bf;&#x09c0;' o='99'/>
> <string s='&#x09b8;&#x09bf;&#x09be;' o='760'/>
> <string s='&#x09b8;&#x09bf;&#x09c0;' o='117'/>
> <string s='&#x09b8;&#x09cd;&#x0995;&#x09bf;&#x09be;' o='106'/>
> <string s='&#x09b8;&#x09cd;&#x099f;&#x09cd;&#x09b0;&#x09bf;&#x09c0;'
> o='157'/>
> <string s='&#x09b8;&#x09cd;&#x09a4;&#x09bf;&#x09be;' o='311'/>
> <string s='&#x09b8;&#x09cd;&#x09a4;&#x09bf;&#x09c0;' o='50'/>
> <string s='&#x09b8;&#x09cd;&#x09a5;&#x09bf;&#x09be;' o='1946'/>
> <string s='&#x09b8;&#x09cd;&#x09ac;&#x09bf;&#x09be;' o='97'/>
> <string s='&#x09b8;&#x09cd;&#x09ae;&#x09bf;&#x09be;' o='74'/>
> <string s='&#x09b9;&#x09bf;&#x09c0;' o='424'/>
> <string s='&#x09b9;&#x09cd;&#x09af;&#x09bf;&#x09be;' o='89'/>
> <string s='&#x09f0;&#x09bf;&#x09c0;' o='204'/>
> <string s='&#x09f0;&#x09cd;&#x09a4;&#x09cd;&#x09a4;&#x09bf;&#x09be;'
> o='125'/>
> <string s='&#x09f0;&#x09cd;&#x09a4;&#x09cd;&#x09a4;&#x09bf;&#x09c0;'
> o='118'/>
> <string s='&#x09f0;&#x09cd;&#x09ae;&#x09cd;&#x09ae;&#x09bf;&#x09be;'
> o='58'/>
> <string s='&#x09f1;&#x09bf;&#x09be;' o='264'/>
>
>
>
>
>

hkkejfcljlndkpdl.png
Received on Tue Feb 07 2017 - 23:39:48 CST

This archive was generated by hypermail 2.2.0 : Tue Feb 07 2017 - 23:39:48 CST