Nuovo dizionario per il controllo ortografico

classic Classic list List threaded Threaded
27 messages Options
12
Reply | Threaded
Open this post in threaded view
|

Nuovo dizionario per il controllo ortografico

Daniele Forsi-2
Buongiorno lista,

dopo la discussione di qualche giorno fa [1] ho scaricato i dati con i
nomi delle strade italiane per creare un nuovo dizionario per il
correttore ortografico.
Ho usato questo nuovo dizionario (e i vecchi per cercare di recuperare
più parole possibile) e ho aggiornato i dati in linea[2] e siamo scesi
da oltre 40.000 parole sconosciute a meno di 10.000, trovate un
confronto per i capoluoghi di Regione in [3], il caso più eclatante è
Roma che è passata da 2776 a 107 parole sconosciute!

Aspetti positivi:
* ho estratto 169037 parole diverse da 1233526 toponimi (i dizionari
che ho usato finora hanno 22410 parole in quello predefinito e 75131
in quelli creati a partire dai dati OSM)
* ho scartato solo 1795 parole (ad esempio quelle che contengono numeri arabi)

Aspetti negativi:
* i nomi sono tutti in maiuscolo, quindi non è più possibile segnalare
come errore i nomi propri con l'iniziale minuscola o le parole tutte
in maiuscolo
* i dati contengono errori evidenti che possono essere filtrati
automaticamente (come "0VIDIO" dove l'iniziale è uno zero invece che
una O) però rimane il dubbio di quanti errori nascosti ci siano
* non è possibile usare le parole con la E accentata perché nei dati
c'è l'apice quindi non è possibile distinguere l'accento acuto da
quello grave (per questo ho mantenuto i vecchi dizionari, poi estrarrò
solo le parole accentate)
* dai dati sono escluse le province di Bolzano e Trento perché sono
dati per il catasto

In definitiva questi dati sono utili per eliminare un gran numero di
falsi positivi e concentrarsi sugli errori più comuni in OSM, a patto
che gli stessi errori NON siano stati commessi anche da chi ha scritto
questi dati...


[1] http://lists.openstreetmap.org/pipermail/talk-it/2013-August/036830.html
[2] http://www.forsi.it/osm/spellcheck/highway/boundary/
[3] http://www.forsi.it/node/135
--
Daniele Forsi

_______________________________________________
Talk-it mailing list
[hidden email]
http://lists.openstreetmap.org/listinfo/talk-it
Reply | Threaded
Open this post in threaded view
|

Re: Nuovo dizionario per il controllo ortografico

Francesco Frassinelli


Il giorno 01 settembre 2013 11:55, Daniele Forsi <[hidden email]> ha scritto:
Buongiorno lista,

dopo la discussione di qualche giorno fa [1] ho scaricato i dati con i
nomi delle strade italiane per creare un nuovo dizionario per il
correttore ortografico.
Ho usato questo nuovo dizionario (e i vecchi per cercare di recuperare
più parole possibile) e ho aggiornato i dati in linea[2] e siamo scesi
da oltre 40.000 parole sconosciute a meno di 10.000, trovate un
confronto per i capoluoghi di Regione in [3], il caso più eclatante è
Roma che è passata da 2776 a 107 parole sconosciute!

Aspetti positivi:
* ho estratto 169037 parole diverse da 1233526 toponimi (i dizionari
che ho usato finora hanno 22410 parole in quello predefinito e 75131
in quelli creati a partire dai dati OSM)
* ho scartato solo 1795 parole (ad esempio quelle che contengono numeri arabi)

Aspetti negativi:
* i nomi sono tutti in maiuscolo, quindi non è più possibile segnalare
come errore i nomi propri con l'iniziale minuscola o le parole tutte
in maiuscolo
* i dati contengono errori evidenti che possono essere filtrati
automaticamente (come "0VIDIO" dove l'iniziale è uno zero invece che
una O) però rimane il dubbio di quanti errori nascosti ci siano
* non è possibile usare le parole con la E accentata perché nei dati
c'è l'apice quindi non è possibile distinguere l'accento acuto da
quello grave (per questo ho mantenuto i vecchi dizionari, poi estrarrò
solo le parole accentate)
* dai dati sono escluse le province di Bolzano e Trento perché sono
dati per il catasto

In definitiva questi dati sono utili per eliminare un gran numero di
falsi positivi e concentrarsi sugli errori più comuni in OSM, a patto
che gli stessi errori NON siano stati commessi anche da chi ha scritto
questi dati...


[1] http://lists.openstreetmap.org/pipermail/talk-it/2013-August/036830.html
[2] http://www.forsi.it/osm/spellcheck/highway/boundary/
[3] http://www.forsi.it/node/135
--
Daniele Forsi

_______________________________________________
Talk-it mailing list
[hidden email]
http://lists.openstreetmap.org/listinfo/talk-it


_______________________________________________
Talk-it mailing list
[hidden email]
http://lists.openstreetmap.org/listinfo/talk-it
Reply | Threaded
Open this post in threaded view
|

Re: Nuovo dizionario per il controllo ortografico

Francesco Frassinelli
In reply to this post by Daniele Forsi-2
Il giorno 01 settembre 2013 11:55, Daniele Forsi <[hidden email]> ha scritto:
In definitiva questi dati sono utili per eliminare un gran numero di
falsi positivi e concentrarsi sugli errori più comuni in OSM, a patto
che gli stessi errori NON siano stati commessi anche da chi ha scritto
questi dati...

Ottimo lavoro!
So che non è legato al controllo ortografico, ma mi sono chiesto: pensi sia possibile generare un elenco delle vie mancanti (o presunte tali) di un Comune presenti nel database ma non in OSM?


Buona giornata,
Frafra

p.s. Scusate per la mail vuota che ho inviato poco fa; mi s'era bloccato un attimo il programma ed è partito un doppio click

_______________________________________________
Talk-it mailing list
[hidden email]
http://lists.openstreetmap.org/listinfo/talk-it
Reply | Threaded
Open this post in threaded view
|

Re: Nuovo dizionario per il controllo ortografico

Luca 'remix_tj' Lorenzetto
In reply to this post by Daniele Forsi-2
2013/9/1 Daniele Forsi <[hidden email]>

>
> Buongiorno lista,
>
> dopo la discussione di qualche giorno fa [1] ho scaricato i dati con i
> nomi delle strade italiane per creare un nuovo dizionario per il
> correttore ortografico.
> Ho usato questo nuovo dizionario (e i vecchi per cercare di recuperare
> più parole possibile) e ho aggiornato i dati in linea[2] e siamo scesi
> da oltre 40.000 parole sconosciute a meno di 10.000, trovate un
> confronto per i capoluoghi di Regione in [3], il caso più eclatante è
> Roma che è passata da 2776 a 107 parole sconosciute!
[cut]

Ottimo lavoro :-)

vorrei solo fare una piccola annotazione per il caso particolare di
venezia, che riporta moltissimi errori del tipo "Non inizia con Via,
Piazza, ecc.":

per il caso di venezia andrebbero inserite le possibilità di
considerare anche le parole:

- calle
- campo
- campiello
- rio terà
- ruga
- rughetta
- ramo
- sotoportego (su sottoportego ho un dubbio)
- fondamenta
- salizada
- fontego
- lista

Per informazioni: http://www.innvenice.com/Toponomastica-Venezia.htm

Ciao ciao

Luca

--
"E' assurdo impiegare gli uomini di intelligenza eccellente per fare
calcoli che potrebbero essere affidati a chiunque se si usassero delle
macchine"
Gottfried Wilhelm von Leibnitz, Filosofo e Matematico (1646-1716)

"Internet è la più grande biblioteca del mondo.
Ma il problema è che i libri sono tutti sparsi sul pavimento"
John Allen Paulos, Matematico (1945-vivente)

Luca 'remix_tj' Lorenzetto, http://www.remixtj.net , <[hidden email]>

_______________________________________________
Talk-it mailing list
[hidden email]
http://lists.openstreetmap.org/listinfo/talk-it
Reply | Threaded
Open this post in threaded view
|

Re: Nuovo dizionario per il controllo ortografico

Daniele Forsi-2
In reply to this post by Francesco Frassinelli
Il 01 settembre 2013 12:09, Francesco Frassinelli ha scritto:

> Ottimo lavoro!

grazie

> So che non è legato al controllo ortografico, ma mi sono chiesto: pensi sia
> possibile generare un elenco delle vie mancanti (o presunte tali) di un
> Comune presenti nel database ma non in OSM?

sì, l'ho fatto per qualche Comune che ha pubblicato dati open, cerca
"Confronto stradari comunali" in
http://www.forsi.it/osm/
ma devo riscriverlo completamente per farlo per tutti i Comuni
--
Daniele Forsi

_______________________________________________
Talk-it mailing list
[hidden email]
http://lists.openstreetmap.org/listinfo/talk-it
Reply | Threaded
Open this post in threaded view
|

Re: Nuovo dizionario per il controllo ortografico

bredy
Usando l'elenco vie dei database catastali ho notato che ci sono parecchi errori rispetto alle vie reali, naturalmente mi baso su pochi dati avendo consultato un solo comune attualmente.
Reply | Threaded
Open this post in threaded view
|

Re: Nuovo dizionario per il controllo ortografico

Daniele Forsi-2
In reply to this post by Luca 'remix_tj' Lorenzetto
Il 01 settembre 2013 12:12, Luca 'remix_tj' Lorenzetto ha scritto:

> Ottimo lavoro :-)

grazie

> vorrei solo fare una piccola annotazione per il caso particolare di
> venezia, che riporta moltissimi errori del tipo "Non inizia con Via,
> Piazza, ecc.":
>
> per il caso di venezia andrebbero inserite le possibilità di
> considerare anche le parole:
>
> - calle
> - campo
> - campiello
> - rio terà
> - ruga
> - rughetta
> - ramo
> - sotoportego (su sottoportego ho un dubbio)
> - fondamenta
> - salizada
> - fontego
> - lista

ho aggiunto queste parole che mancavano (ma saranno corrette solo al
prossimo aggiornamento), le altre c'erano:
ruga
rughetta
ramo
fontego
lista

ora il programma accetta 175 DUG, ma nel sito dell'Agenzia c'è un file
DUG_05042012.csv con 699 DUG che non ho ancora considerato, potrebbe
essere l'elenco definitivo di parole, però non c'è né sotoportego né
sottoportego, le parole più simili sono:
$ grep -E PORT.+O DUG_05042012.csv
144;PORTICO
204;SOTTOPORTICO
218;SUPPORTICO
229;SOPPORTICO
473;PORTICATO
474;PORTICCIOLO
990;PORTEGO

--
Daniele Forsi

_______________________________________________
Talk-it mailing list
[hidden email]
http://lists.openstreetmap.org/listinfo/talk-it
Reply | Threaded
Open this post in threaded view
|

Re: Nuovo dizionario per il controllo ortografico

Daniele Forsi-2
In reply to this post by bredy
Il 01 settembre 2013 15:45, bredy ha scritto:

> Usando l'elenco vie dei database catastali ho notato che ci sono parecchi
> errori rispetto alle vie reali, naturalmente mi baso su pochi dati avendo
> consultato un solo comune attualmente.

sì, possono esserci nomi completamente sbagliati e ci sono sicuramente
errori di battitura ma per questi ultimi il procedimento è
reversibile, cioè possiamo usare i dati OSM per individuare i dati del
Catasto che potrebbero essere errati, OpenCatastoBugs ;-) e per fare
questo nelle mie pagine abbiamo dei dati più affidabili di un semplice
elenco di parole perché sappiamo quali nomi sono stati controllati
almeno una volta dopo essere stati inseriti

--
Daniele Forsi

_______________________________________________
Talk-it mailing list
[hidden email]
http://lists.openstreetmap.org/listinfo/talk-it
Reply | Threaded
Open this post in threaded view
|

Re: Nuovo dizionario per il controllo ortografico

Davio
CONTENTS DELETED
The author has deleted this message.
Reply | Threaded
Open this post in threaded view
|

Re: Nuovo dizionario per il controllo ortografico

Luca Delucchi


Il giorno 02/set/2013 01:18, "Davio" <[hidden email]> ha scritto:
>
> Per quanto riguarda Roma, come identificativo di una strada vanno aggiunti
> anche "Porto", "Quadrato", e "Ripa", presenti nella toponomastica ufficiale.
>

Per quanto riguarda Genova ci sarebbe da aggiungere Crosa
Grazie

>
> Davide
>

Ciao
Luca


_______________________________________________
Talk-it mailing list
[hidden email]
http://lists.openstreetmap.org/listinfo/talk-it
Reply | Threaded
Open this post in threaded view
|

Re: Nuovo dizionario per il controllo ortografico

Daniele Forsi-2
Il 02 settembre 2013 07:40, Luca Delucchi ha scritto:

>
> Il giorno 02/set/2013 01:18, "Davio" <[hidden email]> ha scritto:
>
>
>>
>> Per quanto riguarda Roma, come identificativo di una strada vanno aggiunti
>> anche "Porto", "Quadrato", e "Ripa", presenti nella toponomastica
>> ufficiale.
>>
>
> Per quanto riguarda Genova ci sarebbe da aggiungere Crosa
> Grazie

aggiunte tutte e 4, grazie

--
Daniele Forsi

_______________________________________________
Talk-it mailing list
[hidden email]
http://lists.openstreetmap.org/listinfo/talk-it
Reply | Threaded
Open this post in threaded view
|

Re: Nuovo dizionario per il controllo ortografico

Daniele Forsi-2
Ho applicato le nuove parole (ora sono 179) ai dati vecchi così ho
fatto un po' di pulizia a Venezia:
Genova: da 48 a 46
Milano: da 30 a 28
Venezia: da 476 a 333

e da ora in poi se volete mi potete dire quali parole singole sono
giuste, le aggiungerò manualmente a una tabella (ora c'è solo
Carrobbio)

--
Daniele Forsi

_______________________________________________
Talk-it mailing list
[hidden email]
http://lists.openstreetmap.org/listinfo/talk-it
Reply | Threaded
Open this post in threaded view
|

Re: Nuovo dizionario per il controllo ortografico

Edoardo Yossef Marascalchi
Per venezia puoi aggiungere anche Campazzo e Ghetto



Il giorno 02 settembre 2013 17:33, Daniele Forsi <[hidden email]> ha scritto:
Ho applicato le nuove parole (ora sono 179) ai dati vecchi così ho
fatto un po' di pulizia a Venezia:
Genova: da 48 a 46
Milano: da 30 a 28
Venezia: da 476 a 333

e da ora in poi se volete mi potete dire quali parole singole sono
giuste, le aggiungerò manualmente a una tabella (ora c'è solo
Carrobbio)

--
Daniele Forsi

_______________________________________________
Talk-it mailing list
[hidden email]
http://lists.openstreetmap.org/listinfo/talk-it



--
Edoardo Yossef Marascalchi
skype: asca_edom

_______________________________________________
Talk-it mailing list
[hidden email]
http://lists.openstreetmap.org/listinfo/talk-it
Reply | Threaded
Open this post in threaded view
|

Re: Nuovo dizionario per il controllo ortografico

Edoardo Yossef Marascalchi
Aggiungo ancora:
Riviera
Sottoportego (mi pareva te l'avessero già segnalato)
Fondamenta
Fondamente


Il giorno 02 settembre 2013 17:40, Edoardo Yossef Marascalchi <[hidden email]> ha scritto:
Per venezia puoi aggiungere anche Campazzo e Ghetto



Il giorno 02 settembre 2013 17:33, Daniele Forsi <[hidden email]> ha scritto:

Ho applicato le nuove parole (ora sono 179) ai dati vecchi così ho
fatto un po' di pulizia a Venezia:
Genova: da 48 a 46
Milano: da 30 a 28
Venezia: da 476 a 333

e da ora in poi se volete mi potete dire quali parole singole sono
giuste, le aggiungerò manualmente a una tabella (ora c'è solo
Carrobbio)

--
Daniele Forsi

_______________________________________________
Talk-it mailing list
[hidden email]
http://lists.openstreetmap.org/listinfo/talk-it



--
Edoardo Yossef Marascalchi
skype: asca_edom



--
Edoardo Yossef Marascalchi
skype: asca_edom

_______________________________________________
Talk-it mailing list
[hidden email]
http://lists.openstreetmap.org/listinfo/talk-it
Reply | Threaded
Open this post in threaded view
|

Re: Nuovo dizionario per il controllo ortografico

bredy
Ma come si fa a segnalare il valore corretto per quei dati?
Reply | Threaded
Open this post in threaded view
|

Re: Nuovo dizionario per il controllo ortografico

Daniele Forsi-2
In reply to this post by Edoardo Yossef Marascalchi
Il 02 settembre 2013 16:42, Edoardo Yossef Marascalchi ha scritto:
> Aggiungo ancora:
> Riviera
> Sottoportego (mi pareva te l'avessero già segnalato)
> Fondamenta
> Fondamente

aggiunti tutti per il prossimo aggiornamento
per Sottoportego Luca 'remix_tj' Lorenzetto era in dubbio, comunque
non è un problema aggiungere o togliere parole in questa lista perché
non si perdono dati

--
Daniele Forsi

_______________________________________________
Talk-it mailing list
[hidden email]
http://lists.openstreetmap.org/listinfo/talk-it
Reply | Threaded
Open this post in threaded view
|

Re: Nuovo dizionario per il controllo ortografico

Daniele Forsi-2
In reply to this post by bredy
Il 03 settembre 2013 18:29, bredy ha scritto:

> Ma come si fa a segnalare il valore corretto per quei dati?

se ci sono errori, con Remote Control per JOSM e Merkaartor usi il
link nella prima colonna e li correggi direttamente in OSM

invece per dire che certe parole sono giuste, usi la tendina, non
scompaiono automaticamente così puoi cambiare idea, devi aggiornare la
pagina (ma c'è un bug per cui non si riesce a segnalare quali sono
errori)

e per altre cose devi dire a me qui in lista o in privato, ad esempio
se ci sono dei nomi che secondo il programma sono sbagliati, ma sai
che sono giusti e li vuoi far scomparire, ora ho aggiunto una tabella
di eccezioni

--
Daniele Forsi

_______________________________________________
Talk-it mailing list
[hidden email]
http://lists.openstreetmap.org/listinfo/talk-it
Reply | Threaded
Open this post in threaded view
|

Re: Nuovo dizionario per il controllo ortografico

Paolo Monegato
In reply to this post by Daniele Forsi-2
Il 03/09/2013 23:17, Daniele Forsi ha scritto:

> Il 02 settembre 2013 16:42, Edoardo Yossef Marascalchi ha scritto:
>> Aggiungo ancora:
>> Riviera
>> Sottoportego (mi pareva te l'avessero già segnalato)
>> Fondamenta
>> Fondamente
> aggiunti tutti per il prossimo aggiornamento
> per Sottoportego Luca 'remix_tj' Lorenzetto era in dubbio, comunque
> non è un problema aggiungere o togliere parole in questa lista perché
> non si perdono dati

"Sottoportego" con due T lo toglierei, è sbagliato. Non solo per
l'ortografia veneziana, ma anche per lo stradario comunale [1] (se si
cerca "sottoportego" si ottengono 0 risultati nella colonna di
dati.venezia.it).

Per lo stesso motivo "rughetta" -> "rugheta".

ciao
Paolo M

[1] http://www.forsi.it/osm/spellcheck/highway/stradario/Venezia/

_______________________________________________
Talk-it mailing list
[hidden email]
http://lists.openstreetmap.org/listinfo/talk-it
Reply | Threaded
Open this post in threaded view
|

Re: Nuovo dizionario per il controllo ortografico

Tiziano D'Angelo
In reply to this post by Daniele Forsi-2
Ciao,
Grazie!
Tiziano


2013/9/2 Daniele Forsi <[hidden email]>
Ho applicato le nuove parole (ora sono 179) ai dati vecchi così ho
fatto un po' di pulizia a Venezia:
Genova: da 48 a 46
Milano: da 30 a 28
Venezia: da 476 a 333

e da ora in poi se volete mi potete dire quali parole singole sono
giuste, le aggiungerò manualmente a una tabella (ora c'è solo
Carrobbio)

--
Daniele Forsi

_______________________________________________
Talk-it mailing list
[hidden email]
http://lists.openstreetmap.org/listinfo/talk-it


_______________________________________________
Talk-it mailing list
[hidden email]
http://lists.openstreetmap.org/listinfo/talk-it
Reply | Threaded
Open this post in threaded view
|

Re: Nuovo dizionario per il controllo ortografico

Daniele Forsi-2
Il 04 settembre 2013 10:07, Tiziano D'Angelo ha scritto:

> ci sarebbe anche Rivetta

l'ho aggiunta nei dati in linea da ieri e ho tolto la doppia T a
sotoportego e rugheta come segnalato da Paolo

parole simili nei dati del catasto (non so a quali città si
riferiscono perché li ho messi tutti insieme) sono:
RUGHET
RUGHETTA
RIVET
RIVETTA
SOTOPORTEGO

--
Daniele Forsi

_______________________________________________
Talk-it mailing list
[hidden email]
http://lists.openstreetmap.org/listinfo/talk-it
12