A proposito di antialiasing

Aperto da Lexiw, 25 Febbraio 2003, 10:56:45

Discussione precedente - Discussione successiva

0 Utenti e 1 Visitatore stanno visualizzando questa discussione.

Khana

Non continuare a fare esempi Devil, il discorso è chiaro e, personalmente sono d'accordo (nel senso che i tuoi sono esempi alla teoria che ho esposto nel mio post).
Ora, che la teoria esposta da Repne esista è vero, tanto quanto esiste quella per cui i numeri più usati nel mondo (nonostante siano infiniti) sono quelli che iniziano con le cifre più basse (1, 2, 3).
Ovvero esistono (meglio: vengono usati) + numeri che iniziano con 1 con 2 o con 3 che non tutti gli altri.
Il governo americano usa questa teoria per scovare gli evasori fiscali: se un bilancio contiene troppi numeri che iniziano con 6, 7, 8, probabilmente (e sottolineo PROBABILMENTE) il bilnacio è stato generato casualmente da un PC.
L'articolo in questione appare su Focus di Febbraio.

Cio nonostante, Repne, la mia NON era ovviamente una critica alle intenzioni.

Potrei rispondere che perquanto riguarda la musica Jazz, probabilmente quel 96,2% di casi riconosciuti erano o tutte variazioni su uno stesso tema (cosa naturale nel Jazz che è improvvisazione, e ti garantisco, esistono + di 100 versioni diverse di "When the Saint go Marchin' in" ;), o semplicemente il restante 3,8% erano le composizioni "geniali" e quindi quelle degne di passare alla storia.
Ma questa critica sarebbe infondata: ragionando su questo esempio, ti direi che mi piacerebbe provare a far confrontare un brano di Jazz per orechestra con un atto di un'opera di Wagner e vedere cosa succede.
Se il confronto è stato fatto sulla percentuale di note e/o accordi usati, allora il sistema NON è fatto per analizzare musica, che è invece costituita da sequenze melodiche e armoniche inscindibili.

Ma stiamo uscendo dal seminato.

Il tuo progetto è DECISAMENTE interessante e le possibili applicazioni pratiche esistono e sono (per citare le più ovvie) la gestione di un database di biblioteche centralizzato o, + semplicemente, un filtro per motori di ricerca (che poi è uguale).
Ma proprio perché quel sistema ha quelle applicazioni, mi è saltato in mente subito l'esempio di quelle 2 frasi, che certo sono corte e limitate, ma se il sistema funziona, deve funzionare per tutto.

Le parole sono molto più importanti di quello che normalmente si pensa. Definire il tuo progetto come qualcosa che stabilisce se due documenti hanno lo stesso "argomento", vuol dire conforontare i significati e, coma hai giustamente sottolineato tu, è roba da lamer.
Se invece l'intenzione è stabilire una "Mappatura" teorica, un'impronta digitale dei saggi di un determinato argomento, allora l'applicazione è decisamente interessante, anche se porterebbe a conclusioni e a utilizzi didattici a cui sono sempre stato contrario (la saggistica accademica); ma questa è una mia opinione basata sul gusto personale e non ci interessa.

Ad ogni modo, lasciami concludere che non sarà mai possibile, analizzandi la frequenza dei colori usati, stabilire se 2 quadri raffigurano la stessa cosa.
L'autoritratto di Van Gogh ha troppi colori rispetto alla Gioconda eppure entrambi sono facce.
In oltre, "Raffigurare" e "Cosa" hanno significati tecnici propri che è bene tenere presente parlando di quella che è, comunque, comunicazione.

Chiaro che NON mi aspetto (né nel bene, né nel male) che il tuo progetto possa STABILIRE se 2 documenti parlano della stessa cosa, ma, visto che sono filosofo, ma di mestiere gestisco una società IT, che il risultato sia una lista di LIVELLO DI ADERENZA allo standard di stesura a cui ti riferivi. Lista che poi dovrà comunque essere scremata a mano (dalla solita segretaria :)).

Non criticavo TE, Repne, mi sembrava, prima della tua spiegazione ulteriore, una cosa un po' campata per aria e, si sà: Hypoteses non fingo.

Powered by


- non svegliate il can che morde -

Khana

Powered by


- non svegliate il can che morde -

Khana

Dunque...
Per rendere la cosa (spero) + accessibile a tutti: la teoria su cui sta lavorando Repne prevede che in un testo scritto ci siano poche parole che appaiono molto spesso (le congiunzione e gli articoli) e tantissime parole che appaiono poco spesso, magari 1 volta sola (per esempio i nomi propri o definizioni eccessivamente tecniche - come "antropocentrismo empirico" :)).

Ora, supponendo di avere N documenti che parlano dello stesso argomento e confrontando questo "rank" di parole è possibile, ignorando ovviamente gli articoli e le preposizioni (tutte le parole composta da meno di tre lettere non maiuscole e non sigle), stabilire quali siano, all'interno del suddetto argomento, le parole + usate.
Capite che così, applicando il tutto ad un motore di ricerca, è plausibile che digitando una parola da cercare, il risultato della query sia + consono al vero della ricerca "spider" sul testo delle pagine.
Questo però funziona fintanto che qualcuno ha già categorizzato i vari argomenti.

Continuo a rimanere convinto che non sia possibile determinare se 2 documenti parlano dello stesso argomento, perché questo vorrebbe dire poterne interpretare il significato.

Impegnandomi a fondo potrei riscrivere il Kamasutra usando le parole contenute nell'Enciclopedia Della Cucina di Suor Germana, e in questo caso, con 3 tomi a disposizione, avrei creato un caso limite non indifferente.

Certo, sarebbe possibile deteriminare se una poesia appartenga al Dolce Stil Nuovo o alla Scapigliatura, ma solo perché questi sono due generei con una spiccata determinazione linguistica (per il Dolce Stil Nuovo è addirittura una peculiarità genetica: si DOVEVA usare un determinato vocabolario).

La teoria di Zipf è dimostrativa, non preventiva: cioé non risulta possibile sulla base dei dati PREVEDERE il comportamento di deterimanti eventi. E' possibile però, dimostrando l'appartenenza di tali eventi a dati argomenti, procedere con una categorizzazione senza doverli necessariamente sfogliare e/o conoscere.

Powered by


- non svegliate il can che morde -

repne scasb

Le critiche sono tutte fondate, anch'io mi sono messa a ridere quando me l'hanno spiegata. Poi ho visto uno stupido programmino in basic che riconosceva musica jazz. Ossia se gli da un'opera di Wagner lui dice e' jazz al 5,5%. Se gli dai Jump dei Van Hallen ti dice jazz al 2.4%, se gli dai Nat King Cole ti dice jazz al 85,8%.

Poi mi e' stato spiegato come fa il riconoscimento (non lo posso spiegare in dettaglio, ma soro' piu' chiara):

Questo algoritmo, non confronta due testi in modo classico, ossia, anche se tu riscrivessi il Kamasutra con le parole usate nell'enciclopedia della cucina di Suor Gernama, il software nonostante le parole sono le stesse, direbbe che sono due cose diverse.

NON CONTRONTA LE PAROLE.

Non dice il testo a) e' uguale al testo b) perche' usa le stesse parole.

Confronta la distribuzione generata dal ranking di Zipf, CON PAROLE DIVERSE.

E' come se controntasse lo stile.

Semplificando al massimo: in un articolo di sport, le prime due parole piu' usate sono sempre in un rapporto di rank nel database di Zipf generale 1.3647 (un numero a caso), e questo e' sempre vero indipendentemente dalle parole usate (in realta' e' piu' complicato perche' esamina anche la posizione all'interno del testo). E questo e' vero tanto piu' grande il campione di testi che esamini (grande quanto? non lo so. Lo devo verificare)

Ossia la soluzione di riconoscimento e' del tutto ingegneristica. Non si ha chiaramente la pretesa assurda di far capire ad un PC cosa significa un documento, ma si sta tentando di trasformare un documento, della musica, (non va bene una fotografia, perche' e' UNA fotografia), un un array multidimensionale. Ossia sto trasformando parole in numeri.

La congettura e': Due documenti che parlano della stessa cosa avranno distanze tra gli array che identificano tali documenti, quasi zero.

Tutte queste cose le devo verificare, non le ho ancora verificate. Ma credo valga la pena di verificarle.

Ossia la congettura si basa sul seguente principio: Un umano che scrive di sport, scrive di sport distribuendo le parole in un modo caratteristico, anche se usa parole diverse: se "pallone" e' la prima parola e "rete" e' la seconda ed il rapporto di ranking e' 1.3647, un altro documento che ha un rapporto di ranking di 1.3647 sara' probabilmente di sport.

Questo non e' vero in assoluto, si puo' sempre ingannare il sistema, ma il principio e' che per quanto gli umani si definiscano "originali" in realta' non lo sono. Ossia, se prendo 1.000 articoli giornalistici che parlano di sport, all'interno di tali articoli sara' riconoscibile una struttura matematica "tipica" data dal fatto che tali articoli in relta' sono tutt'altro che originali, e che in sostanza parlano sempre della stessa cosa.

--
0F2h 0AEh

Superbox

CitazioneUn umano che scrive di sport, scrive di sport distribuendo le parole in un modo caratteristico, anche se usa parole diverse: se "pallone" e' la prima parola e "rete" e' la seconda ed il rapporto di ranking e' 1.3647, un altro documento che ha un rapporto di ranking di 1.3647 sara' probabilmente di sport.

Questo non e' vero in assoluto, si puo' sempre ingannare il sistema

...come Biscardi fa del resto da anni! :D

Repne, mi sorge una domanda: un software simile riuscirebbe ad identificare anche un particolare "stile" comunicativo? Riprendendo come esempio Biscardi... se dessi a tale programma due suoi "articoli" (lo so, non ne scrive, e meno male!) di sport, riuscirebbe anche a dirmi che probabilmente li ha scritti la stessa persona?

In filosofia, in religione, in etica e in politica, due e due avrebbero potuto fare cinque. Ma fino a che ci si manteneva nell'ambito di disegnare un aeroplano o un fucile, dovevano fare quattro.
- G. Orwell

repne scasb

CitazioneRepne, mi sorge una domanda: un software simile riuscirebbe ad identificare anche un particolare "stile" comunicativo? Riprendendo come esempio Biscardi... se dessi a tale programma due suoi "articoli" (lo so, non ne scrive, e meno male!) di sport, riuscirebbe anche a dirmi che probabilmente li ha scritti la stessa persona?

Assolutamente, SI. Credo (non ne sono sicura), tanto meno e' originale, tanto meno articoli sono necessari.

Il sistema finale dovrebbe decrittare un testo.

--
0F2h 0AEh

Superbox

CitazioneAssolutamente, SI. Credo (non ne sono sicura), tanto meno e' originale, tanto meno articoli sono necessari.

Il sistema finale dovrebbe decrittare un testo.

Allora... Potrei averne una copia? :)

Ops... forse sto correndo troppo: Sarebbe un progetto open source o proprietario? Freeware, Shareware o Moneyware?

In filosofia, in religione, in etica e in politica, due e due avrebbero potuto fare cinque. Ma fino a che ci si manteneva nell'ambito di disegnare un aeroplano o un fucile, dovevano fare quattro.
- G. Orwell

repne scasb

CitazioneAllora... Potrei averne una copia? :)

No. Non e' possibile per il momento, perche'
tutto e' allo stato embrionale. Dubito anche per il futuro.

Io e il mio amico vogliamo prima capire cosa se ne vogliono fare le persone che ci hanno commissionato questo compito.

--
0F2h 0AEh

Khana

Ribadisco, secondo me è un filtro di ricerca.
Tanto più ne sono convinto dopo quello che hai spiegato oggi.
Un metodo silmile per ricercare informazioni in realtà alleggerirebbe MOLTO l'utilizzo di risorse da parte di un computer che fa girare il tutto.

Powered by


- non svegliate il can che morde -

Devilman

ho capito l'intenzione, continuo cmq ad avere delle riserve, il fatto che tu mi dica che l'immagine nn va bene, mi lascia perplesso, l'immagine può essere codificata con dei numeri "delle parole" così come un qualsiasi articolo, ad una codifica corrisponde un significato, l'hai detto tu che poteva associare e riconoscere il klingon? e chi ci dice che nn comunichino in un questo modo? daltronde per un esperto umano è molto semplice riconoscere due quadri di uno stesso autore anche se ritraggono due soggetti diversi. Certo che riconoscere due tipi di musica è molto più semplice, proprio perchè le note sono poche e le sequenze caratteristiche facilmente individuabili, visto la pochezza delle combinazioni disponibili.
Per concludere credo che un algoritmo del genere nn possa risolvere molto, si può sofisticare finche si vuole, ma se le variabili sono troppe e le combinazioni difficilmente schemattizabili..
Applicandolo ad un motore di ricerca, credo che complicherebbe le cose a causa dell'estrema generalità dell'imformazione, difficilmente uno cerca tutti gli articoli di calcio, il risultato sarebbe eccessivamente grande, se uno cercasse cmq gli articoli di un particolare autore, beh credo che farebbe molto prima a porre come chiave la presenza booleana pura e semplice della firma! senza contare che in mancanza di questa forse potrebbe ottenere risultati migliori cercando parole tipiche usate dall'autore.
In ultimo la gestione e il mantenimento di un archivio di modelli e il relativo confronto comporta l'uso di enormi risorse e notevole tempo, confrontare una chiave è decisamente più veloce che confrontare o cercare uno schema.

Devilman - Modder-atore sezione Modding e overclocking!



6000+X2 4870ati Asus m2n-sli dlx 4Gbddr2 Hd e dvd-cdrom a manciate!