Thursday 24 August 2017

Moving Media Gaussiana


La sfocatura per principianti Introduzione Questo è un breve tutorial su sfocatura tecniche per i principianti. Quando stavo imparando questa roba, c'era molto poco materiale a disposizione che era molto utile. Quello non è vero, naturalmente - c'era masse di materiale, ma la metà di esso era troppo semplice e l'altra metà ha cominciato Sia T una funzione vettoriale valutata nell'intervallo semiaperto. ed era pieno di molto spaventosi equazioni multilinea con quei grandi simboli Sigma e le cose. Questo articolo ha lo scopo di porre rimedio a questo. parlare male di vari tipi di sfocatura e gli effetti si possono utilizzare per, con il codice sorgente di Java. A Nota Ogni volta che la sfocatura menzionato, c'è sempre qualcuno che dice Hey Quello non è un vero e proprio motion blur, o scrive lettere arrabbiati in inchiostro verde lamentano che la matematica è dubbia o che theres un modo molto più veloce per farlo usando i registri sponglerizer sul HAL -9000. Ignorare queste persone. Questo è un grande soggetto, e questo articolo è solo per i principianti (di cui posso dire con orgoglio io sono uno). Ciò che conta è ottenere i risultati che sei volte per, e se i risultati youre puntando richiede dubbie la matematica, allora così sia. Se i risultati youre puntando aspetto orribile per me, allora questo è bene, a patto che si guardano bene a voi. Un altro codice sorgente di responsabilità Theres in Java per tutto abbastanza bene parlo qui. Non faccio affermazioni che questi sono ottimizzati in alcun modo - Ive optato per la semplicità sulla velocità ovunque e youll probabilmente in grado di fare la maggior parte di queste cose andare più veloce, con un po 'di sforzo. È possibile utilizzare il codice sorgente per tutto quello che vuoi, anche a fini commerciali, ma c'è alcuna responsabilità. Se il sistema centrale o missile nucleare non riesce a causa di una sfocatura improprio, non è colpa mia. Cosa è la sfocatura Sappiamo tutti cosa è la sfocatura, dont noi La sua quella cosa che si verifica quando la fotocamera è fuori fuoco o il cane ruba gli occhiali. Quello che succede è che ciò che dovrebbe essere visto come un punto tagliente viene spalmato fuori, di solito in una forma di disco. In termini di immagine, ciò significa che ogni pixel dell'immagine sorgente viene distribuito su e mescolato in pixel circostanti. Un altro modo di guardare a questo è che ogni pixel nell'immagine di destinazione è costituito da una miscela di circostante pixel dall'immagine sorgente. L'operazione è necessario per questo è chiamato convoluzione. Sembra complicato, ma questo è solo perché i matematici piace fare le cose sembrare complicato in modo da mantenere che l'aria di magia e mantenere il finanziamento a rotazione. Bene, Im su di loro e posso rivelare che spira non è così complicato (al mio livello comunque) . Il modo in cui funziona è questo: immaginiamo scorrere una matrice rettangolare di numeri sopra la nostra immagine. Questo vettore è chiamato il nucleo di convoluzione. Per ogni pixel dell'immagine, prendiamo i numeri corrispondenti dal kernel ei pixel sono sopra, li moltiplichiamo insieme e aggiungere tutti i risultati insieme per rendere il nuovo pixel. Ad esempio, immaginiamo che vogliamo fare davvero un semplice sfocatura dove abbiamo appena media insieme ogni pixel ei suoi otto immediati vicini. Il kernel abbiamo bisogno è: Si noti che questi tutti aggiungere fino a 1, il che significa che la nostra immagine risultante sarà altrettanto brillante come l'originale. Senza ulteriori indugi, lascia sfocatura dell'immagine in Java. Tutta quella roba convoluzione suona difficile da implementare, ma per fortuna Java viene fornito con un built-in e l'operatore pronto per l'uso di fare esattamente questo. Im parlando ConvolveOp qui. Ecco il codice: Fantastico Un'immagine sfocata La sua non è molto sfocata però. Consente di fare davvero un grande sfocatura in questo modo: Hmmmmmm. Beh, quello non è così buono. Non solo ci vuole un sacco di tempo, ma il risultato è un po 'strano - tutto sembra, beh, una sorta di piazza, e ciò che sulla terra è accaduto attorno ai bordi Prima i bordi: ConvolveOp è una timida cosa sdolcinato che è paura di cadere dal bordo dell'immagine. Se il kernel sovrapporsi al bordo dell'immagine, dà solo su e lascia solo il pixel invariato. È possibile modificare questo passando EDGEZEROFILL invece di EDGENOOP, ma questo è ancora peggio - i pixel intorno al bordo solo ottenere set a zero e in modo efficace scomparire. Che cosa dobbiamo fare Beh, potremmo pad l'immagine fuori intorno ai bordi prima di sfocatura e ritagliare il risultato, ma questo è solo cedere, e inoltre ci andrei imparare qualcosa. Invece, ben scrivere una vera e propria, senza paura, operatore di no-nonsense che costerà paura dei bordi. Bene chiamano ConvolveFilter per distinguerlo da ConvolveOp. Im non andando a fare nei dettagli della fonte di questo articolo - non ce n'è abbastanza tempo o spazio e abbiamo un sacco di filtri di ricerca di scrivere ancora, ma è possibile scaricare o visualizzare la sorgente e dovrebbe essere abbastanza auto-esplicativo. Ora il problema quadratura: La ragione per cui tutto sembra piazza è perché ciò che state facendo qui è chiamata una scatola di sfocatura - il kernel ha la forma di un quadrato, come se stavano usando una macchina fotografica, che ha un'apertura quadrata. Per inciso, non lasciare nessuno di dirti che sfuma box sono inutili - in realtà se stai simulando l'ombra proiettata da una luce quadrata, la sua esattamente quello che vuoi. Ad ogni modo, theyll tornare utile più avanti. Un'altra cosa: Non confondetevi - Im utilizzando la casella di sfocatura termine per riferirsi alla forma del kernel, non il suo profilo, che ho intenzione di chiamare un filtro scatola. Altro su questo più avanti. Per ottenere una sfocatura più realistico, che cosa avremmo dovuto fare si utilizza un kernel a forma di cerchio. Questo simula molto meglio quello che una vera e propria fotocamera fa. È molto meglio. Bene tornare in questo più avanti, ma prima una deviazione di nuovo alla casella di sfocatura. Weve risolto il problema dei pixel bordo, ma il nostro sfocatura è ancora in corso molto lentamente, e le cose sono solo andando a peggiorare. Il problema è che il numero di moltiplicazioni della convoluzione sta salendo come il quadrato del raggio kernel. Con un kernel 100x100, sono state andando a fare 10000 moltiplica e aggiunge per pixel (circa). Come possiamo aggirare questo Si scopre che ci sono più modi per andare su questo che Ive ha forse avuto il tempo di scrivere, o anche la briga di guardare. Un modo citerò rapidamente prima di spazzare sotto il tappeto è questo: Si può fare una scatola di sfocatura, riducendo il vostro immagine, sfocatura e scala di nuovo. Questo può andare bene per i vostri scopi, e si dovrebbe tenere a mente. Un problema è che si pretende molto animato molto bene, ma non può essere una preoccupazione per voi. Consente cerca nella casella sfocatura di nuovo: Si scopre che theres un paio di modi veramente facile per accelerare l'operazione. In primo luogo, si scopre che la casella di sfocatura è separabile. Ciò significa che possiamo fare una sfocatura 2D facendo due sfocature 1D, una volta nella direzione orizzontale e una volta nella direzione verticale. Questo è molto più veloce di fare la sfocatura 2D perché il tempo impiegato va in proporzione alla dimensione del kernel, non come suo quadrato. In secondo luogo, Pensare la finestra che sono state scivolando attraverso l'immagine. Come ci si sposta da sinistra a destra, i pixel vengono in sul bordo destro e vengono aggiunti al totale e al tempo stesso pixel lasciano il bordo sinistro e vengono sottratti dal totale. Tutto quello che dobbiamo fare è solo fare il aggiungere e sottrarre per l'inserimento e pixel lasciando ad ogni passo, invece di aggiungere insieme tutti i pixel nella finestra. Abbiamo solo bisogno di memorizzare una serie di totali parziali, che sono la larghezza o l'altezza del kernel. Questo dà un enorme miglioramento velocità a costo di dover scrivere del codice. Per fortuna, Ive ha scritto il codice per voi, in modo da vincere tutto. Abbiamo bisogno di due passaggi, una volta a sfumare in orizzontale e in verticale una volta. Il codice per questi è, ovviamente, molto diverso. Ma aspettate C'è un trucco che possiamo fare che ci permette solo di scrivere il codice una volta. Se scriviamo una funzione di offuscamento che fa la sfocatura orizzontale ma scrive la sua immagine in uscita trasposto, allora possiamo solo chiamare due volte. Il primo passaggio offusca orizzontale e traspone, il secondo passaggio fa la stessa cosa, ma come l'immagine è ora trasposta, la sua davvero facendo una sfocatura verticale. La seconda trasposizione rende l'immagine nel modo giusto di nuovo e voilà - una scatola di sfocatura molto veloce. Provalo in questa applet: Ed ecco il codice sorgente. Avrete notato che abbiamo usato solo un raggio intero finora che lo rende facile di elaborare gli indici degli array per la sfocatura. Siamo in grado di estendere la tecnica per fare sub-pixel sfocatura (vale a dire un raggio non integrale) semplicemente per interpolazione lineare tra i valori di matrice. Il mio codice sorgente pretende molto fare questo, ma è facile da aggiungere. Controllo sfocatura Ora è il momento di affrontare i problemi di velocità e di sfocatura quadrati guardando allo stesso tempo. Per sbarazzarsi del look piazza per la sfocatura, abbiamo bisogno di un kernel a forma circolare. Purtroppo, il trucco che abbiamo usato per la scatola confonde non funziona con un cerchio ma c'è una scappatoia: se il kernel ha il diritto profilo - il profilo gaussiano - allora possiamo fare una sfocatura 2D effettuando due sfocature 1D, proprio come abbiamo fatto con il scatola di sfocatura. La sua non è così veloce perché la finestra scorrevole trucco non funziona, ma la sua ancora molto più veloce di fare la convoluzione 2D. Il profilo di cui abbiamo bisogno è la, o una curva familiare a forma di campana di Gauss che avete sentito di: Heres il codice per creare un kernel gaussiano 1D per un determinato raggio. Tutto quello che dobbiamo fare è di applicare due volte, una volta in senso orizzontale e una volta in verticale. Come fx, Ive avvolse in un GaussianFilter per rendere più facile da usare. Questo è il motivo per cui la sfocatura gaussiana si trova in ogni pacchetto di grafica - la sua molto più veloce rispetto ad altri tipi di sfocatura. L'unico problema è che la sua non è molto realistico quando si tratta di simulazione di lenti della fotocamera, ma ne riparleremo più avanti. Se si vuole fare le cose come le ombre che simulano, quindi la sfocatura gaussiana, o anche la casella sfocatura può essere più che bene. C'è un posto per tutti questi effetti - solo perché arent pretende molto realistico dire theyre non è utile. La sfocatura gaussiana è molto più veloce, ma la sua in nessun posto vicino veloce come la nostra casella di sfocatura abbiamo fatto in precedenza. Se solo ci fosse un modo per combinare le due. Immagino youve indovinato da ora che ci potrebbe essere uno, in modo malato non tenere la suspense più: se si fanno un sacco di scatola di sbavature, il risultato appare sempre più come una sfocatura gaussiana. In realtà, si può dimostrare matematicamente se youve un momento libero (ma non lo dirmi come - Im non interessati). In pratica, da 3 a 5 box sfocature guardare piuttosto bene. Dont basta prendere la mia parola per esso: L'applet scatola sfocatura ha sopra un cursore iterazioni modo da poter provare fuori per lei. Canali alfa Un rapido deviazione qui per discutere di un problema che spesso affiora: Immaginate di voler offuscare una forma che è su uno sfondo trasparente. Youve ha ottenuto un'immagine vuota, e si disegna una forma su di esso, quindi sfocare l'immagine. Aspetta - perché il po 'sfocato guardare troppo scuro La ragione è che weve offuscata ogni canale separatamente, ma in cui il canale alfa è pari a zero (i bit trasparenti), i canali rosso, verde e blu sono pari a zero, o nero. Quando si esegue la sfocatura, il nero viene mescolato con i bit opache e si ottiene un ombra scura. La soluzione è quella di premoltiplicazione l'alfa immagine prima di sfocatura e unpremultiply in seguito. Naturalmente, se le immagini sono già premoltiplicati, sei a posto. Motion Blur Tempo per un cambio di direzione. Finora weve parlato solo di sfocature uniformi, ma ci sono altri tipi. Motion blur è la sfocatura si ottiene quando un oggetto (o la telecamera) si muove durante l'esposizione. L'immagine viene sfocata lungo il percorso apparente dell'oggetto. Qui sono stati solo andando a parlare di simulazione di sfocatura di movimento su un'immagine esistente ancora - facendo sfocatura di movimento nelle animazioni è tutta una zona diversa. Sono stati anche solo andando a essere sfocatura l'intera immagine - non stavano andando per cercare di offuscare un oggetto nell'immagine. La buona notizia è che weve già fatto semplice effetto movimento. Torna l'applet scatola sfocatura sopra e impostare il raggio orizzontale, diciamo 10, e il raggio verticale a zero. Questo ti dà un bel effetto movimento orizzontale. Per alcuni scopi, questo può essere tutto ciò che serve. Ad esempio, un modo per produrre una texture metallo spazzolato è prendere un'immagine consistente di rumore casuale e applicare una sfocatura di movimento. Se vogliamo sfocatura in una direzione diversa da quella orizzontale o verticale, quindi le cose si fanno più complicate. Una tecnica potrebbe essere quella di ruotare l'immagine, sfocatura e quindi ruotare indietro. Cosa ben fare qui anche se è di farlo nel modo più duro e lento. Quello che dobbiamo fare è un loop all'interno di immagine, e per ogni pixel, si sommano tutti i pixel lungo il percorso di movimento. Per un effetto movimento rettilineo, questo significa solo seguendo una linea retta dal pixel, ma si potrebbe seguire un percorso sinuoso se si voleva simulare a lunga esposizione vibrazioni della fotocamera, dicono. Spin e Sfocatura zoom Una volta weve ha ottenuto il codice per la sfocatura movimento in atto, è una semplice questione di modificarlo per fare lo zoom e la rotazione sfuma, o anche una combinazione di tutti e tre. Il suo solo una questione di seguire la strada giusta per ogni pixel. Per sfocature radiali, basta seguire un percorso che va dal centro sfocatura. Per un giro sfocatura, seguire un percorso tangenziale. Provalo in questa applet: Heres il codice sorgente per fare questi tre tipi di motion blur: Più veloce Motion Blur Avrete notato che facendo il motion blur è un business piuttosto lento - tutti quei seni e coseni veramente le cose rallentare. Se non fosse così preoccupato per la qualità, però, siamo in grado di accelerare l'operazione. Tutto quello che dobbiamo fare è aggiungere insieme un sacco di versioni trasformate dell'immagine in un modo intelligente. L'aspetto interessante è che possiamo fare un motion blur 1-pixel facendo la media l'immagine e la stessa immagine tradotto da un pixel. Possiamo fare una sfocatura di 2 pixel ripetendo questo con i 1-pixel immagini sfocate. Ripetendo questo possiamo fare una sfocatura N-pixel in operazioni log2 (N), che è molto meglio che farlo nel modo più duro e lento. Zoom e di spin sfocature può essere fatto da scalare e ruotare invece di tradurre. Un filtro farà tutti e tre con un AffineTransform. Provalo in questa applet: Dominio Shifting Theres ancora un altro modo per fare queste movimento che offusca: Ricorda Ho detto che si possa fare la sfocatura movimento lineare ruotando l'immagine, facendo una scatola di sfocatura orizzontale e ruotando indietro Ebbene, lo stesso vale per il zoom e rotazione sfuma, tranne avete bisogno di qualcosa di più complicato di rotazione. Quello che vi serve è l'esatto trasformazione. Una volta che avete trasformato la vostra immagine, una scatola di sfocatura orizzontale è uno spin quando si trasforma indietro, e una scatola di sfocatura verticale fornisce una sfocatura zoom. Un dettaglio è che avete bisogno di una speciale scatola di sfocatura orizzontale che avvolge i bordi altrimenti youll ottenere una linea verticale nitida nella vostra immagine sfocata in cui l'angolo di rotazione deve andare a capo turno. La sfocatura da trasformata di Fourier La sfocatura gaussiana è molto bene quando si desidera che effetto di sfocatura gaussiana, ma cosa succede se si desidera una sfocatura lente corretta che simula una apertura vera e propria macchina fotografica guardare qualsiasi film o programma TV per un po ', soprattutto qualcosa girato di notte con le luci sullo sfondo, e youll vedere che le cose che sono fuori forma fuoco forme di dischi, o forse pentagoni. C'è anche un fenomeno chiamato in fiore dove le parti luminose dell'immagine lavare l'immagine, diventando ancora più luminoso rispetto al resto. Queste forme sono chiamati Bokeh. Alcune persone lo amano e alcune persone lo odiano. Noi non interessa se la gente lo amano o lo odiano, vogliamo solo riprodurlo. Si voleva ottenere quelle forme di disco con sfocatura gaussiana - il suo solo troppo sfocata intorno ai bordi. Quello che dovete fare è usare un bel nucleo di convoluzione a spigolo vivo nella forma della apertura della fotocamera. Il problema youll venire attraverso qui è che tutti quei trucchi da fare con i kernel separabili, sfocature box iterati e simili non funzionerà qui - non c'è nessun kernel separabili che vi darà un pentagono (beh, probabilmente - Im nessun matematico) - sono tornati a il vecchio problema del tempo di sfocatura salendo come il quadrato del raggio di sfocatura. Non temere, siamo in grado di trasformare le armi pesanti matematici sul problema. Non so come funzionano le armi pesanti, ma li posso puntare. Le pistole pesanti sono trasformate di Fourier. Non so come funzionano perché non ero l'ascolto nelle mie lezioni universitarie, ma c'è una grande quantità sul tema si possono trovare su Internet, anche se praticamente nulla pratico (cioè con il codice sorgente) sul tema della sfocatura. Con trasformate di Fourier, è possibile effettuare una sfocatura che prende un tempo inalterato dal raggio di sfocatura (in pratica, trattare con i bordi dell'immagine significa questo non è del tutto vero). Sfortunatamente, questo significa che per un piccolo raggio, il suo lento, ma si vince proprio con un grande raggio. Un modo per affrontare questo è quello di utilizzare il semplice convoluzione per raggi piccoli, e passare a trasformate di Fourier quando si raggiunge al punto di crossover nel tempo, assumendo avete fatto degli esperimenti per determinare dove si trova. Ma attenzione, se sei animare una sfocatura, youve avuto modo di fare in modo che non si ottengono qualsiasi artefatto visibile nel punto in cui si passa algoritmo - l'occhio è veramente bravo a individuare quelli. Per questo motivo, si può scegliere di attaccare con un algoritmo per l'intera un'animazione. Per le immagini, nessuno sta andando a notare. Veramente. E 'davvero un aspetto diverso Sicuramente, siamo in grado di cavarsela con una sfocatura gaussiana Bene, ecco un esempio che vi aiuterà a rendere la vostra mente. Il principio alla base facendo la sfocatura non è troppo difficile, anche se sembra come una magia. Quello che facciamo è prendere l'immagine e il kernel, ed eseguire la trasformata di Fourier su entrambi. Abbiamo poi moltiplichiamo le proposte e trasformazione inversa indietro. Questo è esattamente lo stesso come l'esecuzione lungo convoluzione sopra (a parte errori di arrotondamento). Non avete davvero bisogno di sapere che cosa una trasformata di Fourier fa per implementare questo, ma in ogni caso, ciò che fa è quella di convertire l'immagine nello spazio di frequenza - l'immagine risultante è una rappresentazione dall'aspetto strano delle frequenze spaziali dell'immagine. L'inverso, ovviamente, trasforma verso lo spazio. ehm, lo spazio. Pensate a come un equalizzatore grafico per le immagini. Si può pensare di sfocatura dell'immagine come la rimozione di alte frequenze da esso, in modo thats come trasformate di Fourier venire nella foto. L'implementazione di questa è in realtà abbastanza semplice, ma ci sono un sacco di dettagli brutte di cui preoccuparsi. Prima di tutto abbiamo bisogno di alcune funzioni per fare la trasformazione e la sua inversa. Questi possono essere trovati nella FFT classe. Questo non è affatto una implementazione super-ottimizzato - si possono trovare molti di quelli altrove su Internet. Quindi, abbiamo bisogno di convertire il kernel in una immagine della stessa dimensione dell'immagine erano sfocatura (Im sicuro che ci sono modi per evitare questo, ma non so abbastanza matematica - se solo Id ascoltato in quelle lezioni). Abbiamo anche bisogno di pad nostra immagine di origine fuori dal raggio della sfocatura, duplicando i pixel del bordo come il suo duro per ottenere la FFT a che fare con i bordi di questo tipo. Ora, la FFT lavora su numeri complessi, quindi abbiamo bisogno di copiare l'immagine del kernel e in array galleggiante. Possiamo fare un trucco qui - le nostre immagini hanno quattro canali (alfa, rosso, verde e blu), quindi abbiamo bisogno di fare quattro le trasformazioni più uno per il kernel, rendendo cinque, ma dal momento che stavano usando i numeri complessi che possiamo fare due si trasforma in una sola volta da puttng un canale nella parte reale della matrice ed un canale nella parte immaginaria. Ora le cose si fanno facile, basta trasformare l'immagine ed il kernel, complesso si moltiplicano insieme e trasformazione inversa e noi abbiamo la nostra immagine di nuovo, ma convoluta con il kernel. Un ultimo piccolo dettaglio è che i swap processo di trasformazione nel corso dei quadranti della immagine in modo abbiamo bisogno di unswap. Solo un piccolo dettaglio rimane: la FFT funziona solo su immagini che sono potenze di 2 in ciascuna direzione. Quello che dobbiamo fare è aggiungere il doppio del raggio di sfocatura per la larghezza e l'altezza, trovare il prossimo più alta potenza di 2 e rendere le nostre array di dimensioni. Per i grandi immagini questo ha un paio di problemi: uno è che utilizzavano fino molta memoria. Ricordate che abbiamo le nostre immagini in un array galleggiante e abbiamo bisogno di 6 di questi array, ognuno dei quali è di 4 volte le dimensioni dell'immagine quando il suo stato ampliato per una potenza di due. La macchina virtuale Java potrebbe lamentarsi a voi se provate questo su una grande immagine (lo so, Ive ha provato). Il secondo problema è relativo: Le cose basta andare più lento con le immagini di grandi dimensioni a causa di problemi di memoria cache. La risposta è quella di dividere l'immagine in tessere e sfocatura ogni piastrella separatamente. La scelta di una buona dimensione piastrella è un problema di ricerca opzione (cioè io havent stato disturbato di sperimentare molto), ma è difficile - abbiamo bisogno di sovrapporre le piastrelle dal raggio di sfocatura, quindi se abbiamo scelto una dimensione di piastrelle di 256, con un raggio di sfocatura di 127 , sposare solo essere sfocatura 4 pixel con ogni piastrella. Provalo in questa applet: Soglia Sfoca Qualcosa che è spesso voluto è una macchia che offusca le parti dell'immagine che sono molto simili, ma conserva spigoli vivi. Si tratta di crema antirughe digitale e si può vedere questo in ogni poster del film mai stampato - le stelle facce hanno tutte quelle macchie brutte stirate senza l'immagine che appare sfocata. Spesso questo è così esagerato che gli attori sembrano cere o figure generate dal computer. Il modo in cui farlo è quello di fare una spira ordinario, ma contare solo in pixel che sono simili a quelli del pixel bersaglio circostante. Specificamente, abbiamo una soglia e includiamo solo un pixel nella convoluzione se differisce dal centro del pixel non supera la soglia. Purtroppo, le scorciatoie che abbiamo preso in precedenza non funzionerà qui come abbiamo bisogno di includere un diverso insieme di pixel circostanti per ciascun pixel di destinazione, così sono tornati alla piena convoluzione di nuovo. Ora, anche se questo è estremamente dubbia, in realtà funziona abbastanza bene per fare ancora due circonvoluzioni 1D per una sfocatura gaussiana, che è più veloce di fare il pieno di convoluzione 2D, quindi questo è quello che Ive fatto qui. Sentitevi liberi di modificare la fonte di fare la cosa completa. Provalo in questa applet: Variabile Sfuocature Finora weve ha parlato solo di uniforme sfuma - in cui il raggio di sfocatura è la stessa in ogni punto. Per alcuni scopi, è bello avere sbavature che hanno un raggio diverso per ogni punto dell'immagine. Un esempio sta simulando la profondità di campo: Si potrebbe prendere un'immagine che è a fuoco in tutto e applicare una sfocatura variabile ad esso per fare le parti guardare fuori fuoco. Reale profondità di campo è più complicato di questo, perché un oggetto che si trova dietro un altro oggetto non dovrebbe ricevere alcuna sfocatura dall'oggetto di fronte, ma ben ignorare che e lasciare ai professionisti. Ora, i nostri trucchi di fantasia sopra Arent ci aiuterà molto qui come tutto ciò che riguarda i kernel precalcolato o si basa sul raggio di sfocatura essendo la stessa sull'immagine e, a prima vista sembra che weve ha ottenuto soltanto la possibilità di ripiegare sulla piena circonvoluzione a ogni pixel, solo che questa volta la sua molto peggio, come il kernel potrebbe avere cambiato dal pixel precedente. Tuttavia, non tutto è perduto. Ricordate che trucco con scatola offusca dove abbiamo appena aggiunto in pixel mentre entravano il kernel e sottratti come hanno lasciato Sembra come se questo non funzionerà nel caso raggio variabile perché sposare devono tenere i totali per ogni possibile raggio, ma c'è una modifica possiamo fare per il trucco che ci permette di tirare fuori magicamente i totali per qualsiasi raggio con un solo sottrazione. Quello che facciamo è pre-elaborazione dell'immagine e sostituire ogni pixel dalla somma di tutti i pixel a sinistra. In questo modo quando si vuole trovare il totale di tutti i pixel tra due punti in un linea di scansione, abbiamo solo bisogno di sottrarre la prima dalla seconda. Questo ci permette di fare un veloce sfocatura variabile utilizzando una versione modificata del codice sfocatura casella sopra. Trattare con i bordi è leggermente più complicato come semplicemente sottraendo il lavoro totali doesnt per pixel largo margine, ma questo è un dettaglio minore. Dobbiamo anche un po 'di più spazio perché i totali andrà sopra del valore massimo di un pixel - ben necessario utilizzare un int per canale invece di memorizzare quattro canali in un int. Beh, OK, ma questa è una gaussiana (ish) sfocatura isnt che cosa di fare quella cosa lente sfocatura con raggio variabile Purtroppo, sei fuori di fortuna qui. Im non dicendo che c'è neanche un modo super veloce per farlo, ma per quanto ne so si sta andando ad avere per fare la cosa piena di convoluzione. Provalo in questa applet, che offusca più come ci si sposta verso destra: affilatura sfocando È possibile utilizzare una sfocatura per affinare l'immagine così come sfocatura usando una tecnica chiamata maschera di contrasto. Quello che fai è prendere l'immagine e sottrarre una versione sfocata, avendo cura di compensare la perdita di luminosità. Questo suona come una magia, ma funziona davvero: confronta questa immagine con l'originale. Provalo in questa applet: se sottraendo una versione sfocata di un'immagine da sé affila, cosa fa aggiungendolo fare come sempre, non c'è bisogno di indovinare - Im qui per informarvi. Quello che si ottiene è una sorta di effetto luminoso che può apparire abbastanza piacevole, o addirittura formaggio a seconda dei punti di vista. Variando la quantità di sfocatura aggiunto varia l'effetto incandescente. Si può vedere questo effetto usato molto in televisione per le transizioni da sogno al futuro. Provalo in questa applet: creando ombre Fare un'ombra è solo una questione di creare un'immagine che appare come la sagoma dell'oggetto del pedinamento, sfocatura, possibilmente distorcendo o lo spostamento, e incollare l'immagine originale sopra le righe. Poiché si tratta di un fatto comune il desiderio di fare, ci dovrebbe essere un filtro per farlo, e qui è. Questo è in realtà una implementazione molto semplicistica - è solo offusca l'ombra e disegna l'immagine originale sopra le righe. In pratica, è meglio non disturbare confondendo i pixel che sono completamente nascosti dall'oggetto. Casting Raggi Possiamo fare lo stesso trucco per fare i raggi di luce sembrano uscire da un oggetto, solo che questa volta rendendo il colore dell'ombra bianco e utilizzando una sfocatura zoom al posto della sfocatura ordinaria, aggiungendo poi il risultato in cima alla originale. I raggi spesso un aspetto migliore se li lanci solo dalle parti luminose dell'immagine, in modo che il filtro ha una soglia che può essere impostato per limitare i raggi di aree luminose. Questo è un buon effetto per animare: rendere il centro dei raggi muoversi attraverso l'immagine e si ottiene l'effetto di una sorgente di luce in movimento dietro l'immagine. Conclusione Bene, questo è tutto, e Ive nemmeno menzionato altri metodi di sfocatura come filtri IIR, filtri ricorsivi e tutte quelle altre cose brutte. Spero che tu vieni via con qualcosa di utile da questo, anche se è solo un ardente desiderio di comprare un po 'di inchiostro verde e mi scrivere la lettera. Infine, avrete notato che la fonte di cui sopra si basa su alcune altre classi. Non ti preoccupare, qui sono: Curva Bell Curve abbattendo Bell Curve Bell è un moda in generale termine usato per descrivere una rappresentazione grafica di una distribuzione di probabilità normale. Le normali distribuzioni di probabilità sottostante deviazioni standard dalla media, o dal punto più alto della curva, è ciò che dà la forma di una campana curvo. Una deviazione standard è una misura utilizzata per quantificare la variabilità della dispersione dei dati in un insieme di valori. La media è la media di tutti i punti di dati nel set o la sequenza di dati. Le deviazioni standard sono calcolati dopo la media è calcolata e rappresentano una percentuale dei dati totali raccolti. Ad esempio, se una serie di 100 punteggi dei test sono raccolti ed utilizzati in una distribuzione di probabilità normale, 68 dei punteggi dei test 100 dovrebbe rientrare in una deviazione standard sopra o sotto la media. Spostare due deviazioni standard dalla media dovrebbe includere 95 dei 100 punteggi dei test raccolti, e lo spostamento di tre deviazioni standard dalla media dovrebbe rappresentare il 99,7 dei punteggi dei test 100. Eventuali punteggi dei test che sono valori anomali estreme, come ad esempio un punteggio di 100 o 0, sarebbero considerati punti di dati a lungo di coda e si trovano al di fuori delle tre serie deviazione standard. Usando distribuzioni di dati in Finanza Gli analisti finanziari e gli investitori spesso utilizzano una distribuzione di probabilità normale quando si analizzano i rendimenti di un titolo o di sensibilità generale del mercato. Le deviazioni standard che raffigurano i rendimenti di un titolo sono noti nel mondo della finanza come la volatilità. Ad esempio, le scorte che mostrano una curva a campana sono normalmente azioni blue chip e hanno una minore volatilità e prevedibile. Gli investitori utilizzano la distribuzione di probabilità normale di un scorte passato torna a fare ipotesi per quanto riguarda i suoi futuri previsti. Tuttavia, azioni e altri titoli a volte mostrano distribuzioni non normali, nel senso che non guardano come una curva a campana. distribuzioni non-normali hanno la coda più grassa di una distribuzione di probabilità normale. Se la coda grassa è inclinata negativo, è un segnale per investitori che vi è una maggiore probabilità di rendimenti negativi e viceversa. Positivamente inclinate code grasse possono essere un segno di anormale returns. Crowdsourcing futuro è un mezzo molto popolare di ottenere i grandi quantità di dati etichettati che i moderni metodi di apprendimento automatico richiedono. Sebbene economico e veloce di ottenere, etichette crowdsourcing soffrono di notevoli quantità di errori, degradando in tal modo l'esecuzione dei compiti di apprendimento automatico a valle. Con l'obiettivo di migliorare la qualità dei dati etichettati, cerchiamo di attenuare i molti errori che si verificano a causa di errori stupidi o errori involontari da crowdsourcing lavoratori. Vi proponiamo un ambiente a due stadi per crowdsourcing in cui il lavoratore prima risponde alle domande, ed è quindi permesso di cambiare le sue risposte dopo aver guardato un (rumoroso) risposta di riferimento. Noi formuliamo matematicamente questo processo e sviluppare meccanismi per incentivare i lavoratori ad agire in modo appropriato. Le nostre garanzie matematici dimostrano che il nostro meccanismo incentiva i lavoratori a rispondere onestamente in entrambe le fasi, e astenersi dal rispondere in modo casuale nella prima fase o semplicemente copiando nel secondo. esperimenti numerici rivelano un notevole impulso in termini di prestazioni che tale 8220self-correction8221 può fornire quando si utilizza il crowdsourcing per addestrare algoritmi di apprendimento automatico. Ci sono vari modelli parametrici per l'analisi dei dati di confronto a coppie, tra cui il Bradley-Terry-Luce (BTL) e modelli Thurstone, ma la loro dipendenza da forti ipotesi parametrici è limitante. In questo lavoro, studiamo un modello flessibile per confronti a coppie, in base al quale le probabilità di esiti sono richiesti solo per soddisfare una forma naturale di stocastico transitività. Questa categoria comprende i modelli parametrici, tra cui i modelli BTL e Thurstone come casi particolari, ma è molto più generale. Forniamo i vari esempi di modelli di questa classe transitiva più ampio stocasticamente per i quali modelli parametrici classici forniscono adatta poveri. Nonostante questa maggiore flessibilità, mostriamo che la matrice delle probabilità può essere stimato alla stessa velocità come nei modelli parametrici standard. D'altra parte, a differenza dei modelli BTL e Thurstone, calcolando lo stimatore minimax ottimali nel modello stocasticamente transitiva non è banale, e noi esplorare varie alternative trattabili computazionalmente. Abbiamo dimostrato che un semplice algoritmo di valore di soglia singolare è statisticamente coerente, ma non raggiunge il tasso di minimax. Abbiamo poi proporre e studiare algoritmi che consentano di raggiungere il tasso di Minimax sopra interessanti sottoclassi della classe stocasticamente transitiva pieno. Ci completiamo i nostri risultati teorici con simulazioni numeriche approfondite. Noi mostriamo come qualsiasi modello a due a due binari può essere sradicato a un modello completamente simmetrica, in cui i potenziali Singleton originali vengono trasformati in potenziali sui bordi di una variabile aggiunto, e poi rerooted a un nuovo modello sul numero originale di variabili. Il nuovo modello è sostanzialmente equivalente al modello originale, con la stessa funzione di partizione e permettendo il recupero dei marginali originali o di una mappa congurazione, ma possono avere proprietà molto diverse computazionali che consentono l'inferenza molto più efficiente. Questa meta-approccio approfondisce la nostra comprensione, può essere applicato a qualsiasi algoritmo esistente per produrre metodi perfezionati in pratica, generalizza risultati teorici precedenti, e rivela una notevole interpretazione della polytope tripletta coerente. Mostriamo come metodi di apprendimento profonde possono essere applicate nel contesto di crowdsourcing e di apprendimento insieme senza supervisione. In primo luogo, si dimostra che il modello popolare di Dawid e Skene, che presuppone che tutti i classificatori sono condizionalmente indipendenti, è quello di un limitato Boltzmann automatico (RBM) con un singolo nodo nascosto. Quindi, in questo modello, le probabilità a posteriori dei veri etichette possono essere invece stimate tramite un RBM addestrato. Quindi, per affrontare il caso più generale, dove classificatori possono fortemente violare l'indipendenza condizionale ipotesi, si propone di applicare meccanismi basati profonda Rete neurale (DNN). I risultati sperimentali su vari set di dati simulati e reali dimostrano che il nostro approccio proposto DNN sorpassa altri metodi di state-of-the-art, in particolare quando i dati viola l'indipendenza ipotesi condizionale. Rivisitare apprendimento semi-supervisionato con il grafico embeddings Zhilin Yang Carnegie Mellon University. William Cohen CMU. Ruslan Salakhudinov U. of Toronto carta AbstractWe presentare un quadro di apprendimento semi-supervisionato sulla base di incastri grafico. Dato un grafo tra le istanze, ci alleniamo un'immersione per ogni istanza di prevedere congiuntamente l'etichetta di classe e il contesto quartiere nel grafico. Sviluppiamo sia transductive e varianti induttivi del nostro metodo. Nella variante transductive del nostro metodo, le etichette di classe sono determinati da entrambe le immersioni dotti e con ingresso vettori, mentre nella variante di induttiva, gli incastri sono definite come una funzione parametrica dei vettori di feature, quindi previsioni possono essere effettuate non istanze visto durante l'allenamento. Su una serie vasta e diversificata di attività di riferimento, compresa la classificazione di testo, estrazione di entità lontana sorvegliato, e la classificazione entità, mostriamo il miglioramento delle prestazioni su molti dei modelli esistenti. apprendimento per rinforzo può acquisire comportamenti complessi da specifiche di alto livello. Tuttavia, definendo una funzione di costo che può essere ottimizzato in modo efficace e codifica il compito corretto è impegnativo in pratica. Noi esploriamo come inverso controllo ottimale (CIO) può essere utilizzato per imparare i comportamenti da dimostrazioni, con applicazioni alla coppia controllo di sistemi robotici ad alta-dimensionale. Il nostro metodo si rivolge a due sfide chiave nel controllo ottimale inversa: prima, la necessità per le funzionalità informative e regolarizzazione efficace per imporre la struttura sul costo, e la seconda, la difficoltà di apprendimento della funzione di costo sotto dinamiche sconosciute per il sistema continuo ad alta dimensionali. Per affrontare la prima sfida, vi presentiamo un algoritmo in grado di apprendere funzioni di costo non lineari arbitrarie, come le reti neurali, senza l'ingegneria caratteristica meticolosa. Per affrontare la seconda sfida, formuliamo un'approssimazione basata su campioni efficiente per MaxEnt CIO. Valutiamo nostro metodo su una serie di operazioni simulate e problemi di manipolazione robotici reali, dimostrando sostanziale miglioramento rispetto ai metodi precedenti sia in termini di complessità di operazione e l'efficienza del campione. Nell'apprendimento modelli a variabili latenti (LVMS), è importante per catturare in modo efficace modelli rari e ridurre le dimensioni del modello senza sacrificare la potenza di modellazione. Vari studi sono stati fatti per 8220diversify8221 un LVM, che mirano a imparare una serie diversificata di componenti latenti LVMS. La maggior parte degli studi esistenti rientrano in un quadro regolarizzazione frequentista stile, in cui i componenti vengono apprese tramite la stima punto. In questo lavoro, abbiamo indagare come a 8220diversify8221 LVMS nel paradigma di apprendimento bayesiano, che ha vantaggi complementari per la stima punto, come alleviare overfitting tramite modello di media e quantificare l'incertezza. Proponiamo due approcci che hanno vantaggi complementari. Uno è quello di definire priori angolari reciproche diversità di promozione che assegnano più grande densità di componenti con grandi angoli reciproco basato sulla rete bayesiana e von Mises distribuzione-Fisher e utilizzano questi priori di incidere sul posteriore tramite regola di Bayes. Sviluppiamo due algoritmi di inferenza posteriori approssimati efficienti sulla base di inferenza variazionale e catena di Markov campionamento Monte Carlo. L'altro approccio è quello di imporre regolarizzazione diversità promozione direttamente sulla distribuzione post-dati dei componenti. Questi due metodi sono applicati alla miscela bayesiana di modelli esperti per incoraggiare la 8220experts8221 essere risultati diversi e sperimentali dimostrano l'efficacia e l'efficienza dei nostri metodi. Alta regressione non parametrica tridimensionale è un problema di per sé difficile con noti limiti inferiori a seconda esponenzialmente nelle dimensioni. Una strategia popolare per alleviare questa maledizione della dimensionalità è stata quella di utilizzare modelli additivi di emph, che modella la funzione di regressione come una somma di funzioni indipendenti su ogni dimensione. Sebbene utile per controllare la varianza della stima, tali modelli sono spesso troppo restrittivo regolazioni pratiche. Tra i modelli non additivi che spesso hanno grande varianza e modelli di primo ordine additivi che hanno grandi pregiudizi, c'è stato poco lavoro per sfruttare il trade-off nel mezzo tramite modelli additivi di ordine intermedio. In questo lavoro, vi proponiamo la salsa, che colma questa lacuna, consentendo interazioni tra variabili, ma controlla la capacità del modello limitando l'ordine delle interazioni. salse minimizza la somma dei quadrati dei residui con squadrati sanzioni norma RKHS. Algoritmicamente, esso può essere visto come Kernel Ridge Regression con un kernel additiva. Quando la funzione di regressione è additivo, l'eccesso di rischio è polinomiale solo in quota. Utilizzando le formule Girard-Newton, abbiamo efficientemente somma su un certo numero di termini combinatoria nell'espansione additiva. Tramite un confronto su 15 set di dati reali, dimostriamo che il nostro metodo è competitivo nei confronti di 21 altre alternative. Vi proponiamo una estensione ai processi Hawkes trattando i livelli di auto-eccitazione come una equazione differenziale stocastica. Il nostro nuovo processo di punto consente una migliore approssimazione in domini applicativi dove gli eventi e le intensità accelerano l'un l'altro con i livelli correlati di contagio. Generalizziamo un recente algoritmo per simulare attinge dai processi Hawkes i cui livelli di eccitazione sono processi stocastici, e proponiamo un ibrido catena di Markov approccio Monte Carlo per il modello adatto. La nostra procedura di campionamento scala linearmente con il numero di eventi richiesta e non richiede stazionarietà del processo di punto. Una procedura di inferenza modulare costituito da una combinazione tra i passaggi di Gibbs e Metropolis Hastings è messo in avanti. Recuperiamo aspettativa massimizzazione come un caso speciale. Il nostro approccio generale è illustrato per contagio a seguito moto browniano geometrico e la dinamica di Langevin esponenziali. sistemi Classifica aggregazione raccolgono le preferenze ordinali da individui per produrre una classifica globale che rappresenta la preferenza sociale. Per ridurre la complessità computazionale di apprendimento della classifica globale, una pratica comune è quella di utilizzare rango-rottura. preferenze individuali sono suddivisi in confronti a coppie e poi applicati ad algoritmi efficienti su misura per confronti a coppie indipendenti. Tuttavia, a causa delle dipendenze ignorate, ingenui approcci rango di rottura può portare a stime inconsistenti. L'idea chiave per produrre stime imparziali e accurate è quello di trattare i confronti a coppie esiti diseguale, a seconda della topologia dei dati raccolti. In questo lavoro, forniamo lo stimatore rango di rottura ottimale, che non solo raggiunge la consistenza, ma raggiunge anche il miglior error_bound. Questo ci permette di caratterizzare il compromesso fondamentale tra la precisione e la complessità in alcuni scenari canonici. Inoltre, ci identifichiamo come la precisione dipende dal gap spettrale di un corrispondente grafico di confronto. Dropout distillazione Samuel Rota Bul FBK. Lorenzo Porzi FBK. Peter Kontschieder Microsoft Research Cambridge carta AbstractDropout è una tecnica di regolarizzazione stocastico popolare per profonde reti neurali che funziona facendo cadere in modo casuale (cioè azzeramento) unità dalla rete durante l'allenamento. Questo processo di randomizzazione permette di formare implicitamente un insieme di esponenzialmente molte reti che condividono la stessa parametrizzazione, che dovrebbe essere in media al tempo di test per fornire la previsione finale. Una soluzione tipica per questa operazione di media intrattabile consiste nello scalare gli strati sottoposti a randomizzazione abbandono. Questa semplice regola chiamata dropout8217 8216standard è efficiente, ma potrebbe degradare la precisione della previsione. In questo lavoro si introduce un nuovo approccio, coniato 8216dropout distillation8217, che ci permette di formare un predittore in modo da approssimare meglio il processo intrattabile, ma preferibile, in media, mantenendo sotto controllo l'efficienza computazionale. Siamo quindi in grado di costruire modelli che sono efficienti come abbandono di serie, o ancora più efficiente, pur essendo più accurata. Esperimenti su insiemi di dati di benchmark standard di dimostrare la validità del nostro metodo, ottenendo miglioramenti costanti oltre dropout convenzionale. I metadati attenti messaggistica anonima Giulia Fanti UIUC. Peter Kairouz UIUC. Sewoong Oh UIUC. Kannan Ramchandran UC Berkeley. Pramod Viswanath UIUC carta AbstractAnonymous piattaforme di messaggistica come Whisper e Yik Yak permettono agli utenti di diffondere i messaggi su una rete (ad esempio, un social network), senza rivelare il messaggio paternità ad altri utenti. La diffusione di messaggi su queste piattaforme può essere modellato da un processo di diffusione su un grafico. I recenti progressi nella analisi della rete hanno rivelato che tali processi di diffusione sono vulnerabili all'autore deanonymization da avversari con l'accesso ai metadati, come le informazioni di temporizzazione. In questo lavoro, ci poniamo la questione fondamentale di come diffondere messaggi anonimi su un grafico per rendere difficile per gli avversari di dedurre l'origine. In particolare, si studiano le prestazioni di un messaggio di protocollo di propagazione chiamato diffusione adattativa introdotta in (Fanti et al. 2015). Dimostriamo che quando l'avversario ha accesso ai metadati ad una frazione di nodi Grafico danneggiati, diffusione adattivo raggiunge asintoticamente ottimale fonte-nascondiglio e sorpassa in modo significativo la diffusione standard. Dimostriamo inoltre empiricamente che la diffusione di adattamento nasconde la fonte in modo efficace sulle reali social network. La dimensione insegnamento di Linear studenti Ji Liu dell'Università di Rochester. Xiaojin Zhu University of Wisconsin. Hrag Ohannessian University of Wisconsin-Madison dimensione carta AbstractTeaching è una quantità teorica di apprendimento che specifica la dimensione minima fissata formazione per insegnare un modello obiettivo di uno studente. Precedenti studi sulla dimensione insegnamento concentrati su discenti versione-spazio che mantengono tutte le ipotesi in linea con i dati di allenamento, e non possono essere applicati agli studenti delle macchine moderne che selezionano una ipotesi specifica tramite l'ottimizzazione. Questo documento presenta la prima nota dimensione di insegnamento per cresta di regressione, support vector machines, e regressione logistica. Ci mostrano anche set ottimali di formazione che corrispondono a queste dimensioni di insegnamento. Il nostro approccio generalizza ad altri studenti lineari. Veritiero univariata stimatori Ioannis Caragiannis Università di Patrasso. Ariel Procaccia Carnegie Mellon University. Nisarg Shah Carnegie Mellon University di carta AbstractWe rivisitare il classico problema della stima della media della popolazione di una distribuzione unidimensionale sconosciuta da campioni, prendendo un punto di vista della teoria dei giochi. Nel nostro ambiente, i campioni sono forniti da agenti strategici, che desiderano tirare la stima più vicino possibile al proprio valore. In questo contesto, la media del campione dà luogo a opportunità di manipolazione, mentre la mediana del campione non lo fa. La nostra domanda chiave è se la mediana del campione è la migliore (in termini di errore quadratico medio) stimatore veritiera della media della popolazione. Abbiamo dimostrato che quando la distribuzione sottostante è simmetrica, ci sono stimatori veritiere che dominano la mediana. Il nostro risultato principale è la caratterizzazione dei peggiori stimatori veritiere ottimali, che dimostrabilmente sovraperformare il mediano, per le distribuzioni possibilmente asimmetriche con supporto limitato. Perché regolarizzato Auto-Encoder imparare Rappresentazione Sparse Devansh Arpit SUNY Buffalo. Yingbo Zhou SUNY Buffalo. Hung Ngo SUNY Buffalo. Venu Govindaraju SUNY Buffalo Carta AbstractSparse rappresentazione distribuita è la chiave per l'apprendimento caratteristiche utili in algoritmi di apprendimento profonde, perché non solo si tratta di un modo efficiente di rappresentazione dei dati, ma anche 8212 ancora più importante 8212 si coglie il processo di generazione della maggior parte dei dati del mondo reale. Mentre un certo numero di auto-encoder regolarizzati (AE) far rispettare scarsità esplicitamente nella loro rappresentazione imparato e altri don8217t, c'è stata poca analisi formale di ciò che incoraggia scarsità in questi modelli in generale. Il nostro obiettivo è quello di studiare formalmente questo problema generale per auto-encoder regolarizzati. Noi forniamo condizioni sufficienti su entrambe le funzioni di regolarizzazione e di attivazione che incoraggiano scarsità. Abbiamo dimostrato che più modelli popolari (encoder de-noising e contrattive auto, ad esempio) e le attivazioni (lineari e sigma rettificato, per esempio) soddisfano queste condizioni, quindi, le nostre condizioni contribuiscono a spiegare scarsità nella loro rappresentazione imparato. Così la nostra analisi teorica ed empirica insieme messo in luce le proprietà di regularizationactivation che sono conduttivo per scarsità e unificare una serie di modelli di auto-encoder esistenti e funzioni di attivazione sotto lo stesso quadro di analisi. k-variates: più vantaggi nel k-significa Richard Nock NICTA 038 ANU. Raphael Canyasse Ecole Polytechnique e il Technion. Roksana Boreli Data61. Frank Nielsen Ecole Polytechnique e Sony CS Labs Inc. carta Abstractk-significa semina è diventato uno standard de facto per gli algoritmi di clustering duri. In questo lavoro, il nostro primo contributo è un doppio senso generalizzazione di questo semina, k-variates, che comprende il campionamento di densità generali e non solo un insieme discreto di densità Dirac ancorati alle posizioni dei punti, textit una generalizzazione del ben noto Arthur-Vassilvitskii (AV) garanzia approssimazione, in forma di una approssimazione textit vincolato del optimum textit. Questa approssimazione presenta una dipendenza ridotta sul componente 8220noise8221 rispetto al potenziale ottimale 8212 effettivamente avvicina la statistica limite inferiore. Abbiamo dimostrato che k-variates textit di efficienti algoritmi (semina polarizzato) di clustering su misura per i quadri specifici questi includono distribuito, lo streaming e il clustering on-line, con textit risultati di approssimazione per questi algoritmi. Infine, vi presentiamo una nuova applicazione di k-variates al differenziale privacy. Per entrambi i quadri specifici considerati qui, o per l'impostazione della privacy differenziale, c'è poco o nessun risultato precedenti sull'applicazione diretta di k-means e dei suoi limiti di approssimazione 8212 stato dei contendenti d'arte sembra essere significativamente più complesso e o visualizzare meno favorevoli (approssimazione) proprietà. Sottolineiamo che i nostri algoritmi possono ancora essere eseguiti nei casi in cui vi è textit soluzione in forma chiusa per il Minimizer popolazione. Dimostriamo l'applicabilità della nostra analisi tramite valutazione sperimentale su diversi domini e le impostazioni, la visualizzazione di prestazioni competitive contro lo stato dell'arte. Multi-Player Bandits 8212 un Musical Chairs Approccio Jonathan Rosenski Weizmann Institute of Science. Ohad Shamir Weizmann Institute of Science. Liran Szlak Weizmann Institute of Science di carta AbstractWe prendere in considerazione una variante del stocastico problema multi-armed bandit, in cui più giocatori contemporaneamente scegliere tra lo stesso set di armi e possono entrare in collisione, ricevendo alcuna ricompensa. Questa impostazione è stata motivata da problemi derivanti in reti radio cognitive, ed è particolarmente impegnativo sotto l'ipotesi realistica che la comunicazione tra i giocatori è limitato. Forniamo un algoritmo senza comunicazione (Musical Chairs), che raggiunge rimpianto costante con elevata probabilità, così come un sublineare-rimpianto, l'algoritmo senza comunicazione (Musical Chairs dinamici) per l'impostazione più difficile di giocatori che entrano in modo dinamico e in uscita nel corso del gioco . Inoltre, entrambi gli algoritmi non richiedono preventiva conoscenza del numero di giocatori. Per quanto a nostra conoscenza, questi sono i primi algoritmi privi di comunicazione con questi tipi di garanzie formali. Il Greg Ver Steeg Istituto Informazioni Sieve Information Sciences. Aram Galstyan Information Sciences Institute carta AbstractWe introdurre un nuovo quadro per l'apprendimento non supervisionato delle rappresentazioni basate su un romanzo di decomposizione gerarchica delle informazioni. Intuitivamente, i dati viene fatta passare attraverso una serie di setacci progressivamente a grana fine. Ogni strato del setaccio recupera un singolo fattore latente che è massimamente informativo sulla dipendenza multivariata nei dati. I dati vengono trasformati dopo ogni passaggio in modo che le informazioni rimanenti inspiegabile scivola fino allo strato successivo. In definitiva, ci ritroviamo con una serie di fattori latenti che spiegano tutto la dipendenza nelle informazioni di dati e il resto originale costituito da rumore indipendente. Vi presentiamo una applicazione pratica di questo quadro di riferimento per le variabili discrete e applicarla a una varietà di compiti fondamentali in apprendimento non supervisionato compresa un'analisi indipendente dei componenti, con perdita di dati e la compressione lossless, e prevedere valori mancanti nei dati. Discorso profonda 2. end-to-end di riconoscimento vocale in inglese e mandarino Dario Amodei. Rishita Anubhai. Eric Battenberg. Caso Carl. Jared Casper. Bryan Catanzaro. Jingdong Chen. Mike Chrzanowski Baidu USA, Inc.. Adam Coates. Greg Diamos Baidu USA, Inc.. Erich Elsen Baidu USA, Inc.. Jesse Engel. Linxi Fan. Christopher Fougner. Awni Hannun Baidu USA, Inc.. Billy giugno Tony Han. Patrick LeGresley. Xiangang Li Baidu. Libby Lin. Sharan Narang. Andrew Ng. Sherjil Ozair. Ryan Prenger. Sheng Qian Baidu. Jonathan Raiman. Sanjeev Satheesh Baidu SVAIL. David Seetapun. Shubho Sengupta. Chong Wang. Yi Wang. Zhiqian Wang. Bo Xiao. Yan Xie Baidu. Dani Yogatama. Giugno Zhan. Zhenyao Zhu carta AbstractWe mostrano che un approccio di apprendimento profondo end-to-end può essere utilizzato per riconoscere l'inglese o il Cinese Mandarino speechtwo molto diverse lingue. Perché sostituisce intere pipeline di componenti ingegnerizzati a mano con reti neurali, end-to-end di apprendimento ci permette di gestire una diversa varietà di discorso tra cui ambienti rumorosi, accenti e lingue diverse. Chiave del nostro approccio è la nostra applicazione di tecniche di HPC, permettendo esperimenti che in precedenza sono volute settimane per eseguire ora in giorni. Questo ci permette di iterare più rapidamente per identificare le architetture e algoritmi superiori. Di conseguenza, in molti casi, il nostro sistema è competitivo con la trascrizione dei lavoratori umani quando indicizzata sul set di dati standard. Infine, utilizzando una tecnica chiamata batch spedizione con le GPU nel data center, dimostriamo che il nostro sistema può essere a buon mercato distribuito in un ambiente on-line, offrendo una bassa latenza quando servono gli utenti su larga scala. Una questione importante nella scelta caratteristica è se una strategia di selezione recupera il 8220true8221 set di funzionalità, dato abbastanza dati. Studiamo questa domanda nel contesto del popolare strategia di selezione funzione Least assoluto ritiro e la selezione dell'operatore (Lasso). In particolare, consideriamo lo scenario quando il modello è misspecified in modo che il modello imparato è lineare, mentre l'obiettivo reale di fondo è non lineare. Sorprendentemente, dimostriamo che in determinate condizioni, Lasso è ancora in grado di recuperare le caratteristiche corrette in questo caso. Effettuiamo anche studi numerici per verificare empiricamente i risultati teorici ed esplorare la necessità delle condizioni in cui la prova detiene. Proponiamo di ricerca minimo rimpianto (MRS), una funzione di acquisizione romanzo per l'ottimizzazione bayesiana. MRS porta somiglianze con approcci teorici di informazione come la ricerca entropia (ES). Tuttavia, mentre ES mira in ogni query a massimizzare il guadagno informazioni rispetto alla massima globale, MRS mira a minimizzare il semplice rimpianto atteso della raccomandazione finale per l'ottimale. Mentre empiricamente ES e MRS eseguire simile nella maggior parte dei casi, MRS produce meno aberranti con alta rammarico semplice di ES. Forniamo risultati empirici, sia per un prodotto sintetico single-task problema di ottimizzazione, così come per un multi-task problema di controllo robotico simulato. CryptoNets: Applicazione Reti Neurali ai dati crittografati con High Throughput e precisione Ran Gilad-Bachrach Microsoft Research. Nathan Dowlin Princeton. Kim Laine Microsoft Research. Kristin Lauter Microsoft Research. Michael Naehrig Microsoft Research. machine learning John Wernsing Microsoft Research Paper AbstractApplying di un problema che coinvolge medici, finanziari, o altri tipi di dati sensibili, non richiede solo previsioni accurate, ma anche grande attenzione a mantenere la privacy e la sicurezza dei dati. I requisiti legali ed etici possono impedire l'uso di soluzioni cloud-based di apprendimento automatico per tali compiti. In questo lavoro, presenteremo un metodo per convertire le reti neurali imparato a CryptoNets, reti neurali che possono essere applicati ai dati crittografati. Questo consente al proprietario di dati per inviare i propri dati in forma crittografata a un servizio cloud che ospita la rete. La crittografia assicura che i dati rimangono confidenziali in quanto la nube non ha accesso alle chiavi necessarie per decifrarlo. Tuttavia, ci dimostrano che il servizio cloud è in grado di applicare la rete neurale ai dati crittografati per fare previsioni crittografati, e anche restituirli in forma criptata. Queste previsioni crittografati possono essere inviati al proprietario della chiave segreta che li può decifrare. Pertanto, il servizio cloud non guadagna alcuna informazione sui dati grezzi né per la previsione fatta. Dimostriamo CryptoNets sui compiti riconoscimento ottico dei caratteri MNIST. CryptoNets raggiungono 99 precisione e può fare di tutto 59000 previsioni all'ora su un unico PC. Pertanto, essi consentono un elevato throughput, accurate, e le previsioni private. metodi spettrali per la riduzione della dimensionalità e clustering richiedono risolvere un eigenproblem definita da una matrice di affinità sparse. Quando questa matrice è di grandi dimensioni, si cerca una soluzione approssimata. Il metodo standard per fare questo è il metodo Nystrom, che per primo risolve un piccolo eigenproblem considerando solo un sottoinsieme di punti di punto di riferimento, e quindi si applica una formula out-of-sample per estrapolare la soluzione per l'intero set di dati. Abbiamo dimostrato che limitando il problema originale per soddisfare la formula Nystrom, otteniamo un'approssimazione che è computazionalmente semplice ed efficace, ma raggiunge un errore di approssimazione inferiore utilizzando un minor numero di punti di riferimento e meno tempo di esecuzione. Studiamo anche il ruolo di normalizzazione nel costo computazionale e qualità della soluzione risultante. Come attivazione non lineare ampiamente utilizzato, rettificati unità lineare (Relu) separa il rumore e il segnale in una mappa caratteristica imparando una soglia o di parzialità. Tuttavia, riteniamo che la classificazione di rumore e segnale non dipende solo dalla entità delle risposte, ma anche il contesto di come le funzionalità risposte verranno utilizzati per rilevare più modelli astratti a livelli più alti. Al fine di uscita più mappe di risposta con magnitudo in diverse categorie per un particolare schema visivo, le reti esistenti che impiegano Relu e le sue varianti devono imparare un gran numero di filtri ridondanti. In questo articolo, vi proponiamo l'attivazione non lineare multi-polarizzazione (MBA) strato di esplorare le informazioni nascoste nelle grandezze di risposte. Si trova dopo lo strato convoluzione di separare le risposte a un nucleo di convoluzione in più mappe di grandezze multi-thresholding, generando così più modelli nello spazio di funzioni a un costo computazionale basso. Esso fornisce una grande flessibilità di selezionare le risposte ai diversi modelli visivi in ​​diverse categorie di grandezza a formare rappresentazioni ricche di livelli superiori. Tale schema semplice ma efficace raggiunge la performance state-of-the-art su diversi parametri di riferimento. Noi proponiamo un metodo di apprendimento multi-task romanzo che può ridurre al minimo l'effetto di trasferimento negativo, consentendo il trasferimento asimmetrica tra le attività basate sul compito parentela, nonché l'importo delle singole perdite compito, che ci riferiamo come asimmetrica multi-compito di apprendimento (AMTL ). Per affrontare questo problema, abbiamo paio di più attività tramite una rada, grafico di regolarizzazione diretto, che impone ogni parametro compito di ricostruire come una combinazione rada di altri compiti, che vengono selezionati in base alla perdita di task-saggio. Presentiamo due diversi algoritmi per risolvere questo apprendimento congiunto dei fattori predittivi di attività e il grafico regolarizzazione. Il primo algoritmo risolve per l'obiettivo di apprendimento originale utilizzando ottimizzazione alternativa, ed il secondo algoritmo risolve un'approssimazione usando strategia di apprendimento programma, che apprende un compito alla volta. Eseguiamo esperimenti su più set di dati per la classificazione e la regressione, su cui si ottengono miglioramenti significativi nelle prestazioni oltre l'apprendimento compito singolo e simmetriche linee di base di apprendimento multitask. Questo documento illustra un nuovo approccio per la stima di errore di generalizzazione dei classificatori albero decisione. Abbiamo impostato lo studio di errori albero decisione nell'ambito della teoria analisi consistenza, che ha dimostrato che l'errore Bayes può essere raggiunto solo se quando il numero di campioni di dati gettato in ciascun nodo foglia va all'infinito. Per il caso più impegnativo e pratico in cui la dimensione del campione è finita o piccolo, un termine di errore di campionamento romanzo viene introdotta in questo lavoro per far fronte al problema piccolo campione efficace ed efficiente. Extensive experimental results show that the proposed error estimate is superior to the well known K-fold cross validation methods in terms of robustness and accuracy. Moreover it is orders of magnitudes more efficient than cross validation methods. We study the convergence properties of the VR-PCA algorithm introduced by cite for fast computation of leading singular vectors. We prove several new results, including a formal analysis of a block version of the algorithm, and convergence from random initialization. We also make a few observations of independent interest, such as how pre-initializing with just a single exact power iteration can significantly improve the analysis, and what are the convexity and non-convexity properties of the underlying optimization problem. We consider the problem of principal component analysis (PCA) in a streaming stochastic setting, where our goal is to find a direction of approximate maximal variance, based on a stream of i. i.d. data points in realsd. A simple and computationally cheap algorithm for this is stochastic gradient descent (SGD), which incrementally updates its estimate based on each new data point. However, due to the non-convex nature of the problem, analyzing its performance has been a challenge. In particular, existing guarantees rely on a non-trivial eigengap assumption on the covariance matrix, which is intuitively unnecessary. In this paper, we provide (to the best of our knowledge) the first eigengap-free convergence guarantees for SGD in the context of PCA. This also partially resolves an open problem posed in cite . Moreover, under an eigengap assumption, we show that the same techniques lead to new SGD convergence guarantees with better dependence on the eigengap. Dealbreaker: A Nonlinear Latent Variable Model for Educational Data Andrew Lan Rice University . Tom Goldstein University of Maryland . Richard Baraniuk Rice University . Christoph Studer Cornell University Paper AbstractStatistical models of student responses on assessment questions, such as those in homeworks and exams, enable educators and computer-based personalized learning systems to gain insights into students knowledge using machine learning. Popular student-response models, including the Rasch model and item response theory models, represent the probability of a student answering a question correctly using an affine function of latent factors. While such models can accurately predict student responses, their ability to interpret the underlying knowledge structure (which is certainly nonlinear) is limited. In response, we develop a new, nonlinear latent variable model that we call the dealbreaker model, in which a students success probability is determined by their weakest concept mastery. We develop efficient parameter inference algorithms for this model using novel methods for nonconvex optimization. We show that the dealbreaker model achieves comparable or better prediction performance as compared to affine models with real-world educational datasets. We further demonstrate that the parameters learned by the dealbreaker model are interpretablethey provide key insights into which concepts are critical (i. e. the dealbreaker) to answering a question correctly. We conclude by reporting preliminary results for a movie-rating dataset, which illustrate the broader applicability of the dealbreaker model. We derive a new discrepancy statistic for measuring differences between two probability distributions based on combining Stein8217s identity and the reproducing kernel Hilbert space theory. We apply our result to test how well a probabilistic model fits a set of observations, and derive a new class of powerful goodness-of-fit tests that are widely applicable for complex and high dimensional distributions, even for those with computationally intractable normalization constants. Both theoretical and empirical properties of our methods are studied thoroughly. Variable Elimination in the Fourier Domain Yexiang Xue Cornell University . Stefano Ermon . Ronan Le Bras Cornell University . Carla . Bart Paper AbstractThe ability to represent complex high dimensional probability distributions in a compact form is one of the key insights in the field of graphical models. Factored representations are ubiquitous in machine learning and lead to major computational advantages. We explore a different type of compact representation based on discrete Fourier representations, complementing the classical approach based on conditional independencies. We show that a large class of probabilistic graphical models have a compact Fourier representation. This theoretical result opens up an entirely new way of approximating a probability distribution. We demonstrate the significance of this approach by applying it to the variable elimination algorithm. Compared with the traditional bucket representation and other approximate inference algorithms, we obtain significant improvements. Low-rank matrix approximation has been widely adopted in machine learning applications with sparse data, such as recommender systems. However, the sparsity of the data, incomplete and noisy, introduces challenges to the algorithm stability 8212 small changes in the training data may significantly change the models. As a result, existing low-rank matrix approximation solutions yield low generalization performance, exhibiting high error variance on the training dataset, and minimizing the training error may not guarantee error reduction on the testing dataset. In this paper, we investigate the algorithm stability problem of low-rank matrix approximations. We present a new algorithm design framework, which (1) introduces new optimization objectives to guide stable matrix approximation algorithm design, and (2) solves the optimization problem to obtain stable low-rank approximation solutions with good generalization performance. Experimental results on real-world datasets demonstrate that the proposed work can achieve better prediction accuracy compared with both state-of-the-art low-rank matrix approximation methods and ensemble methods in recommendation task. Given samples from two densities p and q, density ratio estimation (DRE) is the problem of estimating the ratio pq. Two popular discriminative approaches to DRE are KL importance estimation (KLIEP), and least squares importance fitting (LSIF). In this paper, we show that KLIEP and LSIF both employ class-probability estimation (CPE) losses. Motivated by this, we formally relate DRE and CPE, and demonstrate the viability of using existing losses from one problem for the other. For the DRE problem, we show that essentially any CPE loss (eg logistic, exponential) can be used, as this equivalently minimises a Bregman divergence to the true density ratio. We show how different losses focus on accurately modelling different ranges of the density ratio, and use this to design new CPE losses for DRE. For the CPE problem, we argue that the LSIF loss is useful in the regime where one wishes to rank instances with maximal accuracy at the head of the ranking. In the course of our analysis, we establish a Bregman divergence identity that may be of independent interest. We study nonconvex finite-sum problems and analyze stochastic variance reduced gradient (SVRG) methods for them. SVRG and related methods have recently surged into prominence for convex optimization given their edge over stochastic gradient descent (SGD) but their theoretical analysis almost exclusively assumes convexity. In contrast, we prove non-asymptotic rates of convergence (to stationary points) of SVRG for nonconvex optimization, and show that it is provably faster than SGD and gradient descent. We also analyze a subclass of nonconvex problems on which SVRG attains linear convergence to the global optimum. We extend our analysis to mini-batch variants of SVRG, showing (theoretical) linear speedup due to minibatching in parallel settings. Hierarchical Variational Models Rajesh Ranganath . Dustin Tran Columbia University . Blei David Columbia Paper AbstractBlack box variational inference allows researchers to easily prototype and evaluate an array of models. Recent advances allow such algorithms to scale to high dimensions. However, a central question remains: How to specify an expressive variational distribution that maintains efficient computation To address this, we develop hierarchical variational models (HVMs). HVMs augment a variational approximation with a prior on its parameters, which allows it to capture complex structure for both discrete and continuous latent variables. The algorithm we develop is black box, can be used for any HVM, and has the same computational efficiency as the original approximation. We study HVMs on a variety of deep discrete latent variable models. HVMs generalize other expressive variational distributions and maintains higher fidelity to the posterior. The field of mobile health (mHealth) has the potential to yield new insights into health and behavior through the analysis of continuously recorded data from wearable health and activity sensors. In this paper, we present a hierarchical span-based conditional random field model for the key problem of jointly detecting discrete events in such sensor data streams and segmenting these events into high-level activity sessions. Our model includes higher-order cardinality factors and inter-event duration factors to capture domain-specific structure in the label space. We show that our model supports exact MAP inference in quadratic time via dynamic programming, which we leverage to perform learning in the structured support vector machine framework. We apply the model to the problems of smoking and eating detection using four real data sets. Our results show statistically significant improvements in segmentation performance relative to a hierarchical pairwise CRF. Binary embeddings with structured hashed projections Anna Choromanska Courant Institute, NYU . Krzysztof Choromanski Google Research NYC . Mariusz Bojarski NVIDIA . Tony Jebara Columbia . Sanjiv Kumar . Yann Paper AbstractWe consider the hashing mechanism for constructing binary embeddings, that involves pseudo-random projections followed by nonlinear (sign function) mappings. The pseudorandom projection is described by a matrix, where not all entries are independent random variables but instead a fixed budget of randomness is distributed across the matrix. Such matrices can be efficiently stored in sub-quadratic or even linear space, provide reduction in randomness usage (i. e. number of required random values), and very often lead to computational speed ups. We prove several theoretical results showing that projections via various structured matrices followed by nonlinear mappings accurately preserve the angular distance between input high-dimensional vectors. To the best of our knowledge, these results are the first that give theoretical ground for the use of general structured matrices in the nonlinear setting. In particular, they generalize previous extensions of the Johnson - Lindenstrauss lemma and prove the plausibility of the approach that was so far only heuristically confirmed for some special structured matrices. Consequently, we show that many structured matrices can be used as an efficient information compression mechanism. Our findings build a better understanding of certain deep architectures, which contain randomly weighted and untrained layers, and yet achieve high performance on different learning tasks. We empirically verify our theoretical findings and show the dependence of learning via structured hashed projections on the performance of neural network as well as nearest neighbor classifier. A Variational Analysis of Stochastic Gradient Algorithms Stephan Mandt Columbia University . Matthew Hoffman Adobe Research . Blei David Columbia Paper AbstractStochastic Gradient Descent (SGD) is an important algorithm in machine learning. With constant learning rates, it is a stochastic process that, after an initial phase of convergence, generates samples from a stationary distribution. We show that SGD with constant rates can be effectively used as an approximate posterior inference algorithm for probabilistic modeling. Specifically, we show how to adjust the tuning parameters of SGD such as to match the resulting stationary distribution to the posterior. This analysis rests on interpreting SGD as a continuous-time stochastic process and then minimizing the Kullback-Leibler divergence between its stationary distribution and the target posterior. (This is in the spirit of variational inference.) In more detail, we model SGD as a multivariate Ornstein-Uhlenbeck process and then use properties of this process to derive the optimal parameters. This theoretical framework also connects SGD to modern scalable inference algorithms we analyze the recently proposed stochastic gradient Fisher scoring under this perspective. We demonstrate that SGD with properly chosen constant rates gives a new way to optimize hyperparameters in probabilistic models. This paper proposes a new mechanism for sampling training instances for stochastic gradient descent (SGD) methods by exploiting any side-information associated with the instances (for e. g. class-labels) to improve convergence. Previous methods have either relied on sampling from a distribution defined over training instances or from a static distribution that fixed before training. This results in two problems a) any distribution that is set apriori is independent of how the optimization progresses and b) maintaining a distribution over individual instances could be infeasible in large-scale scenarios. In this paper, we exploit the side information associated with the instances to tackle both problems. More specifically, we maintain a distribution over classes (instead of individual instances) that is adaptively estimated during the course of optimization to give the maximum reduction in the variance of the gradient. Intuitively, we sample more from those regions in space that have a textit gradient contribution. Our experiments on highly multiclass datasets show that our proposal converge significantly faster than existing techniques. Tensor regression has shown to be advantageous in learning tasks with multi-directional relatedness. Given massive multiway data, traditional methods are often too slow to operate on or suffer from memory bottleneck. In this paper, we introduce subsampled tensor projected gradient to solve the problem. Our algorithm is impressively simple and efficient. It is built upon projected gradient method with fast tensor power iterations, leveraging randomized sketching for further acceleration. Theoretical analysis shows that our algorithm converges to the correct solution in fixed number of iterations. The memory requirement grows linearly with the size of the problem. We demonstrate superior empirical performance on both multi-linear multi-task learning and spatio-temporal applications. This paper presents a novel distributed variational inference framework that unifies many parallel sparse Gaussian process regression (SGPR) models for scalable hyperparameter learning with big data. To achieve this, our framework exploits a structure of correlated noise process model that represents the observation noises as a finite realization of a high-order Gaussian Markov random process. By varying the Markov order and covariance function for the noise process model, different variational SGPR models result. This consequently allows the correlation structure of the noise process model to be characterized for which a particular variational SGPR model is optimal. We empirically evaluate the predictive performance and scalability of the distributed variational SGPR models unified by our framework on two real-world datasets. Online Stochastic Linear Optimization under One-bit Feedback Lijun Zhang Nanjing University . Tianbao Yang University of Iowa . Rong Jin Alibaba Group . Yichi Xiao Nanjing University . Zhi-hua Zhou Paper AbstractIn this paper, we study a special bandit setting of online stochastic linear optimization, where only one-bit of information is revealed to the learner at each round. This problem has found many applications including online advertisement and online recommendation. We assume the binary feedback is a random variable generated from the logit model, and aim to minimize the regret defined by the unknown linear function. Although the existing method for generalized linear bandit can be applied to our problem, the high computational cost makes it impractical for real-world applications. To address this challenge, we develop an efficient online learning algorithm by exploiting particular structures of the observation model. Specifically, we adopt online Newton step to estimate the unknown parameter and derive a tight confidence region based on the exponential concavity of the logistic loss. Our analysis shows that the proposed algorithm achieves a regret bound of O(dsqrt ), which matches the optimal result of stochastic linear bandits. We present an adaptive online gradient descent algorithm to solve online convex optimization problems with long-term constraints, which are constraints that need to be satisfied when accumulated over a finite number of rounds T, but can be violated in intermediate rounds. For some user-defined trade-off parameter beta in (0, 1), the proposed algorithm achieves cumulative regret bounds of O(Tmax ) and O(T ), respectively for the loss and the constraint violations. Our results hold for convex losses, can handle arbitrary convex constraints and rely on a single computationally efficient algorithm. Our contributions improve over the best known cumulative regret bounds of Mahdavi et al. (2012), which are respectively O(T12) and O(T34) for general convex domains, and respectively O(T23) and O(T23) when the domain is further restricted to be a polyhedral set. We supplement the analysis with experiments validating the performance of our algorithm in practice. Motivated by an application of eliciting users8217 preferences, we investigate the problem of learning hemimetrics, i. e. pairwise distances among a set of n items that satisfy triangle inequalities and non-negativity constraints. In our application, the (asymmetric) distances quantify private costs a user incurs when substituting one item by another. We aim to learn these distances (costs) by asking the users whether they are willing to switch from one item to another for a given incentive offer. Without exploiting structural constraints of the hemimetric polytope, learning the distances between each pair of items requires Theta(n2) queries. We propose an active learning algorithm that substantially reduces this sample complexity by exploiting the structural constraints on the version space of hemimetrics. Our proposed algorithm achieves provably-optimal sample complexity for various instances of the task. For example, when the items are embedded into K tight clusters, the sample complexity of our algorithm reduces to O(n K). Extensive experiments on a restaurant recommendation data set support the conclusions of our theoretical analysis. We present an approach for learning simple algorithms such as copying, multi-digit addition and single digit multiplication directly from examples. Our framework consists of a set of interfaces, accessed by a controller. Typical interfaces are 1-D tapes or 2-D grids that hold the input and output data. For the controller, we explore a range of neural network-based models which vary in their ability to abstract the underlying algorithm from training instances and generalize to test examples with many thousands of digits. The controller is trained using Q-learning with several enhancements and we show that the bottleneck is in the capabilities of the controller rather than in the search incurred by Q-learning. Learning Physical Intuition of Block Towers by Example Adam Lerer Facebook AI Research . Sam Gross Facebook AI Research . Rob Fergus Facebook AI Research Paper AbstractWooden blocks are a common toy for infants, allowing them to develop motor skills and gain intuition about the physical behavior of the world. In this paper, we explore the ability of deep feed-forward models to learn such intuitive physics. Using a 3D game engine, we create small towers of wooden blocks whose stability is randomized and render them collapsing (or remaining upright). This data allows us to train large convolutional network models which can accurately predict the outcome, as well as estimating the trajectories of the blocks. The models are also able to generalize in two important ways: (i) to new physical scenarios, e. g. towers with an additional block and (ii) to images of real wooden blocks, where it obtains a performance comparable to human subjects. Structure Learning of Partitioned Markov Networks Song Liu The Inst. of Stats. Math. . Taiji Suzuki . Masashi Sugiyama University of Tokyo . Kenji Fukumizu The Institute of Statistical Mathematics Paper AbstractWe learn the structure of a Markov Network between two groups of random variables from joint observations. Since modelling and learning the full MN structure may be hard, learning the links between two groups directly may be a preferable option. We introduce a novel concept called the emph whose factorization directly associates with the Markovian properties of random variables across two groups. A simple one-shot convex optimization procedure is proposed for learning the emph factorizations of the partitioned ratio and it is theoretically guaranteed to recover the correct inter-group structure under mild conditions. The performance of the proposed method is experimentally compared with the state of the art MN structure learning methods using ROC curves. Real applications on analyzing bipartisanship in US congress and pairwise DNAtime-series alignments are also reported. This work focuses on dynamic regret of online convex optimization that compares the performance of online learning to a clairvoyant who knows the sequence of loss functions in advance and hence selects the minimizer of the loss function at each step. By assuming that the clairvoyant moves slowly (i. e. the minimizers change slowly), we present several improved variation-based upper bounds of the dynamic regret under the true and noisy gradient feedback, which are in light of the presented lower bounds. The key to our analysis is to explore a regularity metric that measures the temporal changes in the clairvoyant8217s minimizers, to which we refer as path variation. Firstly, we present a general lower bound in terms of the path variation, and then show that under full information or gradient feedback we are able to achieve an optimal dynamic regret. Secondly, we present a lower bound with noisy gradient feedback and then show that we can achieve optimal dynamic regrets under a stochastic gradient feedback and two-point bandit feedback. Moreover, for a sequence of smooth loss functions that admit a small variation in the gradients, our dynamic regret under the two-point bandit feedback matches that is achieved with full information. Beyond CCA: Moment Matching for Multi-View Models Anastasia Podosinnikova INRIA 8211 ENS . Francis Bach Inria . Simon Lacoste-Julien INRIA Paper AbstractWe introduce three novel semi-parametric extensions of probabilistic canonical correlation analysis with identifiability guarantees. We consider moment matching techniques for estimation in these models. For that, by drawing explicit links between the new models and a discrete version of independent component analysis (DICA), we first extend the DICA cumulant tensors to the new discrete version of CCA. By further using a close connection with independent component analysis, we introduce generalized covariance matrices, which can replace the cumulant tensors in the moment matching framework, and, therefore, improve sample complexity and simplify derivations and algorithms significantly. As the tensor power method or orthogonal joint diagonalization are not applicable in the new setting, we use non-orthogonal joint diagonalization techniques for matching the cumulants. We demonstrate performance of the proposed models and estimation techniques on experiments with both synthetic and real datasets. We present two computationally inexpensive techniques for estimating the numerical rank of a matrix, combining powerful tools from computational linear algebra. These techniques exploit three key ingredients. The first is to approximate the projector on the non-null invariant subspace of the matrix by using a polynomial filter. Two types of filters are discussed, one based on Hermite interpolation and the other based on Chebyshev expansions. The second ingredient employs stochastic trace estimators to compute the rank of this wanted eigen-projector, which yields the desired rank of the matrix. In order to obtain a good filter, it is necessary to detect a gap between the eigenvalues that correspond to noise and the relevant eigenvalues that correspond to the non-null invariant subspace. The third ingredient of the proposed approaches exploits the idea of spectral density, popular in physics, and the Lanczos spectroscopic method to locate this gap. Unsupervised Deep Embedding for Clustering Analysis Junyuan Xie University of Washington . Ross Girshick Facebook . Ali Farhadi University of Washington Paper AbstractClustering is central to many data-driven application domains and has been studied extensively in terms of distance functions and grouping algorithms. Relatively little work has focused on learning representations for clustering. In this paper, we propose Deep Embedded Clustering (DEC), a method that simultaneously learns feature representations and cluster assignments using deep neural networks. DEC learns a mapping from the data space to a lower-dimensional feature space in which it iteratively optimizes a clustering objective. Our experimental evaluations on image and text corpora show significant improvement over state-of-the-art methods. Dimensionality reduction is a popular approach for dealing with high dimensional data that leads to substantial computational savings. Random projections are a simple and effective method for universal dimensionality reduction with rigorous theoretical guarantees. In this paper, we theoretically study the problem of differentially private empirical risk minimization in the projected subspace (compressed domain). Empirical risk minimization (ERM) is a fundamental technique in statistical machine learning that forms the basis for various learning algorithms. Starting from the results of Chaudhuri et al. (NIPS 2009, JMLR 2011), there is a long line of work in designing differentially private algorithms for empirical risk minimization problems that operate in the original data space. We ask: is it possible to design differentially private algorithms with small excess risk given access to only projected data In this paper, we answer this question in affirmative, by showing that for the class of generalized linear functions, we can obtain excess risk bounds of O(w(Theta) n ) under eps-differential privacy, and O((w(Theta)n) ) under (eps, delta)-differential privacy, given only the projected data and the projection matrix. Here n is the sample size and w(Theta) is the Gaussian width of the parameter space that we optimize over. Our strategy is based on adding noise for privacy in the projected subspace and then lifting the solution to original space by using high-dimensional estimation techniques. A simple consequence of these results is that, for a large class of ERM problems, in the traditional setting (i. e. with access to the original data), under eps-differential privacy, we improve the worst-case risk bounds of Bassily et al. (FOCS 2014). We consider the maximum likelihood parameter estimation problem for a generalized Thurstone choice model, where choices are from comparison sets of two or more items. We provide tight characterizations of the mean square error, as well as necessary and sufficient conditions for correct classification when each item belongs to one of two classes. These results provide insights into how the estimation accuracy depends on the choice of a generalized Thurstone choice model and the structure of comparison sets. We find that for a priori unbiased structures of comparisons, e. g. when comparison sets are drawn independently and uniformly at random, the number of observations needed to achieve a prescribed estimation accuracy depends on the choice of a generalized Thurstone choice model. For a broad set of generalized Thurstone choice models, which includes all popular instances used in practice, the estimation error is shown to be largely insensitive to the cardinality of comparison sets. On the other hand, we found that there exist generalized Thurstone choice models for which the estimation error decreases much faster with the cardinality of comparison sets. Large-Margin Softmax Loss for Convolutional Neural Networks Weiyang Liu Peking University . Yandong Wen South China University of Technology . Zhiding Yu Carnegie Mellon University . Meng Yang Shenzhen University Paper AbstractCross-entropy loss together with softmax is arguably one of the most common used supervision components in convolutional neural networks (CNNs). Despite its simplicity, popularity and excellent performance, the component does not explicitly encourage discriminative learning of features. In this paper, we propose a generalized large-margin softmax (L-Softmax) loss which explicitly encourages intra-class compactness and inter-class separability between learned features. Moreover, L-Softmax not only can adjust the desired margin but also can avoid overfitting. We also show that the L-Softmax loss can be optimized by typical stochastic gradient descent. Extensive experiments on four benchmark datasets demonstrate that the deeply-learned features with L-softmax loss become more discriminative, hence significantly boosting the performance on a variety of visual classification and verification tasks. A Random Matrix Approach to Echo-State Neural Networks Romain Couillet CentraleSupelec . Gilles Wainrib ENS Ulm, Paris, France . Hafiz Tiomoko Ali CentraleSupelec, Gif-sur-Yvette, France . Harry Sevi ENS Lyon, Lyon, Paris Paper AbstractRecurrent neural networks, especially in their linear version, have provided many qualitative insights on their performance under different configurations. This article provides, through a novel random matrix framework, the quantitative counterpart of these performance results, specifically in the case of echo-state networks. Beyond mere insights, our approach conveys a deeper understanding on the core mechanism under play for both training and testing. One-hot CNN (convolutional neural network) has been shown to be effective for text categorization (Johnson 038 Zhang, 2015). We view it as a special case of a general framework which jointly trains a linear model with a non-linear feature generator consisting of text region embedding pooling8217. Under this framework, we explore a more sophisticated region embedding method using Long Short-Term Memory (LSTM). LSTM can embed text regions of variable (and possibly large) sizes, whereas the region size needs to be fixed in a CNN. We seek effective and efficient use of LSTM for this purpose in the supervised and semi-supervised settings. The best results were obtained by combining region embeddings in the form of LSTM and convolution layers trained on unlabeled data. The results indicate that on this task, embeddings of text regions, which can convey complex concepts, are more useful than embeddings of single words in isolation. We report performances exceeding the previous best results on four benchmark datasets. Crowdsourcing systems are popular for solving large-scale labelling tasks with low-paid (or even non-paid) workers. We study the problem of recovering the true labels from noisy crowdsourced labels under the popular Dawid-Skene model. To address this inference problem, several algorithms have recently been proposed, but the best known guarantee is still significantly larger than the fundamental limit. We close this gap under a simple but canonical scenario where each worker is assigned at most two tasks. In particular, we introduce a tighter lower bound on the fundamental limit and prove that Belief Propagation (BP) exactly matches this lower bound. The guaranteed optimality of BP is the strongest in the sense that it is information-theoretically impossible for any other algorithm to correctly la - bel a larger fraction of the tasks. In the general setting, when more than two tasks are assigned to each worker, we establish the dominance result on BP that it outperforms other existing algorithms with known provable guarantees. Experimental results suggest that BP is close to optimal for all regimes considered, while existing state-of-the-art algorithms exhibit suboptimal performances. Learning control has become an appealing alternative to the derivation of control laws based on classic control theory. However, a major shortcoming of learning control is the lack of performance guarantees which prevents its application in many real-world scenarios. As a step in this direction, we provide a stability analysis tool for controllers acting on dynamics represented by Gaussian processes (GPs). We consider arbitrary Markovian control policies and system dynamics given as (i) the mean of a GP, and (ii) the full GP distribution. For the first case, our tool finds a state space region, where the closed-loop system is provably stable. In the second case, it is well known that infinite horizon stability guarantees cannot exist. Instead, our tool analyzes finite time stability. Empirical evaluations on simulated benchmark problems support our theoretical results. Learning a classifier from private data distributed across multiple parties is an important problem that has many potential applications. How can we build an accurate and differentially private global classifier by combining locally-trained classifiers from different parties, without access to any partys private data We propose to transfer the knowledge of the local classifier ensemble by first creating labeled data from auxiliary unlabeled data, and then train a global differentially private classifier. We show that majority voting is too sensitive and therefore propose a new risk weighted by class probabilities estimated from the ensemble. Relative to a non-private solution, our private solution has a generalization error bounded by O(epsilon M ). This allows strong privacy without performance loss when the number of participating parties M is large, such as in crowdsensing applications. We demonstrate the performance of our framework with realistic tasks of activity recognition, network intrusion detection, and malicious URL detection. Network Morphism Tao Wei University at Buffalo . Changhu Wang Microsoft Research . Yong Rui Microsoft Research . Chang Wen Chen Paper AbstractWe present a systematic study on how to morph a well-trained neural network to a new one so that its network function can be completely preserved. We define this as network morphism in this research. After morphing a parent network, the child network is expected to inherit the knowledge from its parent network and also has the potential to continue growing into a more powerful one with much shortened training time. The first requirement for this network morphism is its ability to handle diverse morphing types of networks, including changes of depth, width, kernel size, and even subnet. To meet this requirement, we first introduce the network morphism equations, and then develop novel morphing algorithms for all these morphing types for both classic and convolutional neural networks. The second requirement is its ability to deal with non-linearity in a network. We propose a family of parametric-activation functions to facilitate the morphing of any continuous non-linear activation neurons. Experimental results on benchmark datasets and typical neural networks demonstrate the effectiveness of the proposed network morphism scheme. Second-order optimization methods such as natural gradient descent have the potential to speed up training of neural networks by correcting for the curvature of the loss function. Unfortunately, the exact natural gradient is impractical to compute for large models, and most approximations either require an expensive iterative procedure or make crude approximations to the curvature. We present Kronecker Factors for Convolution (KFC), a tractable approximation to the Fisher matrix for convolutional networks based on a structured probabilistic model for the distribution over backpropagated derivatives. Similarly to the recently proposed Kronecker-Factored Approximate Curvature (K-FAC), each block of the approximate Fisher matrix decomposes as the Kronecker product of small matrices, allowing for efficient inversion. KFC captures important curvature information while still yielding comparably efficient updates to stochastic gradient descent (SGD). We show that the updates are invariant to commonly used reparameterizations, such as centering of the activations. In our experiments, approximate natural gradient descent with KFC was able to train convolutional networks several times faster than carefully tuned SGD. Furthermore, it was able to train the networks in 10-20 times fewer iterations than SGD, suggesting its potential applicability in a distributed setting. Budget constrained optimal design of experiments is a classical problem in statistics. Although the optimal design literature is very mature, few efficient strategies are available when these design problems appear in the context of sparse linear models commonly encountered in high dimensional machine learning and statistics. In this work, we study experimental design for the setting where the underlying regression model is characterized by a ell1-regularized linear function. We propose two novel strategies: the first is motivated geometrically whereas the second is algebraic in nature. We obtain tractable algorithms for this problem and also hold for a more general class of sparse linear models. We perform an extensive set of experiments, on benchmarks and a large multi-site neuroscience study, showing that the proposed models are effective in practice. The latter experiment suggests that these ideas may play a small role in informing enrollment strategies for similar scientific studies in the short-to-medium term future. Minding the Gaps for Block Frank-Wolfe Optimization of Structured SVMs Anton Osokin . Jean-Baptiste Alayrac ENS . Isabella Lukasewitz INRIA . Puneet Dokania INRIA and Ecole Centrale Paris . Simon Lacoste-Julien INRIA Paper AbstractIn this paper, we propose several improvements on the block-coordinate Frank-Wolfe (BCFW) algorithm from Lacoste-Julien et al. (2013) recently used to optimize the structured support vector machine (SSVM) objective in the context of structured prediction, though it has wider applications. The key intuition behind our improvements is that the estimates of block gaps maintained by BCFW reveal the block suboptimality that can be used as an adaptive criterion. First, we sample objects at each iteration of BCFW in an adaptive non-uniform way via gap-based sampling. Second, we incorporate pairwise and away-step variants of Frank-Wolfe into the block-coordinate setting. Third, we cache oracle calls with a cache-hit criterion based on the block gaps. Fourth, we provide the first method to compute an approximate regularization path for SSVM. Finally, we provide an exhaustive empirical evaluation of all our methods on four structured prediction datasets. Exact Exponent in Optimal Rates for Crowdsourcing Chao Gao Yale University . Yu Lu Yale University . Dengyong Zhou Microsoft Research Paper AbstractCrowdsourcing has become a popular tool for labeling large datasets. This paper studies the optimal error rate for aggregating crowdsourced labels provided by a collection of amateur workers. Under the Dawid-Skene probabilistic model, we establish matching upper and lower bounds with an exact exponent mI(pi), where m is the number of workers and I(pi) is the average Chernoff information that characterizes the workers8217 collective ability. Such an exact characterization of the error exponent allows us to state a precise sample size requirement m ge frac logfrac in order to achieve an epsilon misclassification error. In addition, our results imply optimality of various forms of EM algorithms given accurate initializers of the model parameters. Unsupervised learning and supervised learning are key research topics in deep learning. However, as high-capacity supervised neural networks trained with a large amount of labels have achieved remarkable success in many computer vision tasks, the availability of large-scale labeled images reduced the significance of unsupervised learning. Inspired by the recent trend toward revisiting the importance of unsupervised learning, we investigate joint supervised and unsupervised learning in a large-scale setting by augmenting existing neural networks with decoding pathways for reconstruction. First, we demonstrate that the intermediate activations of pretrained large-scale classification networks preserve almost all the information of input images except a portion of local spatial details. Then, by end-to-end training of the entire augmented architecture with the reconstructive objective, we show improvement of the network performance for supervised tasks. We evaluate several variants of autoencoders, including the recently proposed 8220what-where8221 autoencoder that uses the encoder pooling switches, to study the importance of the architecture design. Taking the 16-layer VGGNet trained under the ImageNet ILSVRC 2012 protocol as a strong baseline for image classification, our methods improve the validation-set accuracy by a noticeable margin. (LRR) has been a significant method for segmenting data that are generated from a union of subspaces. It is also known that solving LRR is challenging in terms of time complexity and memory footprint, in that the size of the nuclear norm regularized matrix is n-by-n (where n is the number of samples). In this paper, we thereby develop a novel online implementation of LRR that reduces the memory cost from O(n2) to O(pd), with p being the ambient dimension and d being some estimated rank (d 20 reduction in the model size without any loss in accuracy on CIFAR-10 benchmark. We also demonstrate that fine-tuning can further enhance the accuracy of fixed point DCNs beyond that of the original floating point model. In doing so, we report a new state-of-the-art fixed point performance of 6.78 error-rate on CIFAR-10 benchmark. Provable Algorithms for Inference in Topic Models Sanjeev Arora Princeton University . Rong Ge . Frederic Koehler Princeton University . Tengyu Ma Princeton University . Ankur Moitra Paper AbstractRecently, there has been considerable progress on designing algorithms with provable guarantees 8212typically using linear algebraic methods8212for parameter learning in latent variable models. Designing provable algorithms for inference has proved more difficult. Here we take a first step towards provable inference in topic models. We leverage a property of topic models that enables us to construct simple linear estimators for the unknown topic proportions that have small variance, and consequently can work with short documents. Our estimators also correspond to finding an estimate around which the posterior is well-concentrated. We show lower bounds that for shorter documents it can be information theoretically impossible to find the hidden topics. Finally, we give empirical results that demonstrate that our algorithm works on realistic topic models. It yields good solutions on synthetic data and runs in time comparable to a single iteration of Gibbs sampling. This paper develops an approach for efficiently solving general convex optimization problems specified as disciplined convex programs (DCP), a common general-purpose modeling framework. Specifically we develop an algorithm based upon fast epigraph projections, projections onto the epigraph of a convex function, an approach closely linked to proximal operator methods. We show that by using these operators, we can solve any disciplined convex program without transforming the problem to a standard cone form, as is done by current DCP libraries. We then develop a large library of efficient epigraph projection operators, mirroring and extending work on fast proximal algorithms, for many common convex functions. Finally, we evaluate the performance of the algorithm, and show it often achieves order of magnitude speedups over existing general-purpose optimization solvers. We study the fixed design segmented regression problem: Given noisy samples from a piecewise linear function f, we want to recover f up to a desired accuracy in mean-squared error. Previous rigorous approaches for this problem rely on dynamic programming (DP) and, while sample efficient, have running time quadratic in the sample size. As our main contribution, we provide new sample near-linear time algorithms for the problem that 8211 while not being minimax optimal 8211 achieve a significantly better sample-time tradeoff on large datasets compared to the DP approach. Our experimental evaluation shows that, compared with the DP approach, our algorithms provide a convergence rate that is only off by a factor of 2 to 4, while achieving speedups of three orders of magnitude. Energetic Natural Gradient Descent Philip Thomas CMU . Bruno Castro da Silva . Christoph Dann Carnegie Mellon University . Emma Paper AbstractWe propose a new class of algorithms for minimizing or maximizing functions of parametric probabilistic models. These new algorithms are natural gradient algorithms that leverage more information than prior methods by using a new metric tensor in place of the commonly used Fisher information matrix. This new metric tensor is derived by computing directions of steepest ascent where the distance between distributions is measured using an approximation of energy distance (as opposed to Kullback-Leibler divergence, which produces the Fisher information matrix), and so we refer to our new ascent direction as the energetic natural gradient. Partition Functions from Rao-Blackwellized Tempered Sampling David Carlson Columbia University . Patrick Stinson Columbia University . Ari Pakman Columbia University . Liam Paper AbstractPartition functions of probability distributions are important quantities for model evaluation and comparisons. We present a new method to compute partition functions of complex and multimodal distributions. Such distributions are often sampled using simulated tempering, which augments the target space with an auxiliary inverse temperature variable. Our method exploits the multinomial probability law of the inverse temperatures, and provides estimates of the partition function in terms of a simple quotient of Rao-Blackwellized marginal inverse temperature probability estimates, which are updated while sampling. We show that the method has interesting connections with several alternative popular methods, and offers some significant advantages. In particular, we empirically find that the new method provides more accurate estimates than Annealed Importance Sampling when calculating partition functions of large Restricted Boltzmann Machines (RBM) moreover, the method is sufficiently accurate to track training and validation log-likelihoods during learning of RBMs, at minimal computational cost. In this paper we address the identifiability and efficient learning problems of finite mixtures of Plackett-Luce models for rank data. We prove that for any kgeq 2, the mixture of k Plackett-Luce models for no more than 2k-1 alternatives is non-identifiable and this bound is tight for k2. For generic identifiability, we prove that the mixture of k Plackett-Luce models over m alternatives is if kleqlfloorfrac 2rfloor. We also propose an efficient generalized method of moments (GMM) algorithm to learn the mixture of two Plackett-Luce models and show that the algorithm is consistent. Our experiments show that our GMM algorithm is significantly faster than the EMM algorithm by Gormley 038 Murphy (2008), while achieving competitive statistical efficiency. The combinatorial explosion that plagues planning and reinforcement learning (RL) algorithms can be moderated using state abstraction. Prohibitively large task representations can be condensed such that essential information is preserved, and consequently, solutions are tractably computable. However, exact abstractions, which treat only fully-identical situations as equivalent, fail to present opportunities for abstraction in environments where no two situations are exactly alike. In this work, we investigate approximate state abstractions, which treat nearly-identical situations as equivalent. We present theoretical guarantees of the quality of behaviors derived from four types of approximate abstractions. Additionally, we empirically demonstrate that approximate abstractions lead to reduction in task complexity and bounded loss of optimality of behavior in a variety of environments. Power of Ordered Hypothesis Testing Lihua Lei Lihua . William Fithian UC Berkeley, Department of Statistics Paper AbstractOrdered testing procedures are multiple testing procedures that exploit a pre-specified ordering of the null hypotheses, from most to least promising. We analyze and compare the power of several recent proposals using the asymptotic framework of Li 038 Barber (2015). While accumulation tests including ForwardStop can be quite powerful when the ordering is very informative, they are asymptotically powerless when the ordering is weaker. By contrast, Selective SeqStep, proposed by Barber 038 Candes (2015), is much less sensitive to the quality of the ordering. We compare the power of these procedures in different regimes, concluding that Selective SeqStep dominates accumulation tests if either the ordering is weak or non-null hypotheses are sparse or weak. Motivated by our asymptotic analysis, we derive an improved version of Selective SeqStep which we call Adaptive SeqStep, analogous to Storeys improvement on the Benjamini-Hochberg proce - dure. We compare these methods using the GEO-Query data set analyzed by (Li 038 Barber, 2015) and find Adaptive SeqStep has favorable performance for both good and bad prior orderings. PHOG: Probabilistic Model for Code Pavol Bielik ETH Zurich . Veselin Raychev ETH Zurich . Martin Vechev ETH Zurich Paper AbstractWe introduce a new generative model for code called probabilistic higher order grammar (PHOG). PHOG generalizes probabilistic context free grammars (PCFGs) by allowing conditioning of a production rule beyond the parent non-terminal, thus capturing rich contexts relevant to programs. Even though PHOG is more powerful than a PCFG, it can be learned from data just as efficiently. We trained a PHOG model on a large JavaScript code corpus and show that it is more precise than existing models, while similarly fast. As a result, PHOG can immediately benefit existing programming tools based on probabilistic models of code. We consider the problem of online prediction in changing environments. In this framework the performance of a predictor is evaluated as the loss relative to an arbitrarily changing predictor, whose individual components come from a base class of predictors. Typical results in the literature consider different base classes (experts, linear predictors on the simplex, etc.) separately. Introducing an arbitrary mapping inside the mirror decent algorithm, we provide a framework that unifies and extends existing results. As an example, we prove new shifting regret bounds for matrix prediction problems. Hyperparameter selection generally relies on running multiple full training trials, with selection based on validation set performance. We propose a gradient-based approach for locally adjusting hyperparameters during training of the model. Hyperparameters are adjusted so as to make the model parameter gradients, and hence updates, more advantageous for the validation cost. We explore the approach for tuning regularization hyperparameters and find that in experiments on MNIST, SVHN and CIFAR-10, the resulting regularization levels are within the optimal regions. The additional computational cost depends on how frequently the hyperparameters are trained, but the tested scheme adds only 30 computational overhead regardless of the model size. Since the method is significantly less computationally demanding compared to similar gradient-based approaches to hyperparameter optimization, and consistently finds good hyperparameter values, it can be a useful tool for training neural network models. Many of the recent Trajectory Optimization algorithms alternate between local approximation of the dynamics and conservative policy update. However, linearly approximating the dynamics in order to derive the new policy can bias the update and prevent convergence to the optimal policy. In this article, we propose a new model-free algorithm that backpropagates a local quadratic time-dependent Q-Function, allowing the derivation of the policy update in closed form. Our policy update ensures exact KL-constraint satisfaction without simplifying assumptions on the system dynamics demonstrating improved performance in comparison to related Trajectory Optimization algorithms linearizing the dynamics. Due to its numerous applications, rank aggregation has become a problem of major interest across many fields of the computer science literature. In the vast majority of situations, Kemeny consensus(es) are considered as the ideal solutions. It is however well known that their computation is NP-hard. Many contributions have thus established various results to apprehend this complexity. In this paper we introduce a practical method to predict, for a ranking and a dataset, how close the Kemeny consensus(es) are to this ranking. A major strength of this method is its generality: it does not require any assumption on the dataset nor the ranking. Furthermore, it relies on a new geometric interpretation of Kemeny aggregation that, we believe, could lead to many other results. Horizontally Scalable Submodular Maximization Mario Lucic ETH Zurich . Olivier Bachem ETH Zurich . Morteza Zadimoghaddam Google Research . Andreas Krause Paper AbstractA variety of large-scale machine learning problems can be cast as instances of constrained submodular maximization. Existing approaches for distributed submodular maximization have a critical drawback: The capacity 8211 number of instances that can fit in memory 8211 must grow with the data set size. In practice, while one can provision many machines, the capacity of each machine is limited by physical constraints. We propose a truly scalable approach for distributed submodular maximization under fixed capacity. The proposed framework applies to a broad class of algorithms and constraints and provides theoretical guarantees on the approximation factor for any available capacity. We empirically evaluate the proposed algorithm on a variety of data sets and demonstrate that it achieves performance competitive with the centralized greedy solution. Group Equivariant Convolutional Networks Taco Cohen University of Amsterdam . Max Welling University of Amsterdam CIFAR Paper AbstractWe introduce Group equivariant Convolutional Neural Networks (G-CNNs), a natural generalization of convolutional neural networks that reduces sample complexity by exploiting symmetries. G-CNNs use G-convolutions, a new type of layer that enjoys a substantially higher degree of weight sharing than regular convolution layers. G-convolutions increase the expressive capacity of the network without increasing the number of parameters. Group convolution layers are easy to use and can be implemented with negligible computational overhead for discrete groups generated by translations, reflections and rotations. G-CNNs achieve state of the art results on CIFAR10 and rotated MNIST. The partition function is fundamental for probabilistic graphical models8212it is required for inference, parameter estimation, and model selection. Evaluating this function corresponds to discrete integration, namely a weighted sum over an exponentially large set. This task quickly becomes intractable as the dimensionality of the problem increases. We propose an approximation scheme that, for any discrete graphical model whose parameter vector has bounded norm, estimates the partition function with arbitrarily small error. Our algorithm relies on a near minimax optimal polynomial approximation to the potential function and a Clenshaw-Curtis style quadrature. Furthermore, we show that this algorithm can be randomized to split the computation into a high-complexity part and a low-complexity part, where the latter may be carried out on small computational devices. Experiments confirm that the new randomized algorithm is highly accurate if the parameter norm is small, and is otherwise comparable to methods with unbounded error. Correcting Forecasts with Multifactor Neural Attention Matthew Riemer IBM . Aditya Vempaty IBM . Flavio Calmon IBM . Fenno Heath IBM . Richard Hull IBM . Elham Khabiri IBM Paper AbstractAutomatic forecasting of time series data is a challenging problem in many industries. Current forecast models adopted by businesses do not provide adequate means for including data representing external factors that may have a significant impact on the time series, such as weather, national events, local events, social media trends, promotions, etc. This paper introduces a novel neural network attention mechanism that naturally incorporates data from multiple external sources without the feature engineering needed to get other techniques to work. We demonstrate empirically that the proposed model achieves superior performance for predicting the demand of 20 commodities across 107 stores of one of America8217s largest retailers when compared to other baseline models, including neural networks, linear models, certain kernel methods, Bayesian regression, and decision trees. Our method ultimately accounts for a 23.9 relative improvement as a result of the incorporation of external data sources, and provides an unprecedented level of descriptive ability for a neural network forecasting model. Observational studies are rising in importance due to the widespread accumulation of data in fields such as healthcare, education, employment and ecology. We consider the task of answering counterfactual questions such as, 8220Would this patient have lower blood sugar had she received a different medication8221. We propose a new algorithmic framework for counterfactual inference which brings together ideas from domain adaptation and representation learning. In addition to a theoretical justification, we perform an empirical comparison with previous approaches to causal inference from observational data. Our deep learning algorithm significantly outperforms the previous state-of-the-art. Gaussian Processes (GPs) provide a general and analytically tractable way of modeling complex time-varying, nonparametric functions. The Automatic Bayesian Covariance Discovery (ABCD) system constructs natural-language description of time-series data by treating unknown time-series data nonparametrically using GP with a composite covariance kernel function. Unfortunately, learning a composite covariance kernel with a single time-series data set often results in less informative kernel that may not give qualitative, distinctive descriptions of data. We address this challenge by proposing two relational kernel learning methods which can model multiple time-series data sets by finding common, shared causes of changes. We show that the relational kernel learning methods find more accurate models for regression problems on several real-world data sets US stock data, US house price index data and currency exchange rate data. We introduce a new approach for amortizing inference in directed graphical models by learning heuristic approximations to stochastic inverses, designed specifically for use as proposal distributions in sequential Monte Carlo methods. We describe a procedure for constructing and learning a structured neural network which represents an inverse factorization of the graphical model, resulting in a conditional density estimator that takes as input particular values of the observed random variables, and returns an approximation to the distribution of the latent variables. This recognition model can be learned offline, independent from any particular dataset, prior to performing inference. The output of these networks can be used as automatically-learned high-quality proposal distributions to accelerate sequential Monte Carlo across a diverse range of problem settings. Slice Sampling on Hamiltonian Trajectories Benjamin Bloem-Reddy Columbia University . John Cunningham Columbia University Paper AbstractHamiltonian Monte Carlo and slice sampling are amongst the most widely used and studied classes of Markov Chain Monte Carlo samplers. We connect these two methods and present Hamiltonian slice sampling, which allows slice sampling to be carried out along Hamiltonian trajectories, or transformations thereof. Hamiltonian slice sampling clarifies a class of model priors that induce closed-form slice samplers. More pragmatically, inheriting properties of slice samplers, it offers advantages over Hamiltonian Monte Carlo, in that it has fewer tunable hyperparameters and does not require gradient information. We demonstrate the utility of Hamiltonian slice sampling out of the box on problems ranging from Gaussian process regression to Pitman-Yor based mixture models. Noisy Activation Functions Caglar Glehre . Marcin Moczulski . Misha Denil . Yoshua Bengio U. of Montreal Paper AbstractCommon nonlinear activation functions used in neural networks can cause training difficulties due to the saturation behavior of the activation function, which may hide dependencies that are not visible to vanilla-SGD (using first order gradients only). Gating mechanisms that use softly saturating activation functions to emulate the discrete switching of digital logic circuits are good examples of this. We propose to exploit the injection of appropriate noise so that the gradients may flow easily, even if the noiseless application of the activation function would yield zero gradients. Large noise will dominate the noise-free gradient and allow stochastic gradient descent to explore more. By adding noise only to the problematic parts of the activation function, we allow the optimization procedure to explore the boundary between the degenerate saturating) and the well-behaved parts of the activation function. We also establish connections to simulated annealing, when the amount of noise is annealed down, making it easier to optimize hard objective functions. We find experimentally that replacing such saturating activation functions by noisy variants helps optimization in many contexts, yielding state-of-the-art or competitive results on different datasets and task, especially when training seems to be the most difficult, e. g. when curriculum learning is necessary to obtain good results. PD-Sparse. A Primal and Dual Sparse Approach to Extreme Multiclass and Multilabel Classification Ian En-Hsu Yen University of Texas at Austin . Xiangru Huang UTaustin . Pradeep Ravikumar UT Austin . Kai Zhong ICES department, University of Texas at Austin . Inderjit Paper AbstractWe consider Multiclass and Multilabel classification with extremely large number of classes, of which only few are labeled to each instance. In such setting, standard methods that have training, prediction cost linear to the number of classes become intractable. State-of-the-art methods thus aim to reduce the complexity by exploiting correlation between labels under assumption that the similarity between labels can be captured by structures such as low-rank matrix or balanced tree. However, as the diversity of labels increases in the feature space, structural assumption can be easily violated, which leads to degrade in the testing performance. In this work, we show that a margin-maximizing loss with l1 penalty, in case of Extreme Classification, yields extremely sparse solution both in primal and in dual without sacrificing the expressive power of predictor. We thus propose a Fully-Corrective Block-Coordinate Frank-Wolfe (FC-BCFW) algorithm that exploits both primal and dual sparsity to achieve a complexity sublinear to the number of primal and dual variables. A bi-stochastic search method is proposed to further improve the efficiency. In our experiments on both Multiclass and Multilabel problems, the proposed method achieves significant higher accuracy than existing approaches of Extreme Classification with very competitive training and prediction time.

No comments:

Post a Comment