Online Gedern (Hesse): Exponential Moving Average Kernel

Die Wissenschaftler und Ingenieure Leitfaden zur digitalen Signalverarbeitung Von Steven W. Smith, Ph. D. Kapitel 24: Lineare Bildverarbeitung Faltung durch Trennbarkeit Dies ist eine Technik für eine schnelle Faltung, solange die PSF trennbar ist. Ein PSF soll trennbar sein, wenn es in zwei eindimensionale Signale gebrochen werden kann: eine vertikale und eine horizontale Projektion. Abbildung 24-5 zeigt ein Beispiel für ein trennbares Bild, das Quadrat PSF. Insbesondere ist der Wert jedes Pixels in dem Bild gleich dem entsprechenden Punkt in der horizontalen Projektion multipliziert mit dem entsprechenden Punkt in der vertikalen Projektion. In mathematischer Form: wobei x r, c das zweidimensionale Bild und vert r amp horz c die eindimensionalen Projektionen sind. Offensichtlich erfüllen die meisten Bilder diese Anforderung nicht. Zum Beispiel ist die Pillbox nicht trennbar. Es gibt jedoch eine unendliche Anzahl von trennbaren Bildern. Dies kann durch die Erzeugung beliebiger horizontaler und vertikaler Projektionen verstanden werden und das Bild, das ihnen entspricht, finden. Zum Beispiel, Fig. 24-6 veranschaulicht dies mit Profilen, die doppelseitige Exponentiale sind. Das Bild, das diesen Profilen entspricht, wird dann aus Gl. 24-1 Wenn es angezeigt wird, erscheint das Bild als Diamantform, die exponentiell auf Null abfällt, wenn der Abstand vom Ursprung zunimmt. Bei den meisten Bildverarbeitungsaufgaben ist das ideale PSF kreisförmig symmetrisch. Wie die Pillbox. Obwohl digitalisierte Bilder in der Regel im rechtwinkligen Format von Zeilen und Spalten gespeichert und verarbeitet werden, ist es wünschenswert, das Bild in allen Richtungen gleich zu modifizieren. Das wirft die Frage auf: Gibt es eine PSF, die kreisförmig symmetrisch und trennbar ist. Die Antwort lautet ja, aber es gibt nur einen, den Gaußschen. Wie in Fig. 24-7, ein zweidimensionales Gaußsche Bild hat Projektionen, die auch Gaußer sind. Das Bild und die Projektion Gaussians haben die gleiche Standardabweichung. Um ein Bild mit einem trennbaren Filterkern zu falten, fliegen Sie jede Zeile im Bild mit der horizontalen Projektion. Was zu einem Zwischenbild führt. Als nächstes falten Sie jede Spalte dieses Zwischenbildes mit der vertikalen Projektion des PSF. Das resultierende Bild ist identisch mit der direkten Faltung des Originalbildes und des Filterkerns. Wenn Sie mögen, falten Sie die Spalten zuerst und dann die Zeilen das Ergebnis ist das gleiche. Die Faltung eines N-mal-N-Bildes mit einem M-mal-M-Filterkern erfordert eine Zeit proportional zu N 2 M 2. Mit anderen Worten, jedes Pixel im Ausgangsbild hängt von allen Pixeln im Filterkern ab. Im Vergleich dazu erfordert die Faltung durch Trennbarkeit nur eine Zeit proportional zu N 2 M. Für Filterkern, die Hunderte von Pixeln breit sind, reduziert diese Technik die Ausführungszeit um einen Faktor von Hunderten. Die Dinge können noch besser werden. Wenn Sie bereit sind, eine rechteckige PSF (Abb. 24-5) oder eine doppelseitige exponentielle PSF zu verwenden (Abb. 24-6), sind die Berechnungen noch effizienter. Denn die eindimensionalen Windungen sind der gleitende Mittelfilter (Kapitel 15) und der bidirektionale Einpolfilter (Kapitel 19). Beide dieser eindimensionalen Filter können schnell durch Rekursion durchgeführt werden. Dies führt zu einer Bildfaltungszeit proportional zu nur N 2. völlig unabhängig von der Größe des PSF. Mit anderen Worten, ein Bild kann mit einer so großen PSF wie nötig gefaltet werden, mit nur wenigen ganzzahligen Operationen pro Pixel. Zum Beispiel erfordert die Faltung eines 512times512 Bildes nur ein paar hundert Millisekunden auf einem Personal Computer. Das ist schnell Dont wie die Form dieser beiden Filterkerne Convolve das Bild mit einem von ihnen mehrmals, um eine Gaußsche PSF (garantiert durch den Central Limit Theorem, Kapitel 7) zu approximieren. Das sind große Algorithmen, die in der Lage sind, den Erfolg von den Klauen des Versagens zu erobern. Sie sind es wert, sich zu erinnern. EViews 9.5 Feature List EViews bietet eine umfangreiche Palette an leistungsstarken Funktionen für Datenverarbeitung, Statistik und ökonometrische Analyse, Prognose und Simulation, Datenpräsentation und Programmierung. Während wir nicht alles auflisten können, bietet die folgende Liste einen Einblick in die wichtigen EViews-Features: Basic Data Handling Numerische, alphanumerische (String) und Datumsreihen-Etiketten. Umfangreiche Bibliothek von Operatoren und statistische, mathematische, Datums - und String-Funktionen. Leistungsstarke Sprache für Ausdrucksbearbeitung und Umwandlung vorhandener Daten mit Operatoren und Funktionen. Proben und Musterobjekte erleichtern die Bearbeitung von Datenmengen. Unterstützung für komplexe Datenstrukturen, einschließlich regelmäßiger Daten, unregelmäßig datierte Daten, Querschnittsdaten mit Beobachtungskennungen, datierten und undated-Panel-Daten. Mehrseitige Workfiles. EViews native, disk-basierte Datenbanken bieten leistungsstarke Abfrage-Funktionen und Integration mit EViews Workfiles. Konvertieren von Daten zwischen EViews und verschiedenen Tabellenkalkulations-, Statistik - und Datenbankformaten, einschließlich (aber nicht beschränkt auf): Microsoft Access - und Excel-Dateien (einschließlich. XSLX und. XLSM), Gauss Dataset-Dateien, SAS-Transportdateien, SPSS-native und portable Dateien, Stata-Dateien, roh formatierte ASCII-Text - oder Binärdateien, HTML - oder ODBC-Datenbanken und Abfragen (ODBC-Unterstützung wird nur in der Enterprise Edition bereitgestellt). OLE-Unterstützung für die Verknüpfung von EViews-Ausgabe, einschließlich Tabellen und Grafiken, zu anderen Paketen, einschließlich Microsoft Excel, Word und Powerpoint. OLEDB-Unterstützung für das Lesen von EViews Workfiles und Datenbanken mit OLEDB-fähigen Clients oder benutzerdefinierten Programmen. Unterstützung für FRED (Federal Reserve Economic Data) Datenbanken. Enterprise Edition Unterstützung für Global Insight DRIPro und DRIBase, Haver Analytics DLX, FAME, EcoWin, Bloomberg, EIA, CEIC, Datastream, FactSet und Moodys Economy Datenbanken. Das EViews Microsoft Excel Add-In ermöglicht es Ihnen, Daten aus EViews Workfiles und Datenbanken aus Excel zu verknüpfen oder zu importieren. Drag-and-Drop-Unterstützung für das Lesen von Daten einfach Dateien in EViews für die automatische Konvertierung und Verknüpfung von ausländischen Daten in EViews Workfile-Format. Leistungsstarke Werkzeuge für die Erstellung neuer Workfile-Seiten aus Werten und Daten in bestehenden Serien. Match Merge, Join, Append, Subset, Größe, Sortierung und Umformung (Stack und Unstack) Workfiles. Einfach zu bedienende automatische Frequenzumwandlung beim Kopieren oder Verknüpfen von Daten zwischen Seiten unterschiedlicher Frequenz. Frequenzumwandlung und Matchmailing unterstützen dynamische Aktualisierung, wenn sich die zugrunde liegenden Daten ändern. Automatische Aktualisierung von Formel-Serien, die automatisch neu berechnet werden, wenn sich die zugrunde liegenden Daten ändern. Einfach zu bedienende Frequenzumwandlung: einfach kopieren oder verknüpfen Daten zwischen Seiten unterschiedlicher Frequenz. Werkzeuge zur Neuabtastung und Zufallszahlengenerierung zur Simulation. Zufallszahlengenerierung für 18 verschiedene Verteilungsfunktionen mit drei verschiedenen Zufallszahlengeneratoren. Unterstützung für Cloud-Drive-Zugriff, so dass Sie öffnen und speichern Datei direkt auf Dropbox, OneDrive, Google Drive und Box-Konten. Time Series Data Handling Integrierte Unterstützung für die Bearbeitung von Daten und Zeitreihen (sowohl regelmäßig als auch unregelmäßig). Unterstützung für gemeinsame regelmäßige Häufigkeitsdaten (jährlich, halbjährlich, vierteljährlich, monatlich, zweimonatlich, vierzehn Tage, zehntägig, wöchentlich, täglich - 5 Tage Woche, täglich - 7 Tage Woche). Unterstützung für hochfrequente (Intraday) Daten, die Stunden, Minuten und Sekunden Frequenzen erlauben. Darüber hinaus gibt es eine Reihe von weniger häufig auftretenden regelmäßigen Frequenzen, darunter Multi-Jahr, Bimonthly, Fortnight, Zehn-Tag und Täglich mit einer beliebigen Reihe von Tagen der Woche. Spezielle Zeitreihenfunktionen und Operatoren: Verzögerungen, Unterschiede, Log-Differenzen, gleitende Durchschnitte usw. Frequenzumwandlung: verschiedene High-to-Low - und Low-to-High-Methoden. Exponentielle Glättung: Single, Double, Holt-Winters und ETS Glättung. Eingebaute Werkzeuge zum Aufhellen der Regression. Hodrick-Prescott-Filterung Band-Pass (Frequenz) Filter: Baxter-King, Christiano-Fitzgerald feste Länge und volle Probe asymmetrische Filter. Saisonale Anpassung: Volkszählung X-13, X-12-ARIMA, TramoSeats, gleitender Durchschnitt. Interpolation, um fehlende Werte innerhalb einer Serie auszufüllen: Linear, Log-Linear, Catmull-Rom Spline, Cardinal Spline. Statistik Grunddaten Zusammenfassungen Zusammenfassungen der Zusammenfassungen. Tests der Gleichheit: T-Tests, ANOVA (ausgewogen und unausgewogen, mit oder ohne heteroskedastische Abweichungen), Wilcoxon, Mann-Whitney, Median Chi-Platz, Kruskal-Wallis, van der Waerden, F-Test, Siegel-Tukey, Bartlett , Levene, Brown-Forsythe. Einweg-Tabellierungs-Kreuztabellen mit Assoziationsmaßstäben (Phi Coefficient, Cramers V, Contingency Coefficient) und Unabhängigkeitstests (Pearson Chi-Square, Likelihood Ratio G2). Kovarianz - und Korrelationsanalyse einschließlich Pearson, Spearman Rangordnung, Kendalls tau-a und tau-b und Teilanalyse. Hauptkomponentenanalyse einschließlich Scree-Plots, Biplots und Beladungsplots sowie gewichtete Komponenten-Score-Berechnungen. Faktoranalyse ermöglicht die Berechnung von Assoziationsmaßstäben (einschließlich Kovarianz und Korrelation), Eindeutigkeitsschätzungen, Faktorbelastungsschätzungen und Faktorzahlen sowie die Durchführung von Schätzdiagnosen und Faktorrotation mit einer von über 30 verschiedenen orthogonalen und schrägen Methoden. Empirische Verteilungsfunktion (EDF) Tests für den Normalen, Exponential, Extremwert, Logistik, Chi-Quadrat, Weibull oder Gamma-Verteilungen (Kolmogorov-Smirnov, Lilliefors, Cramer-von Mises, Anderson-Darling, Watson). Histogramme, Häufigkeitspolygone, Kantenfrequenz-Polygone, durchschnittlich verschobene Histogramme, CDF-Überlebens-Quantil, Quantil-Quantil, Kerndichte, theoretische Verteilungen, Boxplots. Scatterplots mit parametrischen und nicht parametrischen Regressionslinien (LOWESS, lokales Polynom), Kernregression (Nadaraya-Watson, lokales lineares, lokales Polynom). Oder Vertrauenslipsen. Zeitreihe Autokorrelation, partielle Autokorrelation, Kreuzkorrelation, Q-Statistik. Granger Kausalitätstests, einschließlich Panel Granger Kausalität. Wurzeltests: Augmented Dickey-Fuller, GLS transformiert Dickey-Fuller, Phillips-Perron, KPSS, Eliot-Richardson-Stock Point Optimal, Ng-Perron sowie Tests für Wurzeln mit Breakpoints. Kointegrationstests: Johansen, Engle-Granger, Phillips-Ouliaris, Park hinzugefügt Variablen und Hansen Stabilität. Unabhängigkeitstests: Brock, Dechert, Scheinkman und LeBaron Varianz-Verhältnis-Tests: Lo und MacKinlay, Kim Wildbootstrap, Wrights Rang, Rank-Score und Sign-Tests. Wald und mehrere Vergleichsvarianz-Verhältnis-Tests (Richardson und Smith, Chow und Denning). Langzeitvarianz und Kovarianzberechnung: symmetrische oder oder einseitige Langzeitkovarianzen mit nichtparametrischem Kernel (Newey-West 1987, Andrews 1991), parametrischer VARHAC (Den Haan und Levin 1997) und vorgewählter Kernel (Andrews und Monahan 1992) Methoden. Darüber hinaus unterstützt EViews Andrews (1991) und Newey-West (1994) automatische Bandbreitenauswahlmethoden für Kernelschätzer und informationskriterienbasierte Verzögerungslängenauswahlmethoden für VARHAC und Prewhitening Schätzung. Panel - und Pool-By-Group - und By-Period-Statistiken und Tests. Einheit Wurzeltests: Levin-Lin-Chu, Breitung, Im-Pesaran-Shin, Fisher, Hadri. Kointegrationstests: Pedroni, Kao, Maddala und Wu. Panel in Serie Kovarianzen und Hauptkomponenten. Dumitrescu-Hurlin (2012) Tafelkausalitätstests Querschnittsabhängigkeitstests Schätzung Regression Lineare und nichtlineare gewöhnliche kleinste Quadrate (multiple Regression). Lineare Regression mit PDLs auf beliebig viele unabhängige Variablen. Robuste Regression Analytische Derivate für nichtlineare Schätzung. Gewichtete kleinste Quadrate Weiß und Newey-West robuste Standardfehler. HAC-Standardfehler können unter Verwendung von nichtparametrischen Kernel-, parametrischen VARHAC - und vorgewalzten Kernel-Methoden berechnet werden und erlauben Andrews und Newey-West automatische Bandbreitenauswahlverfahren für Kernelschätzer und informationskriterienbasierte Verzögerungslängenauswahlverfahren für VARHAC und Prewhitening Schätzung. Lineare Quantilregression und kleinste absolute Abweichungen (LAD), einschließlich der Hubers Sandwich - und Bootstrapping-Kovarianzberechnungen. Schrittweise Regression mit sieben verschiedenen Auswahlverfahren. Schwellenregression einschließlich TAR und SETAR. ARMA und ARMAX Lineare Modelle mit autoregressiven gleitenden durchschnittlichen, saisonalen autoregressiven und saisonalen gleitenden durchschnittlichen Fehlern. Nichtlineare Modelle mit AR - und SAR-Spezifikationen. Schätzung mit der Backcasting-Methode von Box und Jenkins, bedingte kleinste Quadrate, ML oder GLS. Fraktional integrierte ARFIMA Modelle. Instrumental-Variablen und GMM Lineare und nichtlineare zweistufige kleinste Quadrate instrumentelle Variablen (2SLSIV) und generalisierte Methode der Momente (GMM) Schätzung. Lineare und nichtlineare 2SLSIV-Schätzung mit AR - und SAR-Fehlern. Begrenzte Informationen Maximum Likelihood (LIML) und K-Klasse Schätzung. Große Auswahl an GMM-Gewichtungsmatrix-Spezifikationen (White, HAC, User-bereitgestellt) mit Kontrolle über die Gewichtsmatrix-Iteration. GMM-Schätzoptionen umfassen die kontinuierliche Aktualisierung der Schätzung (CUE) und eine Vielzahl neuer Standardfehleroptionen, einschließlich Windmeijer-Standardfehler. Die IVGMM-spezifische Diagnostik umfasst den Instrument Orthogonalitätstest, einen Regressor-Endogenitätstest, einen schwachen Instrumententest und einen GMM-spezifischen Haltepunkttest. ARCHGARCH GARCH (p, q), EGARCH, TARCH, Component GARCH, Power ARCH, Integrierte GARCH. Die lineare oder nichtlineare Mittelgleichung kann sowohl ARCH - als auch ARMA-Terme umfassen, sowohl die Mittel - als auch die Varianzgleichungen erlauben exogene Variablen. Normal, Schüler t und generalisierte Fehlerverteilungen. Bollerslev-Wooldridge robuste Standardfehler. In - und Out-of-Probe-Prognosen der bedingten Varianz und Mittelwert und permanente Komponenten. Begrenzte abhängige Variable Modelle Binär Logit, Probit und Gompit (Extreme Value). Bestellt Logit, Probit und Gompit (Extreme Value). Zensierte und abgeschnittene Modelle mit normalen, logistischen und extremen Wertfehlern (Tobit, etc.). Zählmodelle mit Poisson, negativen Binomial - und Quasi-Maximum-Likelihood (QML) Spezifikationen. Heckman Selection Modelle. HuberWhite robuste Standardfehler Count-Modelle unterstützen generalisierte lineare Modell - oder QML-Standardfehler. Hosmer-Lemeshow und Andrews Goodness-of-Fit-Tests für Binärmodelle. Einfache Speicherung von Ergebnissen (einschließlich verallgemeinerter Residuen und Gradienten) zu neuen EViews Objekten für weitere Analysen. Die allgemeine GLM-Schätzmaschine kann verwendet werden, um mehrere dieser Modelle abzuschätzen, mit der Möglichkeit, robuste Kovarianzen einzuschließen. Panel DataPooled Time Series, Querschnittsdaten Lineare und nichtlineare Schätzung mit additivem Querschnitt und zeitlich festgelegten oder zufälligen Effekten. Wahl der quadratischen Einschätzer (QUEs) für Komponentenabweichungen in zufälligen Effektmodellen: Swamy-Arora, Wallace-Hussain, Wansbeek-Kapteyn. 2SLSIV Schätzung mit Querschnitt und Periode feste oder zufällige Effekte. Schätzung mit AR-Fehlern mit nichtlinearen kleinsten Quadraten auf einer transformierten Spezifikation Generalisierte kleinste Quadrate, verallgemeinerte 2SLSIV-Schätzung, GMM-Schätzung, die für Querschnitts - oder Perioden-heteroskedastische und korrelierte Spezifikationen erlaubt. Lineare dynamische Panel-Datenschätzung mit ersten Differenzen oder orthogonalen Abweichungen mit periodenspezifischen vorgegebenen Instrumenten (Arellano-Bond). Panel serielle Korrelationstests (Arellano-Bond). Robuste Standardfehlerberechnungen beinhalten sieben Arten von robusten White - und Panel-korrigierten Standardfehlern (PCSE). Prüfung von Koeffizientenbeschränkungen, weggelassenen und redundanten Variablen, Hausman-Test auf korrelierte zufällige Effekte. Platten-Wurzeltests: Levin-Lin-Chu, Breitung, Im-Pesaran-Shin, Fisher-Test mit ADF - und PP-Tests (Maddala-Wu, Choi), Hadri. Panel-Kointegrationsschätzung: Vollständig modifizierte OLS (FMOLS, Pedroni 2000) oder Dynamic Ordinary Least Squares (DOLS, Kao und Chaing 2000, Mark und Sul 2003). Pooled Mean Group (PMG) Schätzung. Generalisierte Linearmodelle Normal, Poisson, Binomial, Negative Binomial, Gamma, Inverse Gaussian, Exponential Mena, Power Mittel, Binomial Squared Familien. Identity, Log, Log-Komplement, Logit, Probit, Log-Log, kostenlos Log-Log, Inverse, Power, Power Odds Ratio, Box-Cox, Box-Cox Odds Ratio Link-Funktionen. Vorherige Varianz und Frequenzgewichtung. Fixed, Pearson Chi-Sq, Abweichung und benutzerdefinierte Dispersion Spezifikationen. Unterstützung für QML Schätzung und Prüfung. Quadratic Hill Climbing, Newton-Raphson, IRLS - Fisher Scoring und BHHH Schätzalgorithmen. Ordentliche Koeffizienten Kovarianzen berechnet mit erwarteten oder beobachteten Hessischen oder das äußere Produkt der Gradienten. Robuste Kovarianz schätzt mit GLM, HAC oder HuberWhite Methoden. Einzelne Gleichung Kointegrierende Regression Unterstützung für drei voll effiziente Schätzmethoden, voll modifizierte OLS (Phillips und Hansen 1992), Canonical Cointegrating Regression (Park 1992) und Dynamic OLS (Saikkonen 1992, Stock und Watson 1993 Engle und Granger (1987) und Phillips und Ouliaris (1990) Restbasierte Tests, Hansens (1992b) Instabilitätstest und Parks (1992) hinzugefügt Variablen Test Flexible Spezifikation der Trend und deterministischen Regressoren in der Gleichung und Cointegration Regressoren Spezifikation. Vollständig vorgestellten Schätzung der langfristigen Abweichungen für FMOLS und CCR Automatische oder feste Verzögerungsauswahl für DOLS-Verzögerungen und - Leitungen und für langwierige Varianz-Whitening-Regression Rescaled OLS und robuste Standardfehlerberechnungen für DOLS Benutzerdefinierte Maximum Likelihood Verwenden Sie Standard-EViews-Serienausdrücke, um die Log-Likelihood-Beiträge zu beschreiben. Beispiele für multinomiale und bedingte Logit-, Box-Cox-Transformationsmodelle, Ungleichgewichts-Switching-Modelle, Probit-Modelle mit heteroskedastischen Fehlern, verschachteltem Logit, Heckman-Probenauswahl und Weibull-Gefahrenmodellen. Systeme der Gleichungen Lineare und nichtlineare Schätzung. Least Quadrate, 2SLS, Gleichung gewichtete Schätzung, scheinbar Unabhängige Regression und dreistufige Least Quadrate. GMM mit Weiß - und HAC-Gewichtungsmatrizen. AR-Schätzung mit nichtlinearen kleinsten Quadraten auf einer transformierten Spezifikation. Vollständige Information Maximum Likelihood (FIML). Schätzung der strukturellen Faktorisierungen in VARs durch Auferlegung kurz - oder langfristiger Beschränkungen. Bayesischen VARs. Impulsantwortfunktionen in verschiedenen tabellarischen und grafischen Formaten mit Standardfehler, die analytisch oder nach Monte-Carlo-Methoden berechnet wurden. Impulsantwortstöße, berechnet aus Cholesky-Faktorisierung, Ein-Einheits - oder Ein-Standard-Abweichungsresten (Ignorieren von Korrelationen), generalisierten Impulsen, Strukturfaktorisierung oder einer benutzerdefinierten Vektormatrixform. Eingehende und testen Sie lineare Einschränkungen für die Kointegrationsbeziehungen und die Anpassungskoeffizienten in VEC-Modellen. Anzeigen oder Erzeugen von Kointegrationsbeziehungen aus geschätzten VEC-Modellen. Umfangreiche Diagnostik einschließlich: Granger Kausalitätstests, gemeinsame Verzögerungsausschlussprüfungen, Nachhaltigkeitskriterienauswertung, Korrelogramme, Autokorrelation, Normalität und Heteroskedastiktests, Kointegrationstests, andere multivariate Diagnostik. Multivariate ARCH Bedingte Konstante Korrelation (p, q), Diagonale VECH (p, q), Diagonale BEKK (p, q), mit asymmetrischen Begriffen. Umfangreiche Parametrierungswahl für die Diagonal-VECHs-Koeffizientenmatrix. Exogene Variablen, die in den Mittel - und Varianzgleichungen nichtlinear und AR-Terme erlaubt sind, die in den mittleren Gleichungen erlaubt sind. Bollerslev-Wooldridge robuste Standardfehler. Normal oder Schüler t multivariate Fehlerverteilung Eine Auswahl von analytischen oder (schnellen oder langsamen) numerischen Derivaten. (Analytics-Derivate, die für einige komplexe Modelle nicht verfügbar sind) Generieren Sie Kovarianz, Varianz oder Korrelation in verschiedenen tabellarischen und grafischen Formaten aus geschätzten ARCH-Modellen. State Space Kalman-Filteralgorithmus zur Schätzung von benutzerdefinierten Einzel - und Multiequations-Strukturmodellen. Exogene Variablen in der Zustandsgleichung und vollständig parametrisierte Varianzspezifikationen. Generieren Sie einstufige Vorwärts-, gefilterte oder geglättete Signale, Zustände und Fehler. Beispiele umfassen zeitvariable Parameter, multivariate ARMA und quasilikelihood stochastische Volatilitätsmodelle. Testen und Auswerten Tatsächliche, montierte, verbleibende Grundstücke. Wald-Tests für lineare und nichtlineare Koeffizienten Einschränkungen Vertrauen Ellipsen zeigt die gemeinsame Konfidenz Region von zwei Funktionen der geschätzten Parameter. Andere Koeffizientendiagnosen: Standardisierte Koeffizienten und Koeffizientenelastizitäten, Konfidenzintervalle, Varianzinflationsfaktoren, Koeffizientenabweichungszerlegungen. Ausgelassene und redundante Variablen LR-Tests, restliche und quadrierte Restkorrelogramme und Q-Statistiken, Rest-Serien-Korrelation und ARCH-LM-Tests. Weiß, Breusch-Pagan, Godfrey, Harvey und Glejser Heteroskedastentests. Stabilitätsdiagnostik: Chow-Breakpoint - und Prognosetests, Quandt-Andrews unbekannter Breakpoint-Test, Bai-Perron-Breakpoint-Tests, Ramsey-RESET-Tests, OLS-rekursive Schätzung, Einflussstatistik, Leverage-Plots. ARMA-Gleichungsdiagnose: Graphen oder Tabellen der inversen Wurzeln des AR - und MA-charakteristischen Polynoms, vergleichen das theoretische (geschätzte) Autokorrelationsmuster mit dem tatsächlichen Korrelationsmuster für die Strukturreste, zeigen die ARMA-Impulsantwort auf einen Innovationsschock und die ARMA-Frequenz an Spektrum. Einfache Ergebnisse (Koeffizienten, Koeffizienten Kovarianz Matrizen, Residuen, Gradienten, etc.) zu EViews Objekte für weitere Analyse. Siehe auch Schätzung und Gleichungssysteme für zusätzliche spezialisierte Prüfverfahren. Prognose und Simulation In - oder out-of-sample statische oder dynamische Prognose aus geschätzten Gleichungsobjekten mit Berechnung des Standardfehlers der Prognose. Prognosegraphen und Stichprobenprognoseauswertung: RMSE, MAE, MAPE, Theil Ungleichheit Koeffizient und Proportionen Hochmoderne Modellbauwerkzeuge für Mehrfachgleichungsvorhersage und multivariate Simulation. Modellgleichungen können in Text oder als Links für die automatische Aktualisierung bei der Neuschätzung eingegeben werden. Zeigen Sie Abhängigkeitsstruktur oder endogene und exogene Variablen Ihrer Gleichungen an. Gauss-Seidel, Broyden und Newton Modelllöser für nicht-stochastische und stochastische Simulationen. Nicht-stochastische Vorwärtslösung löst für modellkonsequente Erwartungen. Stochasitc-Simulation kann bootstrapierte Residuen verwenden. Lösen Sie Kontrollprobleme, so dass endogene Variable ein benutzerdefiniertes Ziel erreicht. Ausgefeilte Gleichung Normalisierung, Faktor hinzufügen und Override unterstützen. Verwalten und vergleichen Sie mehrere Lösungsszenarien mit verschiedenen Sätzen von Annahmen. Eingebaute Modellansichten und - prozeduren zeigen Simulationsergebnisse in grafischer oder tabellarischer Form an. Graphs und Tables Line, Dot Plot, Bereich, Bar, Spike, saisonale, Pie, xy-line, Scatterplots, Boxplots, Fehlerbalken, High-Low-Open-Close und Area Band. Leistungsstarke, einfach zu bedienende kategorische und zusammenfassende Graphen. Automatische Aktualisierung von Graphen, die als zugrundeliegende Datenänderung aktualisieren. Beobachtungsinfo und Wertanzeige, wenn Sie den Cursor über einen Punkt in der Grafik schweben. Histogramme, durchschnittlich verschobene Historgramme, Frequenzpolyone, Randfrequenzpolygone, Boxplots, Kerndichte, theoretische Verteilungen, Boxplots, CDF, Überlebender, Quantil, Quantil-Quantil. Scatterplots mit beliebiger Kombination parametrischer und nichtparametrischer Kernel (Nadaraya-Watson, lokales lineares, lokales Polynom) und nächstgelegene Nachbar - (LOWESS) Regressionslinien oder Vertrauens-Ellipsen. Interaktive Point-and-Click - oder Befehls-basierte Anpassung. Umfangreiche Anpassung von Graphen Hintergrund, Rahmen, Legenden, Achsen, Skalierung, Linien, Symbole, Text, Schattierung, Fading, mit verbesserten Grafik-Vorlage Features. Tabelle Anpassung mit Kontrolle über Zelle Schriftart Gesicht, Größe und Farbe, Zelle Hintergrundfarbe und Grenzen, Verschmelzung und Annotation. Kopieren und Einfügen von Graphen in andere Windows-Anwendungen oder Speichern von Graphen als Windows-reguläre oder erweiterte Metafiles, gekapselte PostScript-Dateien, Bitmaps, GIFs, PNGs oder JPGs. Kopieren und Einfügen von Tabellen in eine andere Anwendung oder Speichern in eine RTF-, HTML - oder Textdatei. Verwalten von Graphen und Tabellen in einem Spool-Objekt, mit dem Sie mehrere Ergebnisse und Analysen in einem Objekt anzeigen können. Befehle und Programmierung Objektorientierte Befehlssprache bietet Zugriff auf Menüpunkte. Batch-Ausführung von Befehlen in Programmdateien. Schleifen und Bedingung Verzweigung, Subroutine und Makro-Verarbeitung. String und String Vektor Objekte für String Verarbeitung. Umfangreiche Bibliothek von String - und String-Listen-Funktionen. Umfangreiche Matrixunterstützung: Matrixmanipulation, Multiplikation, Inversion, Kronecker-Produkte, Eigenwertlösung und singuläre Wertzerlegung. Externe Schnittstelle und Add-Ins EViews COM-Automatisierungsserver-Unterstützung, damit externe Programme oder Skripte EViews starten oder steuern können, Daten übertragen und EViews-Befehle ausführen können. EViews bietet COM-Automatisierungs-Client-Support-Anwendungen für MATLAB - und R-Server, so dass EViews zum Starten oder Steuern der Anwendung, zum Übertragen von Daten oder zum Ausführen von Befehlen verwendet werden können. Das EViews Microsoft Excel Add-In bietet eine einfache Schnittstelle zum Abrufen und Verknüpfen von Microsoft Excel (2000 und höher) zu Serien - und Matrixobjekten, die in EViews Workfiles und Datenbanken gespeichert sind. Die EViews Add-Ins-Infrastruktur bietet nahtlosen Zugriff auf benutzerdefinierte Programme mit dem Standard-EViews-Befehl, Menü und Objektschnittstelle. Laden und installieren Sie vordefinierte Add-Ins von der EViews-Website. Home ÜberKontakt Für Verkaufsinformationen wenden Sie sich bitte an saleseviews Für technische Unterstützung wenden Sie sich bitte per E-Mail an Supporteviews Bitte geben Sie Ihre Seriennummer mit allen E-Mail-Korrespondenz an. Für weitere Kontaktinformationen, siehe unsere About page. Crowdsourcing ist ein sehr beliebtes Mittel, um die großen Mengen an markierten Daten, die moderne Maschine Lernmethoden erfordern. Obwohl billig und schnell zu erhalten, leiden Crowdsourced Etiketten unter erheblichen Mengen an Fehler, wodurch die Leistung der nachgelagerten Maschinen Lernaufgaben verschlechtert. Mit dem Ziel, die Qualität der markierten Daten zu verbessern, versuchen wir, die vielen Fehler, die durch alberne Fehler oder unbeabsichtigte Fehler durch Crowdsourcing-Arbeiter auftreten, zu mildern. Wir schlagen eine zweistufige Einstellung für das Crowdsourcing vor, bei der der Arbeiter zuerst die Fragen beantwortet und dann erlaubt ist, ihre Antworten zu ändern, nachdem er eine (laute) Referenzantwort gesehen hat. Wir formulieren diesen Prozess mathematisch und entwickeln Mechanismen, um die Arbeiter dazu zu bewegen, angemessen zu handeln. Unsere mathematischen Garantien zeigen, dass unser Mechanismus die Arbeiter dazu anregt, ehrlich in beiden Stufen zu antworten und sich in der ersten Phase zufällig zu befreien oder einfach in die zweite zu kopieren. Numerische Experimente zeigen einen signifikanten Leistungsanstieg, den diese 8220self-Korrektur8221 bei der Verwendung von Crowdsourcing zur Verfügung stellen kann, um maschinelle Lernalgorithmen zu trainieren. Es gibt verschiedene parametrische Modelle für die Analyse von paarweisen Vergleichsdaten, einschließlich der Bradley-Terry-Luce (BTL) und Thurstone-Modelle, aber ihre Abhängigkeit von starken parametrischen Annahmen ist begrenzt. In dieser Arbeit untersuchen wir ein flexibles Modell für paarweise Vergleiche, unter denen die Wahrscheinlichkeiten der Ergebnisse nur erforderlich sind, um eine natürliche Form der stochastischen Transitivität zu erfüllen. Diese Klasse umfasst parametrische Modelle einschließlich der BTL - und Thurstone-Modelle als Sonderfälle, ist aber wesentlich allgemeiner. Wir bieten verschiedene Beispiele für Modelle in dieser breiteren stochastisch transitiven Klasse, für die klassische parametrische Modelle schlechte Anpassungen bieten. Trotz dieser größeren Flexibilität zeigen wir, dass die Matrix der Wahrscheinlichkeiten mit der gleichen Geschwindigkeit wie bei den parametrischen Standardmodellen geschätzt werden kann. Auf der anderen Seite, anders als bei den BTL - und Thurstone-Modellen, ist die Berechnung des minimax-optimalen Schätzers im stochastisch-transitiven Modell nicht trivial, und wir erforschen verschiedene rechenfähige Alternativen. Wir zeigen, dass ein einfacher singulärer Wert-Schwellenwert-Algorithmus statistisch konsistent ist, aber nicht die Minimax-Rate erreicht. Wir schlagen und studieren Algorithmen, die die Minimax-Rate über interessante Subklassen der vollen stochastisch transitiven Klasse erreichen. Wir ergänzen unsere theoretischen Ergebnisse mit gründlichen numerischen Simulationen. Wir zeigen, wie jedes binäre Paarungsmodell zu einem vollsymmetrischen Modell entwurzelt werden kann, wobei die ursprünglichen Singletonpotentiale in Potenziale an Kanten zu einer hinzugefügten Variablen umgewandelt und dann zu einem neuen Modell auf die ursprüngliche Anzahl von Variablen umgeleitet werden. Das neue Modell entspricht im Wesentlichen dem Originalmodell mit der gleichen Partitionsfunktion und ermöglicht die Wiederherstellung der ursprünglichen Rand - oder MAP-Conguration und kann jedoch sehr unterschiedliche Recheneigenschaften aufweisen, die eine wesentlich effizientere Schlußfolgerung ermöglichen. Dieser Meta-Ansatz vertieft unser Verständnis, kann auf jeden existierenden Algorithmus angewendet werden, um in der Praxis verbesserte Methoden zu liefern, verallgemeinert frühere theoretische Ergebnisse und zeigt eine bemerkenswerte Interpretation des Triplet-konsequenten Polytops. Wir zeigen, wie tiefe Lernmethoden im Zusammenhang mit dem Crowdsourcing und dem unüberwachten Ensemble-Lernen angewendet werden können. Zuerst beweisen wir, dass das populäre Modell von Dawid und Skene, das davon ausgeht, dass alle Klassifikatoren bedingt unabhängig sind, zu einer beschränkten Boltzmann-Maschine (RBM) mit einem einzigen versteckten Knoten ist. Daher können unter diesem Modell die hinteren Wahrscheinlichkeiten der wahren Etiketten stattdessen über eine trainierte RBM geschätzt werden. Als nächstes, um den allgemeineren Fall zu adressieren, wo Klassifikatoren die bedingte Unabhängigkeitsannahme stark verletzen können, schlagen wir vor, RBM-basiertes Deep Neural Net (DNN) anzuwenden. Experimentelle Ergebnisse auf verschiedenen simulierten und realen Daten-Datensätzen zeigen, dass unser vorgeschlagener DNN-Ansatz übertrifft andere state-of-the-art Methoden, insbesondere wenn die Daten gegen die bedingte Unabhängigkeitsannahme verstoßen. Revisiting Semi-Supervised Learning mit Graph Embeddings Zhilin Yang Carnegie Mellon University. William Cohen CMU Ruslan Salakhudinov U. von Toronto Paper AbstractWe präsentieren ein semi-überwachte Lern-Framework auf der Grundlage von Graph Embeddings. Bei einem Graphen zwischen den Instanzen trainieren wir eine Einbettung für jede Instanz, um gemeinsam das Klassenetikett und den Nachbarschaftskontext in der Grafik vorherzusagen. Wir entwickeln sowohl transduktive als auch induktive Varianten unserer Methode. In der Transduktionsvariante unserer Methode werden die Klassenetiketten sowohl durch die gelernten Einbettungen als auch durch die Eingabemerkmalvektoren bestimmt, während in der induktiven Variante die Einbettungen als parametrische Funktion der Merkmalsvektoren definiert sind, so dass Vorhersagen nicht auf Instanzen gemacht werden können Während des Trainings gesehen Auf einer großen und vielfältigen Reihe von Benchmark-Aufgaben, einschließlich Textklassifizierung, weitgehend überwachten Entity Extraction und Entity Klassifizierung, zeigen wir eine verbesserte Leistung über viele der bestehenden Modelle. Das Verstärkungslernen kann komplexe Verhaltensweisen aus hochrangigen Spezifikationen erwerben. Allerdings ist die Definition einer Kostenfunktion, die effektiv optimiert werden kann und die korrekte Aufgabe kodiert, in der Praxis anspruchsvoll. Wir erforschen, wie invers optimale Kontrolle (IOC) verwendet werden kann, um Verhaltensweisen von Demonstrationen zu erlernen, mit Anwendungen zur Drehmomentsteuerung von hochdimensionalen Robotersystemen. Unsere Methode adressiert zwei wesentliche Herausforderungen bei der inversen optimalen Steuerung: Erstens die Notwendigkeit von informativen Merkmalen und eine effektive Regularisierung, um die Kosten aufzuerlegen, und zweitens die Schwierigkeit, die Kostenfunktion unter unbekannter Dynamik für hochdimensionale kontinuierliche Systeme zu erlernen. Um die frühere Herausforderung zu bewältigen, stellen wir einen Algorithmus vor, der in der Lage ist, beliebige nichtlineare Kostenfunktionen wie neuronale Netze ohne akribische Merkmaltechnik zu erlernen. Um diese Herausforderung zu bewältigen, formulieren wir eine effiziente Stichproben-basierte Approximation für MaxEnt IOC. Wir bewerten unsere Methode auf einer Reihe von simulierten Aufgaben und realen Robotermanipulationsproblemen, was eine wesentliche Verbesserung gegenüber früheren Verfahren sowohl hinsichtlich der Komplexität der Aufgabe als auch der Effizienz der Probe zeigt. Beim Lernen latenter Variablenmodelle (LVMs) ist es wichtig, effektiv seltene Muster zu erfassen und die Modellgröße zu verkleinern, ohne die Modellierleistung zu opfern. Verschiedene Studien wurden durchgeführt, um eine LVM zu erarbeiten, die darauf abzielt, eine Vielzahl von latenten Komponenten in LVMs zu erlernen. Die meisten existierenden Studien fallen in ein regelmäßiges Regularisierungs-Framework, in dem die Komponenten über Punktschätzung gelernt werden. In diesem Beitrag untersuchen wir, wie man die LVMs im Paradigma des Bayesischen Lernens, die Vorteile hat, die zur Punktschätzung komplementär sind, wie z. B. die Verminderung der Überfüllung über die Modellmittelung und die Quantifizierung der Unsicherheit, Wir schlagen zwei Ansätze vor, die komplementäre Vorteile haben. Eines ist die Definition von Diversity-fördernden gegenseitigen Winkelprioren, die den Komponenten mit größeren gegenseitigen Winkeln, die auf dem Bayes'schen Netzwerk und der Mises-Fisher-Verteilung basieren, eine größere Dichte zuordnen und diese Vorrichtungen nutzen, um die Nachbarschaft über die Bayes-Regel zu beeinflussen. Wir entwickeln zwei effiziente, annähernde hintere Inferenzalgorithmen, die auf Variationsfolgerungen und Markov-Ketten-Monte-Carlo-Probenahme basieren. Der andere Ansatz besteht darin, eine differenzierungsfördernde Regularisierung direkt über die Post-Daten-Verteilung der Komponenten zu verhängen. Diese beiden Methoden werden auf die Bayessche Mischung von Experten-Modell angewendet, um die 8220experts8221 zu diversifizieren und experimentelle Ergebnisse zeigen die Wirksamkeit und Effizienz unserer Methoden zu fördern. Eine hochdimensionale nichtparametrische Regression ist ein inhärent schwieriges Problem mit bekannten unteren Schranken, die exponentiell in der Dimension abhängen. Eine populäre Strategie, um diesen Fluch der Dimensionalität zu lindern, besteht darin, additive Modelle von emph zu verwenden, die die Regressionsfunktion als Summe unabhängiger Funktionen auf jeder Dimension modellieren. Obwohl es bei der Steuerung der Varianz der Schätzung nützlich ist, sind solche Modelle in praktischen Einstellungen oft zu restriktiv. Zwischen nicht additiven Modellen, die oft große Varianz - und Erstkarton-Additivmodelle aufweisen, die eine große Vorspannung aufweisen, gab es wenig Arbeit, um den Kompromiss in der Mitte durch additive Modelle der Zwischendurchführung auszunutzen. In dieser Arbeit schlagen wir Salsa vor, die diese Lücke überbrückt, indem sie Interaktionen zwischen Variablen erlaubt, aber die Modellkapazität kontrolliert, indem sie die Reihenfolge der Interaktionen begrenzt. Salsas minimiert die verbleibende Summe der Quadrate mit quadratischen RKHS-Normstrafen. Algorithmisch kann es als Kernel Ridge Regression mit einem additiven Kernel betrachtet werden. Wenn die Regressionsfunktion additiv ist, ist das überschüssige Risiko nur Polynom in der Dimension. Mit den Girard-Newton-Formeln sammeln wir effizient eine kombinatorische Anzahl von Terme in der additiven Expansion. Über einen Vergleich auf 15 realen Datensätzen zeigen wir, dass unsere Methode gegen 21 andere Alternativen konkurrenzfähig ist. Wir schlagen eine Erweiterung der Hawkes-Prozesse vor, indem wir die Ebenen der Selbsterregung als stochastische Differentialgleichung behandeln. Unser neuer Punktprozess ermöglicht eine bessere Annäherung in Anwendungsbereichen, in denen sich Ereignisse und Intensitäten mit korrelierten Ansteckungsstufen beschleunigen. Wir verallgemeinern einen neueren Algorithmus zur Simulation von Ziehungen von Hawkes-Prozessen, deren Erregungsstufen stochastische Prozesse sind, und schlagen eine hybride Markov-Kette für den Monte-Carlo-Ansatz für die Modellanpassung vor. Unser Probenahmeverfahren skaliert linear mit der Anzahl der erforderlichen Ereignisse und erfordert keine Stationarität des Punktprozesses. Ein modulares Inferenzverfahren, das aus einer Kombination zwischen Gibbs und Metropolis Hastings besteht, wird vorgebracht. Wir erholen die Erwartungsmaximierung als Sonderfall. Unser allgemeiner Ansatz ist für die Ansteckung nach geometrischer Brownsche Bewegung und exponentieller Langevin-Dynamik dargestellt. Rank Aggregationssysteme sammeln Ordinalpräferenzen von Einzelpersonen, um ein globales Ranking zu produzieren, das die soziale Präferenz darstellt. Um die rechnerische Komplexität des Lernens des globalen Rankings zu reduzieren, ist eine gängige Praxis, das Ranking zu nutzen. Individuelle Präferenzen werden in paarweise Vergleiche zerlegt und dann auf effiziente Algorithmen angewendet, die auf unabhängige paarweise Vergleiche zugeschnitten sind. Allerdings können aufgrund der ignorierten Abhängigkeiten naive Rangbrechungsansätze zu inkonsistenten Schätzungen führen. Die wichtigste Idee, unvoreingenommene und genaue Schätzungen zu produzieren, besteht darin, die gepaarten Vergleichsergebnisse ungleich zu behandeln, abhängig von der Topologie der gesammelten Daten. In dieser Arbeit stellen wir den optimalen Rangbrecher-Schätzer zur Verfügung, der nicht nur Konsistenz erreicht, sondern auch die beste Fehlergrenze erreicht. Dies ermöglicht es uns, den fundamentalen Kompromiss zwischen Genauigkeit und Komplexität in einigen kanonischen Szenarien zu charakterisieren. Ferner identifizieren wir, wie die Genauigkeit von der spektralen Lücke eines entsprechenden Vergleichsgraphen abhängt. Dropout Destillation Samuel Rota Bul FBK. Lorenzo Porzi FBK. Peter Kontschieder Microsoft Research Cambridge Paper AbstractDropout ist eine populäre stochastische Regularisierungstechnik für tiefe neuronale Netze, die durch zufälliges Ablegen (d. H. Nullstellen) Einheiten aus dem Netzwerk während des Trainings funktioniert. Dieser Randomisierungsprozess ermöglicht es, implizit ein Ensemble von exponentiell vielen Netzwerken zu trainieren, die dieselbe Parametrisierung teilen, die zur Testzeit gemittelt werden sollte, um die endgültige Vorhersage zu liefern. Ein typischer Workaround für diesen unlösbaren Mittelungsvorgang besteht darin, die Schichten, die sich einer Dropout-Randomisierung unterziehen, zu skalieren. Diese einfache Regel namens 8216standard dropout8217 ist effizient, könnte aber die Genauigkeit der Vorhersage verschlechtern. In dieser Arbeit stellen wir einen neuartigen Ansatz vor, der eine Destillation8217 geprägt hat, die es uns ermöglicht, einen Prädiktor in einer Weise zu trainieren, um den unlösbaren, aber vorzuziehenden Mittelwertbildungsprozess besser zu approximieren, während er seine rechnerische Effizienz unter Kontrolle hält. Wir sind so in der Lage, Modelle zu konstruieren, die so effizient wie Standard-Dropout oder sogar noch effizienter sind, während sie genauer sind. Experimente zu Standard-Benchmark-Datensätzen zeigen die Gültigkeit unserer Methode und ergeben konsequente Verbesserungen gegenüber herkömmlichen Dropouts. Metadaten-bewusste anonyme Messaging Giulia Fanti UIUC. Peter Kairouz UIUC. Sewoong Oh UIUC. Kannan Ramchandran UC Berkeley. Pramod Viswanath UIUC Papier AbstractAnonymous Messaging-Plattformen wie Whisper und Yik Yak erlauben es Benutzern, Nachrichten über ein Netzwerk (z. B. ein soziales Netzwerk) zu verbreiten, ohne die Nachricht der Autorenschaft für andere Benutzer zu enthüllen. Die Verbreitung von Meldungen auf diesen Plattformen kann durch einen Diffusionsprozess über einen Graphen modelliert werden. Jüngste Fortschritte in der Netzwerkanalyse haben ergeben, dass solche Diffusionsprozesse anfällig für die Deanonymisierung des Autors durch Gegner mit Zugang zu Metadaten sind, wie z. B. Timing-Informationen. In dieser Arbeit bitten wir die grundlegende Frage, wie man anonyme Nachrichten über ein Diagramm ausbreitet, um es den Gegnern schwer zu machen, die Quelle zu schließen. Insbesondere untersuchen wir die Leistungsfähigkeit eines Message-Propagationsprotokolls namens adaptive Diffusion (Fanti et al., 2015). Wir beweisen, dass, wenn der Gegner Zugang zu Metadaten in einem Bruchteil von beschädigten Graphenknoten hat, die adaptive Diffusion ein asymptotisch optimales Quellen-Verstecken erreicht und die Standarddiffusion deutlich übertrifft. Wir zeigen weiterhin empirisch, dass die adaptive Diffusion die Quelle effektiv auf echte soziale Netzwerke verbirgt. Die Lehre Dimension der Linearen Lernenden Ji Liu Universität von Rochester. Xiaojin Zhu Universität von Wisconsin. Hrag Ohannessian University of Wisconsin-Madison Paper AbstractTeaching Dimension ist eine Lerntheoretische Menge, die die minimale Trainingssatzgröße spezifiziert, um ein Zielmodell einem Lernenden zu unterrichten. Bisherige Studien zur Unterrichtsdimension konzentrierten sich auf Version-Space-Lernende, die alle Hypothesen im Einklang mit den Trainingsdaten pflegen und nicht auf moderne Maschinenlehrer angewendet werden können, die eine spezifische Hypothese durch Optimierung auswählen. Dieses Papier präsentiert die erste bekannte Lehre Dimension für Ridge Regression, Unterstützung Vektor-Maschinen und logistische Regression. Wir zeigen auch optimale Trainings-Sets, die diesen Unterrichtsdimensionen entsprechen. Unser Ansatz verallgemeinert sich anderen linearen Lernenden. Wahrhaftige Univariate Schätzer Ioannis Caragiannis Universität von Patras. Ariel Procaccia Carnegie Mellon Universität. Nisarg Shah Carnegie Mellon University Paper AbstractWe revisit das klassische Problem der Schätzung der Bevölkerung Mittel einer unbekannten eindimensionalen Verteilung von Proben, die eine spiel-theoretische Sichtweise. In unserer Einstellung werden Proben von strategischen Agenten geliefert, die die Schätzung so nah wie möglich an ihren eigenen Wert ziehen wollen. In dieser Einstellung führt der Stichprobenmittel zu Manipulationsmöglichkeiten, während der Stichprobenmedian nicht. Unsere zentrale Frage ist, ob die Probe Median ist die beste (in Bezug auf die mittlere quadratische Fehler) wahrheitsgemäße Schätzer der Bevölkerung bedeuten. Wir zeigen, dass, wenn die zugrunde liegende Verteilung symmetrisch ist, wahrheitsgemäße Schätzer sind, die den Median dominieren. Unser Hauptergebnis ist eine Charakterisierung von Worst-Case-optimalen wahrheitsgemäßen Schätzern, die den Median nachweislich übertreffen, für evtl. asymmetrische Verteilungen mit beschränkter Unterstützung. Warum Regularized Auto-Encoder lernen Sparse Repräsentation Devansh Arpit SUNY Buffalo. Yingbo Zhou SUNY Büffel. Hung Ngo SUNY Büffel. Venu Govindaraju SUNY Buffalo Paper AbstractSparse verteilte Darstellung ist der Schlüssel zum Erlernen nützlicher Features in tiefen Lernalgorithmen, denn nicht nur eine effiziente Art der Datenrepräsentation, sondern auch 8212 wichtiger 8212 fängt er den Generierungsprozess der meisten realen Weltdaten ein. Während eine Reihe von regulierten Auto-Encodern (AE) Sparsity explizit in ihrer gelehrten Repräsentation durchführen und andere don8217t, hat es wenig formale Analyse auf, was die Sparsamität in diesen Modellen im Allgemeinen fördert. Unser Ziel ist es, dieses allgemeine Problem für regelmäßige Auto-Encoder formal zu untersuchen. Wir bieten ausreichende Bedingungen für die Regularisierung und Aktivierungsfunktionen, die die Sparsamkeit fördern. Wir zeigen, dass mehrere populäre Modelle (Entlüftungs-und kontraktiver Auto-Encoder, z. B.) und Aktivierungen (gleichgerichtete lineare und sigmoid, z. B.) diese Bedingungen erfüllen, so dass unsere Bedingungen dazu beitragen, Spärlichkeit in ihrer gelehrten Darstellung zu erklären. So beleuchten unsere theoretischen und empirischen Analysen gemeinsam die Eigenschaften der Regularisierungsaktivierung, die zur Sparsamkeit leitend sind und eine Reihe von existierenden Auto-Encoder-Modellen und Aktivierungsfunktionen unter demselben analytischen Rahmen vereinheitlichen. K-variiert: mehr plus in der k-bedeutet Richard Nock Nicta 038 ANU. Raphael Canyasse Ecole Polytechnique und die Technion. Roksana Boreli Daten61. Frank Nielsen Ecole Polytechnique und Sony CS Labs Inc. Papier Abstractk-bedeutet Seeding ist ein De-facto-Standard für Hard-Clustering-Algorithmen geworden. In diesem Beitrag ist unser erster Beitrag eine Zwei-Wege-Verallgemeinerung dieser Seeding, k-Variate, die die Probenahme von allgemeinen Dichten enthält, anstatt nur einen diskreten Satz von Dirac-Dichten, die an den Punktstellen verankert sind, Textit eine Verallgemeinerung der bekannten Arthur-Vassilvitskii (AV) Näherungsgarantie, in Form einer Textit-Näherung, die an das Text-Optimum gebunden ist. Diese Annäherung zeigt eine reduzierte Abhängigkeit von der Komponente 8220noise8221 in Bezug auf das optimale Potential 8212, das sich tatsächlich der statistischen unteren Grenze nähert. Wir zeigen, dass k-Variate Textit auf effiziente (voreingenommene Seeding) Clustering-Algorithmen, die auf bestimmte Frameworks zugeschnitten sind, darunter verteilte, Streaming - und On-line-Clustering, mit Textit-Approximations-Ergebnissen für diese Algorithmen. Schließlich präsentieren wir eine neuartige Anwendung von k-Variaten auf differenzierte Privatsphäre. Für die hier betrachteten spezifischen Rahmenbedingungen oder für die differenzielle Privatsphäre-Einstellung gibt es wenig bis keine vorherigen Ergebnisse bei der direkten Anwendung von k-Mitteln und deren Näherungsgrenzen 8212 Stand der Technik-Konkurrenten scheinen deutlich komplexer zu sein und weniger anzuzeigen Günstige (approximative) Eigenschaften. Wir betonen, dass unsere Algorithmen immer noch in Fällen ausgeführt werden können, in denen es eine textit geschlossene Formularlösung für den Populationsminimierer gibt. Wir zeigen die Anwendbarkeit unserer Analyse durch experimentelle Auswertung auf mehrere Domains und Einstellungen und zeigen Wettbewerbsvorteile gegenüber dem Stand der Technik. Multi-Player Banditen 8212 ein Musikstühle Ansatz Jonathan Rosenski Weizmann Institut für Wissenschaft. Ohad Shamir Weizmann Institut für Wissenschaft. Liran Szlak Weizmann Institut für Wissenschaftspapier AbstractWir betrachten eine Variante des stochastischen, mehrarmigen Banditenproblems, bei der mehrere Spieler gleichzeitig aus demselben Wappen wählen und kollidieren und keine Belohnung erhalten können. Diese Einstellung wurde durch Probleme in kognitiven Funknetzen motiviert und ist unter der realistischen Annahme, dass die Kommunikation zwischen den Spielern begrenzt ist, besonders herausfordernd. Wir bieten Ihnen einen kommunikationsfreien Algorithmus (Musical Chairs), der mit hoher Wahrscheinlichkeit ein ständiges Bedauern erhält, sowie einen sublinear bedauernden, kommunikationsfreien Algorithmus (Dynamic Musical Chairs) für die schwierigere Einstellung von Spielern, die dynamisch in das Spiel eintreten und verlassen werden . Darüber hinaus benötigen beide Algorithmen keine Vorkenntnisse über die Anzahl der Spieler. Nach unserem besten Wissen sind dies die ersten kommunikationsfreien Algorithmen mit diesen formalen Garantien. Das Informations-Sieb Greg Ver Steeg Information Sciences Institute. Aram Galstyan Information Sciences Institute Paper AbstractWir stellen einen neuen Rahmen für das unbeaufsichtigte Lernen von Darstellungen auf der Grundlage einer neuartigen hierarchischen Zerlegung von Informationen vor. Intuitiv werden Daten durch eine Reihe von progressiv feinkörnigen Sieben geführt. Jede Schicht des Siebes erholt einen einzigen latenten Faktor, der maximal informativ über die multivariate Abhängigkeit in den Daten ist. Die Daten werden nach jedem Pass transformiert, so dass die verbleibenden unerklärlichen Informationen auf die nächste Ebene herunterrutschen. Letztlich sind wir mit einem Satz von latenten Faktoren, die alle Abhängigkeit in den ursprünglichen Daten und Rest-Informationen, die aus unabhängigem Rauschen. Wir stellen eine praktische Umsetzung dieses Frameworks für diskrete Variablen vor und wenden sie auf eine Vielzahl von grundlegenden Aufgaben in unbeaufsichtigtem Lernen an, einschließlich unabhängiger Komponentenanalyse, verlustbehafter und verlustfreier Komprimierung und Vorhersage fehlender Datenwerte. Deep Speech 2. End-to-End Spracherkennung in Englisch und Mandarin Dario Amodei. Rishita Anubhai Eric Battenberg. Carl Fall. Jared Casper Bryan Catanzaro JingDong Chen. Mike Chrzanowski Baidu USA, Inc. Adam Coates Greg Diamos Baidu USA, Inc. Erich Elsen Baidu USA, Inc. Jesse Engel Linxi Fan. Christopher Fougner. Awni Hannun Baidu USA, Inc. Billy Jun. Tony Han Patrick LeGresley Xiangang Li Baidu Libby Lin Sharan Narang Andrew Ng. Sherjil Ozair Ryan Prenger Sheng Qian Baidu Jonathan Raiman Sanjeev Satheesh Baidu SVAIL. David Seetapun Shubho Sengupta Chong Wang Yi Wang Zhiqian Wang. Bo Xiao Yan Xie Baidu Dani Yogatama Jun Zhan Zhenyao Zhu Papier AbstractWe zeigen, dass ein End-to-End-tiefen Lernansatz verwendet werden kann, um entweder englische oder Mandarin-chinesische Rede zu verschiedensten Sprachen zu erkennen. Weil es ganze Pipelines von handgefertigten Komponenten mit neuronalen Netzwerken ersetzt, ermöglicht es uns, das Lern-to-End-Lernen mit einer Vielzahl von Sprachkenntnissen zu verarbeiten, darunter laute Umgebungen, Akzente und verschiedene Sprachen. Der Schlüssel zu unserem Ansatz ist unsere Anwendung von HPC-Techniken, die Experimente ermöglichen, die bisher Wochen dauerten, um jetzt in Tagen zu laufen. Dies ermöglicht es uns, schneller zu iterieren, um überlegene Architekturen und Algorithmen zu identifizieren. Infolgedessen ist unser System in mehreren Fällen mit der Transkription von menschlichen Arbeitnehmern konkurrenzfähig, wenn sie auf Standard-Datensätzen benannt sind. Schließlich zeigen wir mit einer Technik namens Batch Dispatch mit GPUs im Rechenzentrum, dass unser System kostengünstig in einer Online-Einstellung eingesetzt werden kann und eine geringe Latenz bei der Bedienung von Nutzern im Maßstab liefert. Eine wichtige Frage in der Merkmalsauswahl ist, ob eine Auswahlstrategie den 8220true8221 Satz von Features zurückgibt, genügend Daten. Wir untersuchen diese Frage im Rahmen der beliebten Least Absolute Shrinkage and Selection Operator (Lasso) Feature Auswahl Strategie. Insbesondere betrachten wir das Szenario, wenn das Modell missverstanden ist, so dass das gelernte Modell linear ist, während das zugrunde liegende reale Ziel nichtlinear ist. Überraschenderweise beweisen wir, dass Lasso unter bestimmten Voraussetzungen in diesem Fall immer noch die richtigen Eigenschaften wiederherstellen kann. Wir führen auch numerische Studien durch, um die theoretischen Ergebnisse empirisch zu verifizieren und die Notwendigkeit der Bedingungen zu ermitteln, unter denen der Beweis vorliegt. Wir schlagen eine Mindestrettungssuche (MRS) vor, eine neuartige Erfassungsfunktion für die Bayes'sche Optimierung. MRS trägt Ähnlichkeiten mit informationstheoretischen Ansätzen wie Entropie-Suche (ES). Doch während ES in jeder Abfrage bei der Maximierung des Informationsgewinns in Bezug auf das globale Maximum zielt, zielt MRS darauf ab, das erwartete einfache Bedauern seiner endgültigen Empfehlung für das Optimum zu minimieren. Während empirisch ES und MRS in den meisten Fällen ähnlich sind, produziert MRS weniger Ausreißer mit hohem einfachem Bedauern als ES. Wir liefern empirische Ergebnisse sowohl für ein synthetisches Single-Task-Optimierungsproblem als auch für ein simuliertes Multi-Task-Roboter-Steuerungsproblem. CryptoNets: Anwenden von Neuronalen Netzwerken auf verschlüsselte Daten mit hohem Durchsatz und Genauigkeit Ran Gilad-Bachrach Microsoft Research. Nathan Dowlin Princeton. Kim Laine Microsoft Research Kristin Lauter Microsoft Research Michael Naehrig Microsoft Research John Wernsing Microsoft Research Paper AbstractApplying Maschine Lernen zu einem Problem, das medizinische, finanzielle oder andere Arten von sensiblen Daten beinhaltet, erfordert nicht nur genaue Vorhersagen, sondern auch sorgfältige Aufmerksamkeit auf die Aufrechterhaltung der Privatsphäre und Sicherheit. Rechtliche und ethische Anforderungen können den Einsatz von Cloud-basierten Lernlösungen für solche Aufgaben verhindern. In dieser Arbeit werden wir eine Methode vorstellen, um gelehrte neuronale Netze in CryptoNets umzuwandeln, neuronale Netze, die auf verschlüsselte Daten angewendet werden können. Dies ermöglicht es einem Dateneigentümer, seine Daten in einer verschlüsselten Form an einen Cloud-Dienst zu senden, der das Netzwerk hostet. Die Verschlüsselung stellt sicher, dass die Daten vertraulich bleiben, da die Cloud keinen Zugriff auf die Schlüssel hat, die benötigt werden, um sie zu entschlüsseln. Dennoch zeigen wir, dass der Cloud-Service in der Lage ist, das neuronale Netzwerk auf die verschlüsselten Daten anzuwenden, um verschlüsselte Vorhersagen zu machen und sie auch in verschlüsselter Form zurückzugeben. Diese verschlüsselten Vorhersagen können an den Besitzer des geheimen Schlüssels zurückgesandt werden, der sie entschlüsseln kann. Daher erhält der Cloud Service keine Informationen über die Rohdaten noch über die Vorhersage, die es gemacht hat. Wir zeigen CryptoNets auf den MNIST optischen Zeichenerkennungsaufgaben. CryptoNets erreichen 99 Genauigkeit und können rund 59000 Vorhersagen pro Stunde auf einem einzigen PC machen. Daher erlauben sie einen hohen Durchsatz, genaue und private Vorhersagen. Spektrale Methoden zur Dimensionsreduktion und Clusterbildung erfordern das Lösen eines Eigenproblems, das durch eine spärliche Affinitätsmatrix definiert ist. Wenn diese Matrix groß ist, sucht man eine ungefähre Lösung. Der Standard Weg, dies zu tun ist die Nystrom-Methode, die zuerst löst ein kleines Eigenproblem unter Berücksichtigung nur eine Teilmenge von Wahrzeichen Punkte, und dann wendet eine Out-of-Beispiel-Formel, um die Lösung auf den gesamten Datensatz zu extrapolieren. Wir zeigen, dass durch die Einschränkung des ursprünglichen Problems, um die Nystrom-Formel zu erfüllen, eine Annäherung erhalten, die rechnerisch einfach und effizient ist, aber einen niedrigeren Näherungsfehler mit weniger Landmarken und weniger Laufzeit erreicht. Wir untersuchen auch die Rolle der Normalisierung in den Rechenkosten und der Qualität der resultierenden Lösung. Als weit verbreitete nichtlineare Aktivierung trennt die rektifizierte Lineareinheit (ReLU) Rauschen und Signal in einer Merkmalskarte, indem sie eine Schwelle oder eine Vorspannung erlernt. Allerdings argumentieren wir, dass die Klassifizierung von Rauschen und Signal nicht nur von der Größe der Antworten abhängt, sondern auch der Kontext, wie die Merkmalsreaktionen verwendet werden, um abstraktere Muster in höheren Schichten zu erkennen. Um mehrere Antwortkarten mit Größenordnungen in verschiedenen Bereichen für ein bestimmtes visuelles Muster auszugeben, müssen bestehende Netzwerke, die ReLU und ihre Varianten einsetzen, eine große Anzahl redundanter Filter lernen. In diesem Papier schlagen wir eine Multi-Bias Nicht-Linear-Aktivierung (MBA) - Schicht vor, um die Informationen zu untersuchen, die in den Größen der Antworten verborgen sind. Es wird nach der Faltungsschicht platziert, um die Antworten auf einen Faltungskernel in mehrere Karten durch Multiverschwemmungsgrößen zu entkoppeln, wodurch mehr Muster in dem Merkmalsraum zu niedrigen Rechenkosten erzeugt werden. Es bietet eine große Flexibilität, Antworten auf verschiedene visuelle Muster in verschiedenen Größenbereichen auszuwählen, um reiche Darstellungen in höheren Schichten zu bilden. Solch ein einfaches und dennoch effektives Schema erreicht die State-of-the-Art Leistung auf mehreren Benchmarks. Wir schlagen eine neuartige Multitask-Lernmethode vor, die den Effekt der negativen Übertragung minimieren kann, indem sie eine asymmetrische Übertragung zwischen den Aufgaben, die auf der Aufgabenverwandtschaft basieren, sowie die Menge der einzelnen Aufgabenverluste, die wir als asymmetrisches Multi-Task Learning (AMTL) bezeichnen ). Um dieses Problem zu lösen, koppeln wir mehrere Aufgaben über einen spärlichen, gerichteten Regularisierungsgraphen, der jeden zu rekonstruierenden Aufgabenparameter als eine spärliche Kombination anderer Aufgaben erzwingt, die auf der Grundlage des aufgabenbezogenen Verlustes ausgewählt werden. Wir stellen zwei verschiedene Algorithmen vor, um dieses gemeinsame Lernen der Task-Prädiktoren und des Regularisierungsgraphen zu lösen. Der erste Algorithmus löst für das ursprüngliche Lernziel mit alternativer Optimierung, und der zweite Algorithmus löst eine Annäherung davon mit Curriculum Learning Strategie, die eine Aufgabe zu einem Zeitpunkt lernt. Wir führen Experimente zu mehreren Datensätzen für Klassifizierung und Regression durch, auf denen wir signifikante Verbesserungen in der Leistung über die einzelnen Aufgaben lernen und symmetrische Multitasking Lern-Basislinien erhalten. Dieses Papier veranschaulicht einen neuartigen Ansatz zur Schätzung des Verallgemeinerungsfehlers von Entscheidungsbaumklassifizierern. Wir haben die Untersuchung von Entscheidungsbaumfehlern im Kontext der Konsistenzanalytiktheorie aufgestellt, was bewies, dass der Bayes-Fehler nur dann erreicht werden kann, wenn die Anzahl der in jeden Blattknoten geworfenen Datenproben in unendlich geht. Für den anspruchsvolleren und praktischeren Fall, bei dem die Stichprobengröße endlich oder klein ist, wird in diesem Papier ein neuer Stichprobenfehlerbegriff eingeführt, um das kleine Probenproblem effektiv und effizient zu bewältigen. Umfangreiche experimentelle Ergebnisse zeigen, dass die vorgeschlagene Fehlerabschätzung den bekannten K-fach Kreuzvalidierungsverfahren hinsichtlich Robustheit und Genauigkeit überlegen ist. Darüber hinaus sind Größenordnungen effizienter als Cross-Validierungsmethoden. Wir untersuchen die Konvergenz-Eigenschaften des VR-PCA-Algorithmus, der von cite zur schnellen Berechnung von führenden singulären Vektoren eingeführt wurde. Wir beweisen mehrere neue Ergebnisse, darunter eine formale Analyse einer Blockversion des Algorithmus und Konvergenz aus der zufälligen Initialisierung. Wir machen auch einige Beobachtungen von eigenem Interesse, wie zB die Vorinitialisierung mit nur einer einzigen exakten Leistungsiteration die Analyse deutlich verbessern kann und was sind die Konvexitäts - und Nichtkonvexitätseigenschaften des zugrunde liegenden Optimierungsproblems. Wir betrachten das Problem der Hauptkomponentenanalyse (PCA) in einer strömenden stochastischen Umgebung, wo unser Ziel ist, eine Richtung der ungefähren maximalen Varianz zu finden, basierend auf einem Strom von i. i.d. Datenpunkte in realsd. Ein einfacher und rechnerisch günstiger Algorithmus dafür ist ein stochastischer Gradientenabfall (SGD), der in schrittweise seine Schätzung basierend auf jedem neuen Datenpunkt aktualisiert. Aufgrund der nicht konvexen Natur des Problems war die Analyse ihrer Leistung jedoch eine Herausforderung. Insbesondere bestehen bestehende Garantien auf einer nicht-trivialen Eigengap-Annahme auf der Kovarianzmatrix, die intuitiv unnötig ist. In dieser Arbeit stellen wir (nach bestem Wissen) die ersten eigengap-freien Konvergenzgarantien für SGD im Rahmen von PCA zur Verfügung. Dies löst auch teilweise ein offenes Problem in zitiert. Darüber hinaus zeigen wir unter einer eigengap-Annahme, dass die gleichen Techniken zu einer neuen SGD-Konvergenzgarantie mit einer besseren Abhängigkeit von der Eigengase führen. Dealbreaker: Ein nichtlineares latentes Variablenmodell für Bildungsdaten Andrew Lan Rice University. Tom Goldstein Universität von Maryland. Richard Baraniuk Rice University. Christoph Studer Cornell University Paper AbstractStatistical models of student responses on assessment questions, such as those in homeworks and exams, enable educators and computer-based personalized learning systems to gain insights into students knowledge using machine learning. Popular student-response models, including the Rasch model and item response theory models, represent the probability of a student answering a question correctly using an affine function of latent factors. While such models can accurately predict student responses, their ability to interpret the underlying knowledge structure (which is certainly nonlinear) is limited. In response, we develop a new, nonlinear latent variable model that we call the dealbreaker model, in which a students success probability is determined by their weakest concept mastery. We develop efficient parameter inference algorithms for this model using novel methods for nonconvex optimization. We show that the dealbreaker model achieves comparable or better prediction performance as compared to affine models with real-world educational datasets. We further demonstrate that the parameters learned by the dealbreaker model are interpretablethey provide key insights into which concepts are critical (i. e. the dealbreaker) to answering a question correctly. We conclude by reporting preliminary results for a movie-rating dataset, which illustrate the broader applicability of the dealbreaker model. We derive a new discrepancy statistic for measuring differences between two probability distributions based on combining Stein8217s identity and the reproducing kernel Hilbert space theory. We apply our result to test how well a probabilistic model fits a set of observations, and derive a new class of powerful goodness-of-fit tests that are widely applicable for complex and high dimensional distributions, even for those with computationally intractable normalization constants. Both theoretical and empirical properties of our methods are studied thoroughly. Variable Elimination in the Fourier Domain Yexiang Xue Cornell University . Stefano Ermon . Ronan Le Bras Cornell University . Carla . Bart Paper AbstractThe ability to represent complex high dimensional probability distributions in a compact form is one of the key insights in the field of graphical models. Factored representations are ubiquitous in machine learning and lead to major computational advantages. We explore a different type of compact representation based on discrete Fourier representations, complementing the classical approach based on conditional independencies. We show that a large class of probabilistic graphical models have a compact Fourier representation. This theoretical result opens up an entirely new way of approximating a probability distribution. We demonstrate the significance of this approach by applying it to the variable elimination algorithm. Compared with the traditional bucket representation and other approximate inference algorithms, we obtain significant improvements. Low-rank matrix approximation has been widely adopted in machine learning applications with sparse data, such as recommender systems. However, the sparsity of the data, incomplete and noisy, introduces challenges to the algorithm stability 8212 small changes in the training data may significantly change the models. As a result, existing low-rank matrix approximation solutions yield low generalization performance, exhibiting high error variance on the training dataset, and minimizing the training error may not guarantee error reduction on the testing dataset. In this paper, we investigate the algorithm stability problem of low-rank matrix approximations. We present a new algorithm design framework, which (1) introduces new optimization objectives to guide stable matrix approximation algorithm design, and (2) solves the optimization problem to obtain stable low-rank approximation solutions with good generalization performance. Experimental results on real-world datasets demonstrate that the proposed work can achieve better prediction accuracy compared with both state-of-the-art low-rank matrix approximation methods and ensemble methods in recommendation task. Given samples from two densities p and q, density ratio estimation (DRE) is the problem of estimating the ratio pq. Two popular discriminative approaches to DRE are KL importance estimation (KLIEP), and least squares importance fitting (LSIF). In this paper, we show that KLIEP and LSIF both employ class-probability estimation (CPE) losses. Motivated by this, we formally relate DRE and CPE, and demonstrate the viability of using existing losses from one problem for the other. For the DRE problem, we show that essentially any CPE loss (eg logistic, exponential) can be used, as this equivalently minimises a Bregman divergence to the true density ratio. We show how different losses focus on accurately modelling different ranges of the density ratio, and use this to design new CPE losses for DRE. For the CPE problem, we argue that the LSIF loss is useful in the regime where one wishes to rank instances with maximal accuracy at the head of the ranking. In the course of our analysis, we establish a Bregman divergence identity that may be of independent interest. We study nonconvex finite-sum problems and analyze stochastic variance reduced gradient (SVRG) methods for them. SVRG and related methods have recently surged into prominence for convex optimization given their edge over stochastic gradient descent (SGD) but their theoretical analysis almost exclusively assumes convexity. In contrast, we prove non-asymptotic rates of convergence (to stationary points) of SVRG for nonconvex optimization, and show that it is provably faster than SGD and gradient descent. We also analyze a subclass of nonconvex problems on which SVRG attains linear convergence to the global optimum. We extend our analysis to mini-batch variants of SVRG, showing (theoretical) linear speedup due to minibatching in parallel settings. Hierarchical Variational Models Rajesh Ranganath . Dustin Tran Columbia University . Blei David Columbia Paper AbstractBlack box variational inference allows researchers to easily prototype and evaluate an array of models. Recent advances allow such algorithms to scale to high dimensions. However, a central question remains: How to specify an expressive variational distribution that maintains efficient computation To address this, we develop hierarchical variational models (HVMs). HVMs augment a variational approximation with a prior on its parameters, which allows it to capture complex structure for both discrete and continuous latent variables. The algorithm we develop is black box, can be used for any HVM, and has the same computational efficiency as the original approximation. We study HVMs on a variety of deep discrete latent variable models. HVMs generalize other expressive variational distributions and maintains higher fidelity to the posterior. The field of mobile health (mHealth) has the potential to yield new insights into health and behavior through the analysis of continuously recorded data from wearable health and activity sensors. In this paper, we present a hierarchical span-based conditional random field model for the key problem of jointly detecting discrete events in such sensor data streams and segmenting these events into high-level activity sessions. Our model includes higher-order cardinality factors and inter-event duration factors to capture domain-specific structure in the label space. We show that our model supports exact MAP inference in quadratic time via dynamic programming, which we leverage to perform learning in the structured support vector machine framework. We apply the model to the problems of smoking and eating detection using four real data sets. Our results show statistically significant improvements in segmentation performance relative to a hierarchical pairwise CRF. Binary embeddings with structured hashed projections Anna Choromanska Courant Institute, NYU . Krzysztof Choromanski Google Research NYC . Mariusz Bojarski NVIDIA . Tony Jebara Columbia . Sanjiv Kumar . Yann Paper AbstractWe consider the hashing mechanism for constructing binary embeddings, that involves pseudo-random projections followed by nonlinear (sign function) mappings. The pseudorandom projection is described by a matrix, where not all entries are independent random variables but instead a fixed budget of randomness is distributed across the matrix. Such matrices can be efficiently stored in sub-quadratic or even linear space, provide reduction in randomness usage (i. e. number of required random values), and very often lead to computational speed ups. We prove several theoretical results showing that projections via various structured matrices followed by nonlinear mappings accurately preserve the angular distance between input high-dimensional vectors. To the best of our knowledge, these results are the first that give theoretical ground for the use of general structured matrices in the nonlinear setting. In particular, they generalize previous extensions of the Johnson - Lindenstrauss lemma and prove the plausibility of the approach that was so far only heuristically confirmed for some special structured matrices. Consequently, we show that many structured matrices can be used as an efficient information compression mechanism. Our findings build a better understanding of certain deep architectures, which contain randomly weighted and untrained layers, and yet achieve high performance on different learning tasks. We empirically verify our theoretical findings and show the dependence of learning via structured hashed projections on the performance of neural network as well as nearest neighbor classifier. A Variational Analysis of Stochastic Gradient Algorithms Stephan Mandt Columbia University . Matthew Hoffman Adobe Research . Blei David Columbia Paper AbstractStochastic Gradient Descent (SGD) is an important algorithm in machine learning. With constant learning rates, it is a stochastic process that, after an initial phase of convergence, generates samples from a stationary distribution. We show that SGD with constant rates can be effectively used as an approximate posterior inference algorithm for probabilistic modeling. Specifically, we show how to adjust the tuning parameters of SGD such as to match the resulting stationary distribution to the posterior. This analysis rests on interpreting SGD as a continuous-time stochastic process and then minimizing the Kullback-Leibler divergence between its stationary distribution and the target posterior. (This is in the spirit of variational inference.) In more detail, we model SGD as a multivariate Ornstein-Uhlenbeck process and then use properties of this process to derive the optimal parameters. This theoretical framework also connects SGD to modern scalable inference algorithms we analyze the recently proposed stochastic gradient Fisher scoring under this perspective. We demonstrate that SGD with properly chosen constant rates gives a new way to optimize hyperparameters in probabilistic models. This paper proposes a new mechanism for sampling training instances for stochastic gradient descent (SGD) methods by exploiting any side-information associated with the instances (for e. g. class-labels) to improve convergence. Previous methods have either relied on sampling from a distribution defined over training instances or from a static distribution that fixed before training. This results in two problems a) any distribution that is set apriori is independent of how the optimization progresses and b) maintaining a distribution over individual instances could be infeasible in large-scale scenarios. In this paper, we exploit the side information associated with the instances to tackle both problems. More specifically, we maintain a distribution over classes (instead of individual instances) that is adaptively estimated during the course of optimization to give the maximum reduction in the variance of the gradient. Intuitively, we sample more from those regions in space that have a textit gradient contribution. Our experiments on highly multiclass datasets show that our proposal converge significantly faster than existing techniques. Tensor regression has shown to be advantageous in learning tasks with multi-directional relatedness. Given massive multiway data, traditional methods are often too slow to operate on or suffer from memory bottleneck. In this paper, we introduce subsampled tensor projected gradient to solve the problem. Our algorithm is impressively simple and efficient. It is built upon projected gradient method with fast tensor power iterations, leveraging randomized sketching for further acceleration. Theoretical analysis shows that our algorithm converges to the correct solution in fixed number of iterations. The memory requirement grows linearly with the size of the problem. We demonstrate superior empirical performance on both multi-linear multi-task learning and spatio-temporal applications. This paper presents a novel distributed variational inference framework that unifies many parallel sparse Gaussian process regression (SGPR) models for scalable hyperparameter learning with big data. To achieve this, our framework exploits a structure of correlated noise process model that represents the observation noises as a finite realization of a high-order Gaussian Markov random process. By varying the Markov order and covariance function for the noise process model, different variational SGPR models result. This consequently allows the correlation structure of the noise process model to be characterized for which a particular variational SGPR model is optimal. We empirically evaluate the predictive performance and scalability of the distributed variational SGPR models unified by our framework on two real-world datasets. Online Stochastic Linear Optimization under One-bit Feedback Lijun Zhang Nanjing University . Tianbao Yang University of Iowa . Rong Jin Alibaba Group . Yichi Xiao Nanjing University . Zhi-hua Zhou Paper AbstractIn this paper, we study a special bandit setting of online stochastic linear optimization, where only one-bit of information is revealed to the learner at each round. This problem has found many applications including online advertisement and online recommendation. We assume the binary feedback is a random variable generated from the logit model, and aim to minimize the regret defined by the unknown linear function. Although the existing method for generalized linear bandit can be applied to our problem, the high computational cost makes it impractical for real-world applications. To address this challenge, we develop an efficient online learning algorithm by exploiting particular structures of the observation model. Specifically, we adopt online Newton step to estimate the unknown parameter and derive a tight confidence region based on the exponential concavity of the logistic loss. Our analysis shows that the proposed algorithm achieves a regret bound of O(dsqrt ), which matches the optimal result of stochastic linear bandits. We present an adaptive online gradient descent algorithm to solve online convex optimization problems with long-term constraints, which are constraints that need to be satisfied when accumulated over a finite number of rounds T, but can be violated in intermediate rounds. For some user-defined trade-off parameter beta in (0, 1), the proposed algorithm achieves cumulative regret bounds of O(Tmax ) and O(T ), respectively for the loss and the constraint violations. Our results hold for convex losses, can handle arbitrary convex constraints and rely on a single computationally efficient algorithm. Our contributions improve over the best known cumulative regret bounds of Mahdavi et al. (2012), which are respectively O(T12) and O(T34) for general convex domains, and respectively O(T23) and O(T23) when the domain is further restricted to be a polyhedral set. We supplement the analysis with experiments validating the performance of our algorithm in practice. Motivated by an application of eliciting users8217 preferences, we investigate the problem of learning hemimetrics, i. e. pairwise distances among a set of n items that satisfy triangle inequalities and non-negativity constraints. In our application, the (asymmetric) distances quantify private costs a user incurs when substituting one item by another. We aim to learn these distances (costs) by asking the users whether they are willing to switch from one item to another for a given incentive offer. Without exploiting structural constraints of the hemimetric polytope, learning the distances between each pair of items requires Theta(n2) queries. We propose an active learning algorithm that substantially reduces this sample complexity by exploiting the structural constraints on the version space of hemimetrics. Our proposed algorithm achieves provably-optimal sample complexity for various instances of the task. For example, when the items are embedded into K tight clusters, the sample complexity of our algorithm reduces to O(n K). Extensive experiments on a restaurant recommendation data set support the conclusions of our theoretical analysis. We present an approach for learning simple algorithms such as copying, multi-digit addition and single digit multiplication directly from examples. Our framework consists of a set of interfaces, accessed by a controller. Typical interfaces are 1-D tapes or 2-D grids that hold the input and output data. For the controller, we explore a range of neural network-based models which vary in their ability to abstract the underlying algorithm from training instances and generalize to test examples with many thousands of digits. The controller is trained using Q-learning with several enhancements and we show that the bottleneck is in the capabilities of the controller rather than in the search incurred by Q-learning. Learning Physical Intuition of Block Towers by Example Adam Lerer Facebook AI Research . Sam Gross Facebook AI Research . Rob Fergus Facebook AI Research Paper AbstractWooden blocks are a common toy for infants, allowing them to develop motor skills and gain intuition about the physical behavior of the world. In this paper, we explore the ability of deep feed-forward models to learn such intuitive physics. Using a 3D game engine, we create small towers of wooden blocks whose stability is randomized and render them collapsing (or remaining upright). This data allows us to train large convolutional network models which can accurately predict the outcome, as well as estimating the trajectories of the blocks. The models are also able to generalize in two important ways: (i) to new physical scenarios, e. g. towers with an additional block and (ii) to images of real wooden blocks, where it obtains a performance comparable to human subjects. Structure Learning of Partitioned Markov Networks Song Liu The Inst. of Stats. Math. . Taiji Suzuki . Masashi Sugiyama University of Tokyo . Kenji Fukumizu The Institute of Statistical Mathematics Paper AbstractWe learn the structure of a Markov Network between two groups of random variables from joint observations. Since modelling and learning the full MN structure may be hard, learning the links between two groups directly may be a preferable option. We introduce a novel concept called the emph whose factorization directly associates with the Markovian properties of random variables across two groups. A simple one-shot convex optimization procedure is proposed for learning the emph factorizations of the partitioned ratio and it is theoretically guaranteed to recover the correct inter-group structure under mild conditions. The performance of the proposed method is experimentally compared with the state of the art MN structure learning methods using ROC curves. Real applications on analyzing bipartisanship in US congress and pairwise DNAtime-series alignments are also reported. This work focuses on dynamic regret of online convex optimization that compares the performance of online learning to a clairvoyant who knows the sequence of loss functions in advance and hence selects the minimizer of the loss function at each step. By assuming that the clairvoyant moves slowly (i. e. the minimizers change slowly), we present several improved variation-based upper bounds of the dynamic regret under the true and noisy gradient feedback, which are in light of the presented lower bounds. The key to our analysis is to explore a regularity metric that measures the temporal changes in the clairvoyant8217s minimizers, to which we refer as path variation. Firstly, we present a general lower bound in terms of the path variation, and then show that under full information or gradient feedback we are able to achieve an optimal dynamic regret. Secondly, we present a lower bound with noisy gradient feedback and then show that we can achieve optimal dynamic regrets under a stochastic gradient feedback and two-point bandit feedback. Moreover, for a sequence of smooth loss functions that admit a small variation in the gradients, our dynamic regret under the two-point bandit feedback matches that is achieved with full information. Beyond CCA: Moment Matching for Multi-View Models Anastasia Podosinnikova INRIA 8211 ENS . Francis Bach Inria . Simon Lacoste-Julien INRIA Paper AbstractWe introduce three novel semi-parametric extensions of probabilistic canonical correlation analysis with identifiability guarantees. We consider moment matching techniques for estimation in these models. For that, by drawing explicit links between the new models and a discrete version of independent component analysis (DICA), we first extend the DICA cumulant tensors to the new discrete version of CCA. By further using a close connection with independent component analysis, we introduce generalized covariance matrices, which can replace the cumulant tensors in the moment matching framework, and, therefore, improve sample complexity and simplify derivations and algorithms significantly. As the tensor power method or orthogonal joint diagonalization are not applicable in the new setting, we use non-orthogonal joint diagonalization techniques for matching the cumulants. We demonstrate performance of the proposed models and estimation techniques on experiments with both synthetic and real datasets. We present two computationally inexpensive techniques for estimating the numerical rank of a matrix, combining powerful tools from computational linear algebra. These techniques exploit three key ingredients. The first is to approximate the projector on the non-null invariant subspace of the matrix by using a polynomial filter. Two types of filters are discussed, one based on Hermite interpolation and the other based on Chebyshev expansions. The second ingredient employs stochastic trace estimators to compute the rank of this wanted eigen-projector, which yields the desired rank of the matrix. In order to obtain a good filter, it is necessary to detect a gap between the eigenvalues that correspond to noise and the relevant eigenvalues that correspond to the non-null invariant subspace. The third ingredient of the proposed approaches exploits the idea of spectral density, popular in physics, and the Lanczos spectroscopic method to locate this gap. Unsupervised Deep Embedding for Clustering Analysis Junyuan Xie University of Washington . Ross Girshick Facebook . Ali Farhadi University of Washington Paper AbstractClustering is central to many data-driven application domains and has been studied extensively in terms of distance functions and grouping algorithms. Relatively little work has focused on learning representations for clustering. In this paper, we propose Deep Embedded Clustering (DEC), a method that simultaneously learns feature representations and cluster assignments using deep neural networks. DEC learns a mapping from the data space to a lower-dimensional feature space in which it iteratively optimizes a clustering objective. Our experimental evaluations on image and text corpora show significant improvement over state-of-the-art methods. Dimensionality reduction is a popular approach for dealing with high dimensional data that leads to substantial computational savings. Random projections are a simple and effective method for universal dimensionality reduction with rigorous theoretical guarantees. In this paper, we theoretically study the problem of differentially private empirical risk minimization in the projected subspace (compressed domain). Empirical risk minimization (ERM) is a fundamental technique in statistical machine learning that forms the basis for various learning algorithms. Starting from the results of Chaudhuri et al. (NIPS 2009, JMLR 2011), there is a long line of work in designing differentially private algorithms for empirical risk minimization problems that operate in the original data space. We ask: is it possible to design differentially private algorithms with small excess risk given access to only projected data In this paper, we answer this question in affirmative, by showing that for the class of generalized linear functions, we can obtain excess risk bounds of O(w(Theta) n ) under eps-differential privacy, and O((w(Theta)n) ) under (eps, delta)-differential privacy, given only the projected data and the projection matrix. Here n is the sample size and w(Theta) is the Gaussian width of the parameter space that we optimize over. Our strategy is based on adding noise for privacy in the projected subspace and then lifting the solution to original space by using high-dimensional estimation techniques. A simple consequence of these results is that, for a large class of ERM problems, in the traditional setting (i. e. with access to the original data), under eps-differential privacy, we improve the worst-case risk bounds of Bassily et al. (FOCS 2014). We consider the maximum likelihood parameter estimation problem for a generalized Thurstone choice model, where choices are from comparison sets of two or more items. We provide tight characterizations of the mean square error, as well as necessary and sufficient conditions for correct classification when each item belongs to one of two classes. These results provide insights into how the estimation accuracy depends on the choice of a generalized Thurstone choice model and the structure of comparison sets. We find that for a priori unbiased structures of comparisons, e. g. when comparison sets are drawn independently and uniformly at random, the number of observations needed to achieve a prescribed estimation accuracy depends on the choice of a generalized Thurstone choice model. For a broad set of generalized Thurstone choice models, which includes all popular instances used in practice, the estimation error is shown to be largely insensitive to the cardinality of comparison sets. On the other hand, we found that there exist generalized Thurstone choice models for which the estimation error decreases much faster with the cardinality of comparison sets. Large-Margin Softmax Loss for Convolutional Neural Networks Weiyang Liu Peking University . Yandong Wen South China University of Technology . Zhiding Yu Carnegie Mellon University . Meng Yang Shenzhen University Paper AbstractCross-entropy loss together with softmax is arguably one of the most common used supervision components in convolutional neural networks (CNNs). Despite its simplicity, popularity and excellent performance, the component does not explicitly encourage discriminative learning of features. In this paper, we propose a generalized large-margin softmax (L-Softmax) loss which explicitly encourages intra-class compactness and inter-class separability between learned features. Moreover, L-Softmax not only can adjust the desired margin but also can avoid overfitting. We also show that the L-Softmax loss can be optimized by typical stochastic gradient descent. Extensive experiments on four benchmark datasets demonstrate that the deeply-learned features with L-softmax loss become more discriminative, hence significantly boosting the performance on a variety of visual classification and verification tasks. A Random Matrix Approach to Echo-State Neural Networks Romain Couillet CentraleSupelec . Gilles Wainrib ENS Ulm, Paris, France . Hafiz Tiomoko Ali CentraleSupelec, Gif-sur-Yvette, France . Harry Sevi ENS Lyon, Lyon, Paris Paper AbstractRecurrent neural networks, especially in their linear version, have provided many qualitative insights on their performance under different configurations. This article provides, through a novel random matrix framework, the quantitative counterpart of these performance results, specifically in the case of echo-state networks. Beyond mere insights, our approach conveys a deeper understanding on the core mechanism under play for both training and testing. One-hot CNN (convolutional neural network) has been shown to be effective for text categorization (Johnson 038 Zhang, 2015). We view it as a special case of a general framework which jointly trains a linear model with a non-linear feature generator consisting of text region embedding pooling8217. Under this framework, we explore a more sophisticated region embedding method using Long Short-Term Memory (LSTM). LSTM can embed text regions of variable (and possibly large) sizes, whereas the region size needs to be fixed in a CNN. We seek effective and efficient use of LSTM for this purpose in the supervised and semi-supervised settings. The best results were obtained by combining region embeddings in the form of LSTM and convolution layers trained on unlabeled data. The results indicate that on this task, embeddings of text regions, which can convey complex concepts, are more useful than embeddings of single words in isolation. We report performances exceeding the previous best results on four benchmark datasets. Crowdsourcing systems are popular for solving large-scale labelling tasks with low-paid (or even non-paid) workers. We study the problem of recovering the true labels from noisy crowdsourced labels under the popular Dawid-Skene model. To address this inference problem, several algorithms have recently been proposed, but the best known guarantee is still significantly larger than the fundamental limit. We close this gap under a simple but canonical scenario where each worker is assigned at most two tasks. In particular, we introduce a tighter lower bound on the fundamental limit and prove that Belief Propagation (BP) exactly matches this lower bound. The guaranteed optimality of BP is the strongest in the sense that it is information-theoretically impossible for any other algorithm to correctly la - bel a larger fraction of the tasks. In the general setting, when more than two tasks are assigned to each worker, we establish the dominance result on BP that it outperforms other existing algorithms with known provable guarantees. Experimental results suggest that BP is close to optimal for all regimes considered, while existing state-of-the-art algorithms exhibit suboptimal performances. Learning control has become an appealing alternative to the derivation of control laws based on classic control theory. However, a major shortcoming of learning control is the lack of performance guarantees which prevents its application in many real-world scenarios. As a step in this direction, we provide a stability analysis tool for controllers acting on dynamics represented by Gaussian processes (GPs). We consider arbitrary Markovian control policies and system dynamics given as (i) the mean of a GP, and (ii) the full GP distribution. For the first case, our tool finds a state space region, where the closed-loop system is provably stable. In the second case, it is well known that infinite horizon stability guarantees cannot exist. Instead, our tool analyzes finite time stability. Empirical evaluations on simulated benchmark problems support our theoretical results. Learning a classifier from private data distributed across multiple parties is an important problem that has many potential applications. How can we build an accurate and differentially private global classifier by combining locally-trained classifiers from different parties, without access to any partys private data We propose to transfer the knowledge of the local classifier ensemble by first creating labeled data from auxiliary unlabeled data, and then train a global differentially private classifier. We show that majority voting is too sensitive and therefore propose a new risk weighted by class probabilities estimated from the ensemble. Relative to a non-private solution, our private solution has a generalization error bounded by O(epsilon M ). This allows strong privacy without performance loss when the number of participating parties M is large, such as in crowdsensing applications. We demonstrate the performance of our framework with realistic tasks of activity recognition, network intrusion detection, and malicious URL detection. Network Morphism Tao Wei University at Buffalo . Changhu Wang Microsoft Research . Yong Rui Microsoft Research . Chang Wen Chen Paper AbstractWe present a systematic study on how to morph a well-trained neural network to a new one so that its network function can be completely preserved. We define this as network morphism in this research. After morphing a parent network, the child network is expected to inherit the knowledge from its parent network and also has the potential to continue growing into a more powerful one with much shortened training time. The first requirement for this network morphism is its ability to handle diverse morphing types of networks, including changes of depth, width, kernel size, and even subnet. To meet this requirement, we first introduce the network morphism equations, and then develop novel morphing algorithms for all these morphing types for both classic and convolutional neural networks. The second requirement is its ability to deal with non-linearity in a network. We propose a family of parametric-activation functions to facilitate the morphing of any continuous non-linear activation neurons. Experimental results on benchmark datasets and typical neural networks demonstrate the effectiveness of the proposed network morphism scheme. Second-order optimization methods such as natural gradient descent have the potential to speed up training of neural networks by correcting for the curvature of the loss function. Unfortunately, the exact natural gradient is impractical to compute for large models, and most approximations either require an expensive iterative procedure or make crude approximations to the curvature. We present Kronecker Factors for Convolution (KFC), a tractable approximation to the Fisher matrix for convolutional networks based on a structured probabilistic model for the distribution over backpropagated derivatives. Similarly to the recently proposed Kronecker-Factored Approximate Curvature (K-FAC), each block of the approximate Fisher matrix decomposes as the Kronecker product of small matrices, allowing for efficient inversion. KFC captures important curvature information while still yielding comparably efficient updates to stochastic gradient descent (SGD). We show that the updates are invariant to commonly used reparameterizations, such as centering of the activations. In our experiments, approximate natural gradient descent with KFC was able to train convolutional networks several times faster than carefully tuned SGD. Furthermore, it was able to train the networks in 10-20 times fewer iterations than SGD, suggesting its potential applicability in a distributed setting. Budget constrained optimal design of experiments is a classical problem in statistics. Although the optimal design literature is very mature, few efficient strategies are available when these design problems appear in the context of sparse linear models commonly encountered in high dimensional machine learning and statistics. In this work, we study experimental design for the setting where the underlying regression model is characterized by a ell1-regularized linear function. We propose two novel strategies: the first is motivated geometrically whereas the second is algebraic in nature. We obtain tractable algorithms for this problem and also hold for a more general class of sparse linear models. We perform an extensive set of experiments, on benchmarks and a large multi-site neuroscience study, showing that the proposed models are effective in practice. The latter experiment suggests that these ideas may play a small role in informing enrollment strategies for similar scientific studies in the short-to-medium term future. Minding the Gaps for Block Frank-Wolfe Optimization of Structured SVMs Anton Osokin . Jean-Baptiste Alayrac ENS . Isabella Lukasewitz INRIA . Puneet Dokania INRIA and Ecole Centrale Paris . Simon Lacoste-Julien INRIA Paper AbstractIn this paper, we propose several improvements on the block-coordinate Frank-Wolfe (BCFW) algorithm from Lacoste-Julien et al. (2013) recently used to optimize the structured support vector machine (SSVM) objective in the context of structured prediction, though it has wider applications. The key intuition behind our improvements is that the estimates of block gaps maintained by BCFW reveal the block suboptimality that can be used as an adaptive criterion. First, we sample objects at each iteration of BCFW in an adaptive non-uniform way via gap-based sampling. Second, we incorporate pairwise and away-step variants of Frank-Wolfe into the block-coordinate setting. Third, we cache oracle calls with a cache-hit criterion based on the block gaps. Fourth, we provide the first method to compute an approximate regularization path for SSVM. Finally, we provide an exhaustive empirical evaluation of all our methods on four structured prediction datasets. Exact Exponent in Optimal Rates for Crowdsourcing Chao Gao Yale University . Yu Lu Yale University . Dengyong Zhou Microsoft Research Paper AbstractCrowdsourcing has become a popular tool for labeling large datasets. This paper studies the optimal error rate for aggregating crowdsourced labels provided by a collection of amateur workers. Under the Dawid-Skene probabilistic model, we establish matching upper and lower bounds with an exact exponent mI(pi), where m is the number of workers and I(pi) is the average Chernoff information that characterizes the workers8217 collective ability. Such an exact characterization of the error exponent allows us to state a precise sample size requirement m ge frac logfrac in order to achieve an epsilon misclassification error. In addition, our results imply optimality of various forms of EM algorithms given accurate initializers of the model parameters. Unsupervised learning and supervised learning are key research topics in deep learning. However, as high-capacity supervised neural networks trained with a large amount of labels have achieved remarkable success in many computer vision tasks, the availability of large-scale labeled images reduced the significance of unsupervised learning. Inspired by the recent trend toward revisiting the importance of unsupervised learning, we investigate joint supervised and unsupervised learning in a large-scale setting by augmenting existing neural networks with decoding pathways for reconstruction. First, we demonstrate that the intermediate activations of pretrained large-scale classification networks preserve almost all the information of input images except a portion of local spatial details. Then, by end-to-end training of the entire augmented architecture with the reconstructive objective, we show improvement of the network performance for supervised tasks. We evaluate several variants of autoencoders, including the recently proposed 8220what-where8221 autoencoder that uses the encoder pooling switches, to study the importance of the architecture design. Taking the 16-layer VGGNet trained under the ImageNet ILSVRC 2012 protocol as a strong baseline for image classification, our methods improve the validation-set accuracy by a noticeable margin. (LRR) has been a significant method for segmenting data that are generated from a union of subspaces. It is also known that solving LRR is challenging in terms of time complexity and memory footprint, in that the size of the nuclear norm regularized matrix is n-by-n (where n is the number of samples). In this paper, we thereby develop a novel online implementation of LRR that reduces the memory cost from O(n2) to O(pd), with p being the ambient dimension and d being some estimated rank (d 20 reduction in the model size without any loss in accuracy on CIFAR-10 benchmark. We also demonstrate that fine-tuning can further enhance the accuracy of fixed point DCNs beyond that of the original floating point model. In doing so, we report a new state-of-the-art fixed point performance of 6.78 error-rate on CIFAR-10 benchmark. Provable Algorithms for Inference in Topic Models Sanjeev Arora Princeton University . Rong Ge . Frederic Koehler Princeton University . Tengyu Ma Princeton University . Ankur Moitra Paper AbstractRecently, there has been considerable progress on designing algorithms with provable guarantees 8212typically using linear algebraic methods8212for parameter learning in latent variable models. Designing provable algorithms for inference has proved more difficult. Here we take a first step towards provable inference in topic models. We leverage a property of topic models that enables us to construct simple linear estimators for the unknown topic proportions that have small variance, and consequently can work with short documents. Our estimators also correspond to finding an estimate around which the posterior is well-concentrated. We show lower bounds that for shorter documents it can be information theoretically impossible to find the hidden topics. Finally, we give empirical results that demonstrate that our algorithm works on realistic topic models. It yields good solutions on synthetic data and runs in time comparable to a single iteration of Gibbs sampling. This paper develops an approach for efficiently solving general convex optimization problems specified as disciplined convex programs (DCP), a common general-purpose modeling framework. Specifically we develop an algorithm based upon fast epigraph projections, projections onto the epigraph of a convex function, an approach closely linked to proximal operator methods. We show that by using these operators, we can solve any disciplined convex program without transforming the problem to a standard cone form, as is done by current DCP libraries. We then develop a large library of efficient epigraph projection operators, mirroring and extending work on fast proximal algorithms, for many common convex functions. Finally, we evaluate the performance of the algorithm, and show it often achieves order of magnitude speedups over existing general-purpose optimization solvers. We study the fixed design segmented regression problem: Given noisy samples from a piecewise linear function f, we want to recover f up to a desired accuracy in mean-squared error. Previous rigorous approaches for this problem rely on dynamic programming (DP) and, while sample efficient, have running time quadratic in the sample size. As our main contribution, we provide new sample near-linear time algorithms for the problem that 8211 while not being minimax optimal 8211 achieve a significantly better sample-time tradeoff on large datasets compared to the DP approach. Our experimental evaluation shows that, compared with the DP approach, our algorithms provide a convergence rate that is only off by a factor of 2 to 4, while achieving speedups of three orders of magnitude. Energetic Natural Gradient Descent Philip Thomas CMU . Bruno Castro da Silva . Christoph Dann Carnegie Mellon University . Emma Paper AbstractWe propose a new class of algorithms for minimizing or maximizing functions of parametric probabilistic models. These new algorithms are natural gradient algorithms that leverage more information than prior methods by using a new metric tensor in place of the commonly used Fisher information matrix. This new metric tensor is derived by computing directions of steepest ascent where the distance between distributions is measured using an approximation of energy distance (as opposed to Kullback-Leibler divergence, which produces the Fisher information matrix), and so we refer to our new ascent direction as the energetic natural gradient. Partition Functions from Rao-Blackwellized Tempered Sampling David Carlson Columbia University . Patrick Stinson Columbia University . Ari Pakman Columbia University . Liam Paper AbstractPartition functions of probability distributions are important quantities for model evaluation and comparisons. We present a new method to compute partition functions of complex and multimodal distributions. Such distributions are often sampled using simulated tempering, which augments the target space with an auxiliary inverse temperature variable. Our method exploits the multinomial probability law of the inverse temperatures, and provides estimates of the partition function in terms of a simple quotient of Rao-Blackwellized marginal inverse temperature probability estimates, which are updated while sampling. We show that the method has interesting connections with several alternative popular methods, and offers some significant advantages. In particular, we empirically find that the new method provides more accurate estimates than Annealed Importance Sampling when calculating partition functions of large Restricted Boltzmann Machines (RBM) moreover, the method is sufficiently accurate to track training and validation log-likelihoods during learning of RBMs, at minimal computational cost. In this paper we address the identifiability and efficient learning problems of finite mixtures of Plackett-Luce models for rank data. We prove that for any kgeq 2, the mixture of k Plackett-Luce models for no more than 2k-1 alternatives is non-identifiable and this bound is tight for k2. For generic identifiability, we prove that the mixture of k Plackett-Luce models over m alternatives is if kleqlfloorfrac 2rfloor. We also propose an efficient generalized method of moments (GMM) algorithm to learn the mixture of two Plackett-Luce models and show that the algorithm is consistent. Our experiments show that our GMM algorithm is significantly faster than the EMM algorithm by Gormley 038 Murphy (2008), while achieving competitive statistical efficiency. The combinatorial explosion that plagues planning and reinforcement learning (RL) algorithms can be moderated using state abstraction. Prohibitively large task representations can be condensed such that essential information is preserved, and consequently, solutions are tractably computable. However, exact abstractions, which treat only fully-identical situations as equivalent, fail to present opportunities for abstraction in environments where no two situations are exactly alike. In this work, we investigate approximate state abstractions, which treat nearly-identical situations as equivalent. We present theoretical guarantees of the quality of behaviors derived from four types of approximate abstractions. Additionally, we empirically demonstrate that approximate abstractions lead to reduction in task complexity and bounded loss of optimality of behavior in a variety of environments. Power of Ordered Hypothesis Testing Lihua Lei Lihua . William Fithian UC Berkeley, Department of Statistics Paper AbstractOrdered testing procedures are multiple testing procedures that exploit a pre-specified ordering of the null hypotheses, from most to least promising. We analyze and compare the power of several recent proposals using the asymptotic framework of Li 038 Barber (2015). While accumulation tests including ForwardStop can be quite powerful when the ordering is very informative, they are asymptotically powerless when the ordering is weaker. By contrast, Selective SeqStep, proposed by Barber 038 Candes (2015), is much less sensitive to the quality of the ordering. We compare the power of these procedures in different regimes, concluding that Selective SeqStep dominates accumulation tests if either the ordering is weak or non-null hypotheses are sparse or weak. Motivated by our asymptotic analysis, we derive an improved version of Selective SeqStep which we call Adaptive SeqStep, analogous to Storeys improvement on the Benjamini-Hochberg proce - dure. We compare these methods using the GEO-Query data set analyzed by (Li 038 Barber, 2015) and find Adaptive SeqStep has favorable performance for both good and bad prior orderings. PHOG: Probabilistic Model for Code Pavol Bielik ETH Zurich . Veselin Raychev ETH Zurich . Martin Vechev ETH Zurich Paper AbstractWe introduce a new generative model for code called probabilistic higher order grammar (PHOG). PHOG generalizes probabilistic context free grammars (PCFGs) by allowing conditioning of a production rule beyond the parent non-terminal, thus capturing rich contexts relevant to programs. Even though PHOG is more powerful than a PCFG, it can be learned from data just as efficiently. We trained a PHOG model on a large JavaScript code corpus and show that it is more precise than existing models, while similarly fast. As a result, PHOG can immediately benefit existing programming tools based on probabilistic models of code. We consider the problem of online prediction in changing environments. In this framework the performance of a predictor is evaluated as the loss relative to an arbitrarily changing predictor, whose individual components come from a base class of predictors. Typical results in the literature consider different base classes (experts, linear predictors on the simplex, etc.) separately. Introducing an arbitrary mapping inside the mirror decent algorithm, we provide a framework that unifies and extends existing results. As an example, we prove new shifting regret bounds for matrix prediction problems. Hyperparameter selection generally relies on running multiple full training trials, with selection based on validation set performance. We propose a gradient-based approach for locally adjusting hyperparameters during training of the model. Hyperparameters are adjusted so as to make the model parameter gradients, and hence updates, more advantageous for the validation cost. We explore the approach for tuning regularization hyperparameters and find that in experiments on MNIST, SVHN and CIFAR-10, the resulting regularization levels are within the optimal regions. The additional computational cost depends on how frequently the hyperparameters are trained, but the tested scheme adds only 30 computational overhead regardless of the model size. Since the method is significantly less computationally demanding compared to similar gradient-based approaches to hyperparameter optimization, and consistently finds good hyperparameter values, it can be a useful tool for training neural network models. Many of the recent Trajectory Optimization algorithms alternate between local approximation of the dynamics and conservative policy update. However, linearly approximating the dynamics in order to derive the new policy can bias the update and prevent convergence to the optimal policy. In this article, we propose a new model-free algorithm that backpropagates a local quadratic time-dependent Q-Function, allowing the derivation of the policy update in closed form. Our policy update ensures exact KL-constraint satisfaction without simplifying assumptions on the system dynamics demonstrating improved performance in comparison to related Trajectory Optimization algorithms linearizing the dynamics. Due to its numerous applications, rank aggregation has become a problem of major interest across many fields of the computer science literature. In the vast majority of situations, Kemeny consensus(es) are considered as the ideal solutions. It is however well known that their computation is NP-hard. Many contributions have thus established various results to apprehend this complexity. In this paper we introduce a practical method to predict, for a ranking and a dataset, how close the Kemeny consensus(es) are to this ranking. A major strength of this method is its generality: it does not require any assumption on the dataset nor the ranking. Furthermore, it relies on a new geometric interpretation of Kemeny aggregation that, we believe, could lead to many other results. Horizontally Scalable Submodular Maximization Mario Lucic ETH Zurich . Olivier Bachem ETH Zurich . Morteza Zadimoghaddam Google Research . Andreas Krause Paper AbstractA variety of large-scale machine learning problems can be cast as instances of constrained submodular maximization. Existing approaches for distributed submodular maximization have a critical drawback: The capacity 8211 number of instances that can fit in memory 8211 must grow with the data set size. In practice, while one can provision many machines, the capacity of each machine is limited by physical constraints. We propose a truly scalable approach for distributed submodular maximization under fixed capacity. The proposed framework applies to a broad class of algorithms and constraints and provides theoretical guarantees on the approximation factor for any available capacity. We empirically evaluate the proposed algorithm on a variety of data sets and demonstrate that it achieves performance competitive with the centralized greedy solution. Group Equivariant Convolutional Networks Taco Cohen University of Amsterdam . Max Welling University of Amsterdam CIFAR Paper AbstractWe introduce Group equivariant Convolutional Neural Networks (G-CNNs), a natural generalization of convolutional neural networks that reduces sample complexity by exploiting symmetries. G-CNNs use G-convolutions, a new type of layer that enjoys a substantially higher degree of weight sharing than regular convolution layers. G-convolutions increase the expressive capacity of the network without increasing the number of parameters. Group convolution layers are easy to use and can be implemented with negligible computational overhead for discrete groups generated by translations, reflections and rotations. G-CNNs achieve state of the art results on CIFAR10 and rotated MNIST. The partition function is fundamental for probabilistic graphical models8212it is required for inference, parameter estimation, and model selection. Evaluating this function corresponds to discrete integration, namely a weighted sum over an exponentially large set. This task quickly becomes intractable as the dimensionality of the problem increases. We propose an approximation scheme that, for any discrete graphical model whose parameter vector has bounded norm, estimates the partition function with arbitrarily small error. Our algorithm relies on a near minimax optimal polynomial approximation to the potential function and a Clenshaw-Curtis style quadrature. Furthermore, we show that this algorithm can be randomized to split the computation into a high-complexity part and a low-complexity part, where the latter may be carried out on small computational devices. Experiments confirm that the new randomized algorithm is highly accurate if the parameter norm is small, and is otherwise comparable to methods with unbounded error. Correcting Forecasts with Multifactor Neural Attention Matthew Riemer IBM . Aditya Vempaty IBM . Flavio Calmon IBM . Fenno Heath IBM . Richard Hull IBM . Elham Khabiri IBM Paper AbstractAutomatic forecasting of time series data is a challenging problem in many industries. Current forecast models adopted by businesses do not provide adequate means for including data representing external factors that may have a significant impact on the time series, such as weather, national events, local events, social media trends, promotions, etc. This paper introduces a novel neural network attention mechanism that naturally incorporates data from multiple external sources without the feature engineering needed to get other techniques to work. We demonstrate empirically that the proposed model achieves superior performance for predicting the demand of 20 commodities across 107 stores of one of America8217s largest retailers when compared to other baseline models, including neural networks, linear models, certain kernel methods, Bayesian regression, and decision trees. Our method ultimately accounts for a 23.9 relative improvement as a result of the incorporation of external data sources, and provides an unprecedented level of descriptive ability for a neural network forecasting model. Observational studies are rising in importance due to the widespread accumulation of data in fields such as healthcare, education, employment and ecology. We consider the task of answering counterfactual questions such as, 8220Would this patient have lower blood sugar had she received a different medication8221. We propose a new algorithmic framework for counterfactual inference which brings together ideas from domain adaptation and representation learning. In addition to a theoretical justification, we perform an empirical comparison with previous approaches to causal inference from observational data. Our deep learning algorithm significantly outperforms the previous state-of-the-art. Gaussian Processes (GPs) provide a general and analytically tractable way of modeling complex time-varying, nonparametric functions. The Automatic Bayesian Covariance Discovery (ABCD) system constructs natural-language description of time-series data by treating unknown time-series data nonparametrically using GP with a composite covariance kernel function. Unfortunately, learning a composite covariance kernel with a single time-series data set often results in less informative kernel that may not give qualitative, distinctive descriptions of data. We address this challenge by proposing two relational kernel learning methods which can model multiple time-series data sets by finding common, shared causes of changes. We show that the relational kernel learning methods find more accurate models for regression problems on several real-world data sets US stock data, US house price index data and currency exchange rate data. We introduce a new approach for amortizing inference in directed graphical models by learning heuristic approximations to stochastic inverses, designed specifically for use as proposal distributions in sequential Monte Carlo methods. We describe a procedure for constructing and learning a structured neural network which represents an inverse factorization of the graphical model, resulting in a conditional density estimator that takes as input particular values of the observed random variables, and returns an approximation to the distribution of the latent variables. This recognition model can be learned offline, independent from any particular dataset, prior to performing inference. The output of these networks can be used as automatically-learned high-quality proposal distributions to accelerate sequential Monte Carlo across a diverse range of problem settings. Slice Sampling on Hamiltonian Trajectories Benjamin Bloem-Reddy Columbia University . John Cunningham Columbia University Paper AbstractHamiltonian Monte Carlo and slice sampling are amongst the most widely used and studied classes of Markov Chain Monte Carlo samplers. We connect these two methods and present Hamiltonian slice sampling, which allows slice sampling to be carried out along Hamiltonian trajectories, or transformations thereof. Hamiltonian slice sampling clarifies a class of model priors that induce closed-form slice samplers. More pragmatically, inheriting properties of slice samplers, it offers advantages over Hamiltonian Monte Carlo, in that it has fewer tunable hyperparameters and does not require gradient information. We demonstrate the utility of Hamiltonian slice sampling out of the box on problems ranging from Gaussian process regression to Pitman-Yor based mixture models. Noisy Activation Functions Caglar Glehre . Marcin Moczulski . Misha Denil . Yoshua Bengio U. of Montreal Paper AbstractCommon nonlinear activation functions used in neural networks can cause training difficulties due to the saturation behavior of the activation function, which may hide dependencies that are not visible to vanilla-SGD (using first order gradients only). Gating mechanisms that use softly saturating activation functions to emulate the discrete switching of digital logic circuits are good examples of this. We propose to exploit the injection of appropriate noise so that the gradients may flow easily, even if the noiseless application of the activation function would yield zero gradients. Large noise will dominate the noise-free gradient and allow stochastic gradient descent to explore more. By adding noise only to the problematic parts of the activation function, we allow the optimization procedure to explore the boundary between the degenerate saturating) and the well-behaved parts of the activation function. We also establish connections to simulated annealing, when the amount of noise is annealed down, making it easier to optimize hard objective functions. We find experimentally that replacing such saturating activation functions by noisy variants helps optimization in many contexts, yielding state-of-the-art or competitive results on different datasets and task, especially when training seems to be the most difficult, e. g. when curriculum learning is necessary to obtain good results. PD-Sparse. A Primal and Dual Sparse Approach to Extreme Multiclass and Multilabel Classification Ian En-Hsu Yen University of Texas at Austin . Xiangru Huang UTaustin . Pradeep Ravikumar UT Austin . Kai Zhong ICES department, University of Texas at Austin . Inderjit Paper AbstractWe consider Multiclass and Multilabel classification with extremely large number of classes, of which only few are labeled to each instance. In such setting, standard methods that have training, prediction cost linear to the number of classes become intractable. State-of-the-art methods thus aim to reduce the complexity by exploiting correlation between labels under assumption that the similarity between labels can be captured by structures such as low-rank matrix or balanced tree. However, as the diversity of labels increases in the feature space, structural assumption can be easily violated, which leads to degrade in the testing performance. In this work, we show that a margin-maximizing loss with l1 penalty, in case of Extreme Classification, yields extremely sparse solution both in primal and in dual without sacrificing the expressive power of predictor. We thus propose a Fully-Corrective Block-Coordinate Frank-Wolfe (FC-BCFW) algorithm that exploits both primal and dual sparsity to achieve a complexity sublinear to the number of primal and dual variables. A bi-stochastic search method is proposed to further improve the efficiency. In our experiments on both Multiclass and Multilabel problems, the proposed method achieves significant higher accuracy than existing approaches of Extreme Classification with very competitive training and prediction time.

Online Gedern (Hesse)

Wednesday, 11 October 2017

Exponential Moving Average Kernel

No comments:

Post a Comment