Astroinformatics 2012

Site web de la conf. Les PDF des présentations sont accessibles depuis le programme.

TL,DR :

Les mots-clés qui reviennent dans la conf :

E3 = Earth, Energy & Environment
Long tail
MapReduce
SkyServer

10/09/2012

Introduction par Peter Lee, Corporate Vice President de Microsoft Research (MSR). Il parle d'un papier de Bill Gates dans Discrete Mathematics de 1979, "Bounds for sorting by prefix reversal" pour souligner l'importance de la recherche pour MSR.

Dan Fey = Science Informatics

E3 = Earth, Energy & Environment

MS SQl Azure Labs, contenant des aspects sur Cloud Numerics, Data explorer, Data Hub
Open Data Protocol, proporé à OASIS pour standardisation.
SDSS Sky Server : 380 millions de hits web en 6 ans. 930.000 utilisateurs différents (vs 10.000 astronomes pro)
Layerscape : tours & layers pour WWT
Il y aura un workshop MS eScience à Chicago en octobre

D. Reiss = Bioinformatics

On va vers un séquencage du génome humain à 1000$ très bientôt.

Ian Forster = Big process for big data

Parle de software as a service et prend l'exemple du site Tripit de planification de voyage. Présentation de Globus online, qui est un service pour déplacer de gros volumes de données d'un endroit à un autre. Opérationnel, ils ont déplacé 6PB en 20 mois, avec 99.9% de dispo. En lien avec projets de supercomputer comme Blue Waters pour du petascale computing.

Discussion panel

Il est question (une peu comme au BoF ADASS l'an dernier) de

Comment évaluer l'impact de la publication de données sur les carrières des gens, quel impact factor pour les data ?
Comment citer les datasets sans faire un article-valise associé
Comment faire percoler la culture AI/AstroStatistics dans la communauté et attirer de nouvelles têtes ? Mais personne n'a de solution miracle.

Dennis Grannon = Cloud computing & long tail of science

MS tente de rattraper son retard (sur Amazon) au niveau cloud et data centers. La techno actuelle pour un nouveau data center est centrée sur des containers : plus besoin de construire un hangar ou un batiment. On connecte des containers standards de 40 foot contenant 2500 serveurs à des cables pour 1) le courant électrique 2) le réseau (et éventuellement 3) la clim. Un data center complet coute ainsi un demi milliard.

Ces centres/le cloud fonctionnent sur le modèle réseau internet (échanges entre adresses IP/IP-based) et non sur le modèle de supercomputers avec connexions infiniband.

Massive MapReduce algorithms on cloud-resident massive data.

Technos émergentes selon lui autour du cloud :

iPython sorte de mathematica/matlab mais utilisant python et tournant dans le navigateur pour le traitement de données
onglets avec outils scientifiques/statistiques dans Excel

Mark Stalzer = Trends in scientific discovery engines

Tests avec mémoires flash/SSD pour du supercomputing : Gordon supernode; Temps de latence divisé par 1000 par rapport aux DD classiques. Globalement, x6.5 sur l'I/O.

Culte de Jim Gray, Amdahl-balanced systems, cyberbricks & Szalay.

Alex Szalay

Coté technologies d'avenir : les GPU pour les floating-point operations, SSD pour random I/O, et noSQL - column-store - SciDB. Utiliser au mieux Moore's and Kryder's law.

Annonce 1 milliard de liens sur SkyServer en 10 ans (en forte progression). MyDB devenu de facto une plateforme de publication des données extraites.

Arbre généalogique des applications "a la SkyServer" dans d'autres domaines : Pan-Starrs, JHU Oncospace

Librarie SphericalLib .NET = 8500 lignes de C#

P. Bernstein = Next generation DB

Data preparation is hard and expensive.

Mapping between representations of data (schema matching) is a challenge.

Discussion = From VO to AI

Data discovery in the VO is more/less achieved.

Now the issue is Scalability -> need to get astronomers involved.

11/09/2012

J. Crutchfield = The Macroscope

Système de visualisation de données immersif (3D avec lunettes et capteurs spéciaux). Actuellement, le système coûte 5k$.

Dans un futur proche, cela devrait être remplacé par un système beaucoup moins cher couplant leap motion ($70) avec Oculus Rift ($500). Ce projet (Asymptomia) permettrait la visualisation immersive de données et la manipulation avec des mouvements des mains : utilisation pour l'éducation, etc...

Curtis Wong (Microsoft Research)

Présentation sur la visualisation de données complexes, multi-paramètres dans WWT (tremblements de terre, statistiques criminelles dans une ville ou différents états).

Dave Hogg

Map reduce or die !

Nebojsa Jojic (Microsoft Research)

Présentation sur les "epitomes" : imagettes générées à partir d'une ou plusieurs images, contenant des informations sur les formes et couleurs caractéristiques.

Applications possibles pour reconnaissances de visages ou d'expressions faciales.

Applications en bio sur protéines et virus.

G. Longo

DAME et DAMEWARE - Immersive data visualisation.

G. Djorgovski

Ne cherche plus à nous convaincre que les mondes virtuels sont incontournables, mais veut des moyens simples de visualiser des données multi-dimensionnelles de façon immersive.

Raffaele d'Abrusco = Knowledge Discovery

Applied to Blazar classification

Ciro Donalek = Automated classification

Using Catalina RTS data.

W UMa are main contaminants for RR Lyrae.

Jeff Scargle = Time series

Utilise Discrete Correlation Function (Edelson and Krolik, 1988)

Ani Thakar = Stats sur Sky Server

10 years of Sky Server Web and SQL logs !

194 million SQL queries, out of which 145 million succeeded.

Record = 37 million SQL queries on October 23 2008 -> only 1% success this day (most from 1 IP in Victoria CADC)

Leurs stats sont accessibles

Ray Norris = ASKAP

Evolutionary Map of the Universe (EMU) = 45x deeper than NVSS

75% of the sky, 70 million galaxies, prévu pour 2014

9Tbit/s, un corrélateur consomme 10MW.

La cross-id sera faite par Loretta Dunne (Canterbury Uni)

Chenzhou Cui = VO China

Rien de bien nouveau, présentation sur LAMOST et compagnie.

N. Ball

Présentation de CANFAR = CADC cloud system, with 500 procs, up to 6 cores/proc and 32Gbyte mem. Soon 256Gbyte !

Uses Skytree for big data analyses.

And he's looking for a job !!

Discussion panel

Les méthodes sont sonvent applicables à des domaines plus vastes que l'astro seule (ex: Long-Scargle pour l'analyse spectrale, survival algorithm, ...)

Il manque souvent des tutoriels pour appréhender les packages de data mining (cf le gros manuel de WEKA ou les menus déroulants dans rattle)

12/09/2012

Stephen Drucker = Interface exploration for managing complexity (Microsoft)

Exploration de l'usage des tablettes graphiques pour voir comment les gens intéragissent avec la visualisation de données complexes (tableaux, histogrammes...)

Data-driven vizualisation, with progressive queries... Démo avec Filtering, Linking, Brushing...

Ne croit pas trop à l'avenir de la visu 3D (mais utilise des GPUs pour le calcul!) -> petit clash avec Djorgovski smile

Kirk Borne = Challenges of big data like LSST

LSST = 20 TB de data (un semi-remorque rempli de 40 000 CDs) par nuit (~1 SDSS/nuit) pendant 10 ans

2 millions d'event par nuit : characterize first, classify later

Big data can find help in X-informatics, Citizen Science

Alexander Gray = SkyTree

Skytree server = solution payante (chère) permettant de faire par exemple des tâches massives de détection d'objets, classification...

Ils embauchent.

Scalable software, free pyhton code MLpack from MatLab

Panel discussion : new models of scientific publishing

Djorgovski très critique sur le nouveau journal "Astronomy and Computing" ("scientific publishing is like music record industry : already dead, but does not know it yet").

Ca coûte 5$ de mettre qq chose dans un archive, 200$ dans un journal.

Michael Kurtz se propose de calculer un "impact factor" pour arXiv.

La communauté du génome tend vers une mesure d'un impact total (publis + data)

Il y a ds mouvements pour faire bouger les frontières, comme Force 11

Discussion sur le sujet

Practical astrosemantics

Matthew Graham Machine-processable knowledge

Travail sur Eyer-Mowlavi (2007) pour la classification de variables.

Triple = Subject - Predicate - Object

A fait des tests sur un repository de 11000 events, 420 000 params : StarDog, qui est un triplestore DB répond avec les meilleures perfs comparé à des DB classiques !

Travail sur SKA Information Intensive Framework