Astroinformatics 2012
Site web de la conf. Les PDF des présentations sont accessibles depuis le programme.
TL,DR :
Les mots-clés qui reviennent dans la conf :
- E3 = Earth, Energy & Environment
- Long tail
- MapReduce
- SkyServer
10/09/2012
Introduction par Peter Lee, Corporate Vice President de Microsoft Research (MSR).
Il parle d'un papier de Bill Gates dans Discrete Mathematics de 1979, "Bounds for sorting by prefix reversal" pour souligner l'importance de la recherche pour MSR.
Dan Fey = Science Informatics
E3 = Earth, Energy & Environment
- MS SQl Azure Labs, contenant des aspects sur Cloud Numerics, Data explorer, Data Hub
- Open Data Protocol, proporé à OASIS pour standardisation.
- SDSS Sky Server : 380 millions de hits web en 6 ans. 930.000 utilisateurs différents (vs 10.000 astronomes pro)
- Layerscape : tours & layers pour WWT
- Il y aura un workshop MS eScience à Chicago en octobre
D. Reiss = Bioinformatics
On va vers un séquencage du génome humain à 1000$ très bientôt.
Ian Forster = Big process for big data
Parle de software as a service et prend l'exemple du site
Tripit de planification de voyage.
Présentation de Globus online, qui est un service pour déplacer de gros volumes de données d'un endroit à un autre.
Opérationnel, ils ont déplacé 6PB en 20 mois, avec 99.9% de dispo.
En lien avec projets de supercomputer comme
Blue Waters pour du petascale computing.
Discussion panel
Il est question (une peu comme au BoF ADASS l'an dernier) de
- Comment évaluer l'impact de la publication de données sur les carrières des gens, quel impact factor pour les data ?
- Comment citer les datasets sans faire un article-valise associé
- Comment faire percoler la culture AI/AstroStatistics dans la communauté et attirer de nouvelles têtes ? Mais personne n'a de solution miracle.
Dennis Grannon = Cloud computing & long tail of science
MS tente de rattraper son retard (sur Amazon) au niveau cloud et data centers. La techno actuelle pour un nouveau data center est centrée sur des containers : plus besoin de construire un hangar ou un batiment. On connecte des containers standards de 40 foot contenant 2500 serveurs à des cables pour 1) le courant électrique 2) le réseau (et éventuellement 3) la clim. Un data center complet coute ainsi un demi milliard.
Ces centres/le cloud fonctionnent sur le modèle réseau internet (échanges entre adresses IP/IP-based) et non sur le modèle de supercomputers avec connexions infiniband.
Massive MapReduce algorithms on cloud-resident massive data.
Technos émergentes selon lui autour du cloud :
- iPython sorte de mathematica/matlab mais utilisant python et tournant dans le navigateur pour le traitement de données
- onglets avec outils scientifiques/statistiques dans Excel
Mark Stalzer = Trends in scientific discovery engines
Tests avec mémoires flash/SSD pour du supercomputing :
Gordon supernode; Temps de latence divisé par 1000 par rapport aux DD classiques. Globalement, x6.5 sur l'I/O.
Culte de Jim Gray, Amdahl-balanced systems, cyberbricks & Szalay.
Alex Szalay
Coté technologies d'avenir : les GPU pour les floating-point operations, SSD pour random I/O, et noSQL - column-store - SciDB.
Utiliser au mieux Moore's and Kryder's law.
Annonce 1 milliard de liens sur SkyServer en 10 ans (en forte progression).
MyDB devenu de facto une plateforme de publication des données extraites.
Arbre généalogique des applications "a la SkyServer" dans d'autres domaines :
Pan-Starrs, JHU Oncospace
Librarie SphericalLib .NET = 8500 lignes de C#
P. Bernstein = Next generation DB
Data preparation is hard and expensive.
Mapping between representations of data (schema matching) is a challenge.
Discussion = From VO to AI
Data discovery in the VO is more/less achieved.
Now the issue is Scalability -> need to get astronomers involved.
11/09/2012
J. Crutchfield = The Macroscope
Système de visualisation de données immersif (3D avec lunettes et capteurs spéciaux).
Actuellement, le système coûte 5k$.
Dans un futur proche, cela devrait être remplacé par un système beaucoup moins cher couplant
leap motion ($70) avec
Oculus Rift ($500). Ce projet (Asymptomia) permettrait la visualisation immersive de données et la manipulation avec des mouvements des mains : utilisation pour l'éducation, etc...
Curtis Wong (Microsoft Research)
Présentation sur la visualisation de données complexes, multi-paramètres dans WWT (tremblements de terre, statistiques criminelles dans une ville ou différents états).
Dave Hogg
Map reduce or die !
Nebojsa Jojic (Microsoft Research)
Présentation sur les "epitomes" : imagettes générées à partir d'une ou plusieurs images, contenant des informations sur les formes et couleurs caractéristiques.
Applications possibles pour reconnaissances de visages ou d'expressions faciales.
Applications en bio sur protéines et virus.
G. Longo
DAME et DAMEWARE - Immersive data visualisation.
G. Djorgovski
Ne cherche plus à nous convaincre que les mondes virtuels sont incontournables, mais
veut des moyens simples de visualiser des données multi-dimensionnelles de façon immersive.
Raffaele d'Abrusco = Knowledge Discovery
Applied to Blazar classification
Ciro Donalek = Automated classification
Using Catalina RTS data.
W UMa are main contaminants for RR Lyrae.
Jeff Scargle = Time series
Utilise Discrete Correlation Function (Edelson and Krolik, 1988)
Ani Thakar = Stats sur Sky Server
10 years of Sky Server Web and SQL logs !
194 million SQL queries, out of which 145 million succeeded.
Record = 37 million SQL queries on October 23 2008 -> only 1% success this day
(most from 1 IP in Victoria CADC)
Leurs stats sont accessibles
Ray Norris = ASKAP
Evolutionary Map of the Universe (EMU) = 45x deeper than NVSS
75% of the sky, 70 million galaxies, prévu pour 2014
9Tbit/s, un corrélateur consomme 10MW.
La cross-id sera faite par Loretta Dunne (Canterbury Uni)
Chenzhou Cui = VO China
Rien de bien nouveau, présentation sur LAMOST et compagnie.
N. Ball
Présentation de CANFAR = CADC cloud system, with 500 procs, up to 6 cores/proc and 32Gbyte mem. Soon 256Gbyte !
Uses Skytree for big data analyses.
And he's looking for a job !!
Discussion panel
Les méthodes sont sonvent applicables à des domaines plus vastes que l'astro seule (ex: Long-Scargle pour l'analyse spectrale, survival algorithm, ...)
Il manque souvent des tutoriels pour appréhender les packages de data mining (cf le gros manuel de
WEKA ou les menus déroulants dans
rattle)
12/09/2012
Stephen Drucker = Interface exploration for managing complexity (Microsoft)
Exploration de l'usage des tablettes graphiques pour voir comment les gens intéragissent avec la
visualisation de données complexes (tableaux, histogrammes...)
Data-driven vizualisation, with progressive queries...
Démo avec Filtering, Linking, Brushing...
Ne croit pas trop à l'avenir de la visu 3D (mais utilise des GPUs pour le calcul!) -> petit clash avec Djorgovski
Kirk Borne = Challenges of big data like LSST
LSST = 20 TB de data (un semi-remorque rempli de 40 000 CDs) par nuit (~1
SDSS/nuit) pendant 10 ans
2 millions d'event par nuit : characterize first, classify later
Big data can find help in X-informatics, Citizen Science
Alexander Gray = SkyTree
Skytree server = solution payante (chère) permettant de faire par exemple des tâches massives de détection d'objets, classification...
Ils embauchent.
Scalable software, free pyhton code MLpack from MatLab
Panel discussion : new models of scientific publishing
Djorgovski très critique sur le nouveau journal "Astronomy and Computing" ("scientific publishing
is like music record industry : already dead, but does not know it yet").
Ca coûte 5$ de mettre qq chose dans un archive, 200$ dans un journal.
Michael Kurtz se propose de calculer un "impact factor" pour arXiv.
La communauté du génome tend vers une mesure d'un impact total (publis + data)
Il y a ds mouvements pour faire bouger les frontières, comme
Force 11
Discussion sur le sujet
Practical astrosemantics
Matthew Graham Machine-processable knowledge
Travail sur Eyer-Mowlavi (2007) pour la classification de variables.
Triple = Subject - Predicate - Object
A fait des tests sur un repository de 11000 events, 420 000 params : StarDog, qui est un triplestore DB répond avec les meilleures perfs comparé à des DB classiques !
Travail sur SKA Information Intensive Framework
Norman Gray = Thesauri
Plaide pour un thesaurus unifié en astronomie, support des éditeurs.
La sémantique, ça peut être utilisé en pratique : Le site BBC sports utilise des techno sémantiques en background.
S. Derriere = Smart portal
J'ai présenté le travail en cours pour étendre le portail CDS vers autre chose que simplement nom d'objet ou position.
A. Mahabal
Présente un travail sur l'analyse du rapport entre mag(SN) et mag(galaxie hôte).
13/09/2012
Alyssa Goodman
Principles of High-Dimensional Data Visualization in Astronomy
Projet GLUE avec C. Beaumont (en Python).
Tableau = logiciel de data analytics
Essaye d'appliquer Tukey's 4 essentials of linked views : Picturing, Rotation, Isolation, Masking, + Brushing, Linking
Passage des linked views à la 3D (en IDL)
GLUEY plans : Agile.
Planétarium
Le dernier jour il y avait une démo de WWT au plané de Wahington Uni, avec 6 projecteurs synchronisés.
Ca a été un peu dur pour J. Fay, parce que c'est gourmand et a du mal à tourner si les machines n'ont pas des cartes graphiques dernier cri...
--
SebastienDerriere - 19 Sep 2012