Tags:
create new tag
, view all tags

Réunion 1 du 16/01/2014

* Participants : Marc, Gilles, Pierre, Sébastien, Soisick, Thomas, Anaïs et André

N.B.
  • Lorsque l'on parle d'outil(s) de logs il s'agit du ou des outils qui seront sélectionnés suite à l'état de l'art et aux tests ou de développements propriétaires si la recherche et les tests s'avèrent infructueux
  • Lorsque l'on parle d'une architecture de logs cela fait référence au matériel (1 ou plusieurs serveurs) qui sera mis en oeuvre pour stocker et traiter les logs

Architecture, questions / réponses générales, etc.

  • Potentiellement une "masse" importante de logs à gérer, ordre de grandeur actuel, environ 1 million par jour, le traitement des logs peut s'avérer coûteux, il faudra sans doute prévoir une architecture robuste et viable durant 4 à 5 ans
  • Choix important à faire et évoqué en début de réunion: les nouveaux outils d'exploitation des logs devront-ils ingurgiter tous les formats existants actuellement au CDS ou doit-on plutôt envisager une conversion vers un format pivot, ce format étant compris par les outils de gestion des logs (les outils : le ou les outils qui résulteront de l'état de l'art initial, outils existants ou développement propriétaire, à voir plus tard)
    • Nous sommes tous d'accord pour élaborer un format pivot, les outils de gestions de logs ne seront donc pas dépendants des modifications apportées au format de logs d'un service
    • Afin de soulager les services nous prévoyons de faire les traitements de conversion au niveau de l'architecture de logs
    • On peut même en profiter pour prendre en charge la sauvegarde des logs par la même occasion : l'architecture de logs pourra accueillir les logs des services (fonctionnement type syslog) et en assurer la sauvegarde, cela a un avantage en terme de sécurité (en cas d'attaque d'un service, les logs donc une partie des traces, ne pourront pas être éffacés) ainsi qu'en espace de stockage (plus de saturation de partitions liées aux logs).
    • La gestion des logs des mirroirs est facilité dans un fonctionnement de type syslog
    • Important : il faudra que tous les serveurs utilisent ntp afin que le séquencement horaire des utilisations des services soit correct !!!
  • Utilisation d'une base de données ?
    • A priori oui mais il faudra également tester ce qui est faisable avec des outils comme Solr
  • Durée de conservation des logs
    • il faut distingué la conservation des logs sous forme d'archives (dans ce cas, avec une bonne compression, il est sans doutre réaliste de les archivers sur une longue période) et sous forme exploitable en temps réel (en d'autres termes celles présentes dans la base de données (si l'on choisit une BD pour le stockage)
    • une approche réaliste est sans doute de conserver par exemple 3 à 5 années de logs exploitables immédiatement, d'archiver le reste mais en conservant des statistiques (moyennes, points saillants, etc.) de la période archivée afin de pouvoir réaliser des comparaisons sur de longues périodes pour certains critères clés
  • Aladin : beaucoup d'informations "sensibles" sont récupérées, les utilisateurs sont prévenus mais cela requière tout de même un effort de préservation de la confidentialité
    • l'architecture dédiée aux logs sera sécurisée et dans l'absolu le risque est actuellement plus élevé étant donné que les logs sont stockées sur les machines opérationnelles des services donc accessibles de l'extérieur
  • Robots : il faudra maintenir une liste des adresses IP identifées (robots ou sous-réseaux d'instituts connus ...) + pays

Format pivot - début de réflexion

IP Date(en secondes) Service User-Agent / configuration return code query-string méthode

remarques :

  • configuration : le système, le type et la version du navigateur, etc.
  • le code de retour : nous avons discuter de l'utilité de remonter les erreurs
  • query-string ou clé / valeur ou par service ? point qui sera sans doute à rediscuter / affiner avant un choix definitif
  • méthode est par exemple une fonction utilisée dans Aladin
  • il serait intéressant d'avoir un numéro de session pour faciliter les regroupements et affectations à un utilisateur donné
  • un cas particulier : le proxy qui "mélange" les utilisateurs sous une même IP
  • pour Simcli : pas d'IP actuellement, à faire si possibl
  • A noter que les fichiers json doivent être écrits avec un objet par ligne (pas un tableau avec toutes les entrées), pour permettre de retrouver la position dans le fichier s'il a déjà été traité et pour permettre un traitement en streaming évitant une surcharge de mémoire si on doit lire la totalité du fichier.

Ce que l'on peut attendre du nouvel outil

  • Des états construits automatiquement tous les jours et qui seront disponibles immédiatement
  • Des requêtes en temps réel rapides
  • Des envois de CR journaliers
    • exemple: celui qui existe déjà pour Aladin (exemple à fournir par Pierre)
Les logs d'Aladin utilise un simple CGI qui mémorise des paramètres (via le GET) dans un fichier, et qui retourne le code 204 (circuler y a rien à voir). Ce script est utilisé par aladin java et aladin previewer

Voici un extrait de ce que cela donne:
2013/01/01 00:00:16 (java on 84.9.70.49) SimbadQuick "13:12:27.93 -62:41:44.9" 0.015
2013/01/01 00:02:16 (java on 161.72.44.27) Sesame V*+V429+Gem
2013/01/01 00:13:06 (java on 31.126.102.130) AllskyImage 2MASS colored~2
2013/01/01 00:13:06 (java on 71.91.202.225) Http xxx
2013/01/01 00:16:49 (java on 130.79.128.4) load file AJS
2013/01/01 00:16:50 (java on 130.79.128.4) Filter Label: Smb
2013/01/01 00:23:44 (java on 2.28.130.140) RGB  [R:ngc4038_24_img,G:814,B:435]
2013/01/01 00:28:48 (java on 41.242.165.46) HealpixStats DSS colored~3 Net:18/0.1Mb/3111.72ms CacheR:11/2.79Mb/119.0ms CacheW:18/1.89Mb/3.72ms
2013/01/01 00:29:06 (java on 130.79.128.175) export catalog VOTABLE
2013/01/01 00:30:05 (java on 130.79.128.4) Start standalone v6.916 perf=0 java=1.6.0_13/Sun Microsystems Inc. syst=Linux/amd64/2.6.24-23-server lang=en
...

Ce fichier peut être filtré par un simple grep et analysé par un script PERL sur-mesure pour produire ce genre de rapport :

Statistiques Aladin du 2014/02/17

EN BREF...EN BREF...EN BREF...EN BREF... (hors CDS)
.1 jour,
.1578 sessions
.9432 requetes http
.25603 losanges Healpix
.409 hosts
.137 installations


REQUETES PAR HOST (20 meilleurs) (hors CDS):
.ajijic.atnf.csiro.au                        822   (by standalone access)
.adsl-64-237-228-109.prtc.net                650   (by standalone access)
.188.52.43.59                                391   (by standalone access)
.cpc18-grth8-2-0-cust217.16-4.cable.virginm.net    334   (by standalone access)
.201-246-157-49.baf.movistar.cl              279   (by standalone access)
.161.72.202.175                              268   (by standalone access)
.SimbadChart                                 237   (by standalone access)
.nat-cg-intranet.oamp.fr                     201   (by standalone access)
.131.183.190.49                              200   (by standalone access)
.e176067178.adsl.alicedsl.de                 196
.host235.181-1-208.telecom.net.ar            174   (by standalone access)
.polifemo.arcetri.astro.it                   163   (by standalone access)
.86-45-236-152-dynamic.b-ras1.mgr.mullingar.eircom.net    146   (by standalone access)
.62.43.33.94.dyn.user.ono.com                138   (by standalone access)
.host81-153-166-98.range81-153.btcentralplus.com    130   (by standalone access)
.186.214.140.21.static.host.gvt.net.br       112   (by standalone access)
.p5482FB4D.dip0.t-ipconnect.de               110   (by standalone access)
.e182018166.adsl.alicedsl.de                 107   (by standalone access)
.magallanes.astroscu.unam.mx                 107   (by standalone access)
.ipfire2.astro.ruhr-uni-bochum.de            102   (by standalone access)

REQUETES (hors CDS):
.load                        2630    (non comptabilise)
.VizU                        2038    (non comptabilise)
.SimbadQuick                 1607
.Start                       1578    (non comptabilise)
.Http                        1402
.AllskyImage                 1256
.VizieRXML++                 1129
   - 2MASS-PSC        7.4%     83
   - UCAC4            6.3%     71
   - WISE             4.1%     46
   - Tycho-2          2.5%     28
   - GALEX            2.3%     26
   - USNO-B1          2.1%     24
   - B/wds            2.1%     24
   - ucac4            2.0%     23
   - hip2             2.0%     23
   - PPMXL            2.0%     23
   - SDSS-DR9         1.3%     15
             pour 316 catalogues
.IVOA-xxxx                   1039
.Filter                       666    (non comptabilise)
.Sesame                       633
.Aladin.Image                 455
   - DSS2            69.2%    315
   - MAMA            11.0%     50
   - RGB-preview      9.7%     44
   - DSS1             7.9%     36
   - DSS2?1392677187496     1.1%      5
   - 2MASS            0.4%      2
   - IRAS-IRIS        0.2%      1
   - DSS2?1392677188540     0.2%      1
   - DSS2?1392610418564     0.2%      1
             dont:
   - PLATE           12.2%     49/401
   - LOW              2.7%     11/401
.SimbadXML                    339
.match                        261    (non comptabilise)
.HealpixStats                 234    (non comptabilise)
.P-DSS2-color.hpx             226
.DefQual                      207
.Aladin.qualifierServer       143
.getFile                      137
.SAMP                         103    (non comptabilise)
.DSS.STScI                    101
.save                         100    (non comptabilise)
.NedXML                        99
.AllskyCatalog                 88
.RGB                           76    (non comptabilise)
.Recalibration                 60    (non comptabilise)
.VizieR.MetaCat                53
.macroController               50    (non comptabilise)
.backup                        46    (non comptabilise)
.Blink                         44    (non comptabilise)
.SDSSDR7                       39
.export                        36    (non comptabilise)
.Undo                          36
.DSS.ESO                       36
.Macro                         28    (non comptabilise)
.Skyview                       23
.HST-PR.outreach               23
.HST-PR                        19
.Contour                       19    (non comptabilise)
.UKIDSS                        18
.print                         16    (non comptabilise)
.ConvertToJpg                  15    (non comptabilise)
.NVSS                          13
.MAST                          13
.xmatch                        12    (non comptabilise)
.CADC                          12
.HLAFP                         11
.RecutPixel                    10    (non comptabilise)
.FIRST                         10
.smb.query                      8
.SimbadUrl                      8
.Compute                        8    (non comptabilise)
.CAI                            8
.IVOAdic                        7
.GenericSIA                     7
.VOToolExec                     6    (non comptabilise)
.ScatterPlot                    6    (non comptabilise)
.Aladin.java.home               6
.shs.img                        5
.VizX                           5    (non comptabilise)
.P-DSS2-red.hpx                 5
.AllskyMap                      5
.WP5.DNe                        4
.PluginControl                  4    (non comptabilise)
.Help                           4    (non comptabilise)
.FovEditor                      4    (non comptabilise)
.Crop                           4    (non comptabilise)
.AladinJava.SA                  4
.Aladin.java.getManual.pdf      4
.createROI                      3    (non comptabilise)
.SSS.cat                        3
.P-SPITZER-color.hpx            3
.LEDA                           3
.GenericConeSearch              3
.GALEX                          3
.newcolumn                      2    (non comptabilise)
.WP5.PN                         2
.WP5.MoC                        2
.WP5.HII                        2
.WP5.EmO                        2
.WP5.Cld                        2
.SkyBoT.IMCCE                   2
.P-IRIS-color.hpx               2
.Gavo_scs                       2
.DSS.Aladin                     2
.getReadMe                      1
.WP5.Stars.WhiteDwarfs          1
.WP5.SNR                        1
.SSS.img                        1
.P-Mellinger-color.hpx          1
.NVSS.outreach                  1
.Mosaic                         1    (non comptabilise)
.DSS.ESO.outreach               1
.Aladin.java.getFAQ             1

DIFFERENTES VERSIONS ALADIN UTILISEES (par machine et hors CDS):
.v8.025          0.3%      1
.v8.024          0.8%      3
.v8.023          0.3%      1
.v8.022          0.3%      1
.v8.017          0.3%      1
.v8.014          0.3%      1
.v8.013          0.3%      1
.v7.563          0.6%      2
.v7.540          0.3%      1
.v7.539          1.1%      4
.v7.533         72.3%    256
.v7.526          2.3%      8
.v7.524          1.7%      6
.v7.522          0.6%      2
.v7.015b         6.5%     23
.v7.015a         0.6%      2
.v7.015          0.3%      1
.v7.014          0.6%      2
.v7.005          2.3%      8
.v6.916          0.3%      1
.v6.055          4.2%     15
.v6.011b         1.4%      5
.v6.011a         0.6%      2
.v6.011          1.1%      4
.v6.005          0.3%      1
.v5.019          0.3%      1
.v5.018          0.3%      1

DECHARGEMENT D'ALADIN STANDALONE (hors CDS):
.Aladin.exe               59
.aladin.jnlp              13
.Aladin                   12
.Aladin.dmg               10
.Aladin-Russian-5.018.string.utf     10
.AladinManual6.pdf         8
.Aladin.tar                6
.FAQ.html                  4
.Aladin.jar                4
.AladinSrc.jar             3
.AladinBeta.jar            3
.Aladin-German-5.908.string      3
.AladinBeta.jnlp           1
.Aladin6.0.jar             1

REQUETES/LOSANGES PAR JOUR (hors CDS):
.2014/02/17             9432/ 25603

UTILISATION JAVA (hors CDS - apres 2/6/99)
.Mode d'utilisation (354 machines ayant fait 1578 sessions)
    241x 68.0% standalone      (  1339x 84.8%)
    113x 31.9% signed applet   (   239x 15.1%)
.l'origine du lancement de l'applet (par session)  :
    169x 10.7% Simbad
    128x  8.1% Simbad4
    127x  8.0% CDS-WebStart
     58x  3.6% VizieR
      8x  0.5% http://catserver.ing.iac.es/dss1/
      7x  0.4% CADC
      5x  0.3% APT
      3x  0.1% www.konkoly.hu
      3x  0.1% http://www.skypixels.at/links.html
      2x  0.1% http://wwwas.oats.inaf.it/aida4you/download/sp_es4_pleiadi.pdf
      2x  0.1% http://translate.googleusercontent.com/translate_c?depth=1&hl=sv&rurl=translate.google.se&sl=es&tl=en&u=http://simbad.u-strasbg.fr/simbad/sim-id%3Fprotocol%3Dhtml%26Ident%3D25%2BTau%26NbIdent%3D1%26Radius%3D2%26Radius.unit%3Darcmin%26submit%3Dsubmit%2Bid&usg=ALkJrhjJwPg949oZXDywjhFQQPjMpBXPKQ
      2x  0.1% http://simbak.cfa.harvard.edu/simbad/sim-plot?ident=NAME+HEART+NEBULA&name=AFGL333&radius=30&radius.unit=arcmin&submit=plot+this+list+of+objects&gridframe=ICRS
      2x  0.1% http://en.wikipedia.org/wiki/3C_58
      2x  0.1% STScI
      2x  0.1% CDSPortal-WebStart
      1x  0.0% https://www.google.com.br/
      1x  0.0% http://www.islambosna.ba/forum/nauka/slike-zvjezdanog-neba/msg199044/
      1x  0.0% http://www.facebook.com/l.php?u=http%3A%2F%2Faladin.u-strasbg.fr%2Fjava%2Fnph-aladin.pl&h=aAQHH6Ft-
      1x  0.0% http://simbak.cfa.harvard.edu/simbad/sim-id?Ident=sn+2011ht&NbIdent=1&Radius=2&Radius.unit=arcmin&submit=submit+id
      1x  0.0% http://cds.u-strasbg.fr/
      1x  0.0% http://aladin/
.les langues utilisees (par machine):
    324x 91.5% en
     19x  5.3% fr
      3x  0.8% ru
      3x  0.8% es
      3x  0.8% de
      2x  0.5% it
.les versions de machines JAVA (par machine) :
      3x  0.8% 1.8
    239x 67.5% 1.7
    110x 31.0% 1.6
      2x  0.5% 1.5
.les systemes d'exploitation (par machine) :
    170x 48.0% Windows/XP/...
     94x 26.5% Linux
     83x 23.4% Mac
      7x  1.9% Windows/vista

UTILISATION DES FONCTIONS AVANCEES D'ALADIN:
. 1607 SimbadQuick               (par  46 hosts - 12.99%)
.  666 Filter                    (par 144 hosts - 40.68%)
.  261 match                     (par  23 hosts - 6.50%)
.  103 SAMP                      (par  21 hosts - 5.93%)
.   76 RGB                       (par  16 hosts - 4.52%)
.   60 Recalibration             (par   5 hosts - 1.41%)
.   50 macroController           (par   5 hosts - 1.41%)
.   46 backup                    (par   7 hosts - 1.98%)
.   44 Blink                     (par   8 hosts - 2.26%)
.   28 Macro                     (par   6 hosts - 1.69%)
.   19 Contour                   (par   6 hosts - 1.69%)
.   15 ConvertToJpg              (par   2 hosts - 0.56%)
.   12 xmatch                    (par   4 hosts - 1.13%)
.   10 RecutPixel                (par   2 hosts - 0.56%)
.    8 Compute                   (par   3 hosts - 0.85%)
.    6 VOToolExec                (par   3 hosts - 0.85%)
.    6 ScatterPlot               (par   4 hosts - 1.13%)
.    4 PluginControl             (par   4 hosts - 1.13%)
.    4 Help                      (par   4 hosts - 1.13%)
.    4 FovEditor                 (par   3 hosts - 0.85%)
.    4 Crop                      (par   3 hosts - 0.85%)
.    4 Aladin.java.getManual.pdf (par   3 hosts - 0.85%)
.    3 createROI                 (par   1 hosts - 0.28%)
.    2 newcolumn                 (par   1 hosts - 0.28%)
.    2 SkyBoT.IMCCE              (par   2 hosts - 0.56%)
.    1 Mosaic                    (par   1 hosts - 0.28%)

DETAILS DES FONCTIONS VO:
.  4 VOToolExec VOPlot
.  1 VOToolExec VOspec
.  1 VOToolExec SPLAT
. 55 SAMP receiving table
. 22 SAMP receiving image
. 17 SAMP broadcast table
.  7 SAMP sending data or spectrum URL
.  2 SAMP broadcast image

UTILISATION HEALPIX (uniquement acces distants)
 => 25603 losanges visualises, 422.98 MB telecharges / 2166.05 MB total:
.20744 losanges (196.3/1705.4 MB) DSS colored
. 1462 losanges (69.9/173.4 MB) 2MASS colored
. 1070 losanges (69.7/148.8 MB) DSS2 Red (F+R)
. 1050 losanges ( 9.6/  9.6 MB) Simbad
.  443 losanges (18.9/ 31.0 MB) PLANCK-HFI color 353-545-857 GHz
.  424 losanges ( 3.2/ 36.4 MB) pointing
.  139 losanges (12.7/ 15.0 MB) GALEX colored
.   58 losanges (20.1/ 20.1 MB) XMM-Newton stacked EPIC images (no phot. normalization)
.   29 losanges ( 1.2/  3.9 MB) Fermi3 300-1000MeV
.   28 losanges ( 1.3/  1.3 MB) 2MASS
.   27 losanges ( 3.3/  3.9 MB) GALEX Allsky Imaging Survey colored
.   25 losanges ( 2.8/  2.8 MB) SDSS9 colored
.   20 losanges ( 2.1/  2.2 MB) WISE W1 (3.4um)
.   19 losanges ( 2.4/  2.5 MB) GALEX Allsky Imaging Survey NUV
.   18 losanges ( 1.1/  1.1 MB) PPMX
.   15 losanges ( 1.4/  1.4 MB) SDSS DR7
.    7 losanges ( 0.3/  0.4 MB) WISE W4 (22um)
.    6 losanges ( 0.1/  0.1 MB) HST-F850LP
.    5 losanges ( 0.2/  0.2 MB) IRAC color I1,I2,I4 - (GLIMPSE, SAGE, SAGE-SMC, SINGS)
.    4 losanges ( 2.5/  2.5 MB) Mellinger colored
.    3 losanges ( 2.6/  2.6 MB) Fermi5 3-300GeV
.    2 losanges ( 1.0/  1.0 MB) IRIS colored
.    1 losanges ( 0.1/  0.1 MB) UltraVista Ks
.    1 losanges ( 0.1/  0.1 MB) UltraVista J
.    1 losanges ( 0.1/  0.1 MB) MIPS2 - 70mu (C2D, Taurus2, SAGE, SAGE-SMC, SINGS)
.    1 losanges ( 0.1/  0.1 MB) MIPS1 - 24mu (MIPSGAL, C2D, Taurus2, SAGE, SAGE-SMC, SINGS)
.    1 losanges ( 0.1/  0.1 MB) IRAC3 - 5.8mu (GLIMPSE, C2D, Taurus2, SAGE, SAGE-SMC, SINGS)

Des cas d'utilisation

  • La suite des actions d'un utilisateur précis à travers les services
  • Nb d'intérrogation avec l'option = SimbadQuick
  • Statistiques suivant configuration (ou sous-configuration)
  • Type de recherche (service, keyword(s)) dans VizieR
  • Sortie Top 10
  • Un utilisateur fait une recherche avec un mot clé : qu'a-t-il ensuite fait durant un certain laps de temps ?

Stage ?

  • Le travail devrait prendre un "certain" temps, il est donc réaliste de débuter par un stage pour affiner les différents points, choisir des outils, prototyper, etc.
  • Démarrage de la recherche d'un stagiaire pour le premier semestre 2014, type DUT ou LP donc 10 ou 14 semaines
  • Il est réaliste de penser qu'un travail de stage permettrait d'aboutir dans un premier temps à une automatisation de la génération des statistiques et à fournir une première interface de requêtes
  • Une autre phase concernant des recherches plus élaborées de scénarios, de tendances fines, etc. pourrait faire l'objet d'un autre stage ou être poursuivi par une personne du CDS
  • Un bilan complet sera effectué après le premier stage
Topic revision: r9 - 2015-02-02 - AnaisOBERTO
 
This site is powered by the TWiki collaboration platform Powered by PerlCopyright © 2008-2024 by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki? Send feedback