Archivos de etiquetas: apache

Balanceo de tráfico en Alfresco ECM (escenarios)

—-
(15/09/2011) IMPORTANTE: Tras realizar pruebas concurrentes y aclaraciones por parte de Alfresco, los métodos de balanceo de CIFS/SMB no son recomendables en producción al menos hasta la próxima versión 4.0 debido a un problema con JLan y lo bloqueos en ficheros. No obstante esta información será consistente una vez Alfresco/JLan permita la concurrencia de accesos mediante CIFS/SMB.
Para más información se pueden consultar las entradas en JIRA siguientes así como información en la documentación de Alfresco:

Así pues, sigo recomendando actualmente una estructura más adecuada y ya analizada en el anterior artículo: http://www.fegor.com/2011/09/arquitecturas-cluster-en-alfresco.html
—-

A la hora de elaborar una arquitectura en alta disponibilidad y en la parte de balanceo de carga hacia los nodos podemos usar varios escenarios.

En este primer escenario vamos a usar el siguiente sistema:

Aquí se usan dos balanceadores, por un lado para las comunicaciones en SMB (CIFS) y otra para el acceso a través del cliente web (HTTP).

Para el acceso a través de los protocolos SMB/CIFS y HTTP se utilizará HAProxy, un magnífico programa que es capaz de gestionar comunicaciones en alta disponibilidad y balancear a nivel de protocolo TCP y dentro de este, el HTTP.

En este contexto, un fichero de configuración para HAProxy (/etc/haproxy.conf) podría ser:

global
        maxconn         32000

defaults applications HTTP
        log global
        mode http
        option httplog
        option forwardfor
        option dontlognull
        option httpclose
        balance roundrobin
        clitimeout 20000
        srvtimeout 20000
        contimeout 4000
        retries 3

listen  alfpru_http 192.168.56.150:80
        mode http
        cookie JSESSIONID prefix
        server alfpru1_http alfpru1:8080 cookie alfpru1_server check weight 50
        server alfpru2_http alfpru2:8080 cookie alfpru2_server check weight 50

defaults applications TCP
        log global
        mode tcp
        balance roundrobin
        clitimeout 180000
        srvtimeout 180000
        contimeout 4000
        retries 3
        redispatch

listen alfpru_smb alfpruha:445
        mode tcp
        balance roundrobin
        server alfpru1_smb alfpru1:10445 check weight 50
        server alfpru2_smb alfpru2:10445 check weight 50

De esta forma tenemos un balanceo (round robin) así como una persistencia en las sesiones.

Otro escenario posible es dividir el balanceo por protocolo, es decir, dejar SMB/CIFS para HAProxy y HTTP para Apache. El diagrama sería:

El nuevo fichero de configuración para HAProxy sería el siguiente:

global
        maxconn         32000

defaults applications TCP
        log global
        mode tcp
        balance roundrobin
        clitimeout 180000
        srvtimeout 180000
        contimeout 4000
        retries 3
        redispatch

listen alfpru_smb alfpruha:445
        mode tcp
        balance roundrobin
        server alfpru1_smb alfpru1:10445 check weight 50
        server alfpru2_smb alfpru2:10445 check weight 50

Y a su vez, la configuración de Apache (/etc/httpd/conf.d/proxy_ajp.conf) como sigue:

NameVirtualHost *:80

        ServerName alfpruha.pruebas.local
        ServerAdmin admin@pruebas.local
        ProxyRequests Off
        KeepAlive On

       
          Order deny,allow
          Allow from all
       

        ProxyPass /balancer-manager !

        ProxyPass /alfresco balancer://cluster1 stickysession=JSESSIONID lbmethod=byrequests nofailover=Off
        ProxyPassReverse /alfresco http://alfpru1:8080/alfresco
        ProxyPassReverse /alfresco http://alfpru2:8080/alfresco

       
               BalancerMember http://alfpru1:8080/alfresco route=jvm1
               BalancerMember http://alfpru2:8080/alfresco route=jvm2
       

       ProxyPass /share balancer://cluster2 stickysession=JSESSIONID lbmethod=byrequests nofailover=Off
       ProxyPassReverse /share  http://alfpru1:8080/share
       ProxyPassReverse /share  http://alfpru2:8080/share
       
               BalancerMember http://alfpru1:8080/share route=jvm1
               BalancerMember http://alfpru2:8080/share route=jvm2
       
       
          SetHandler balancer-manager
          Order deny,allow
          Allow from all
       

        ErrorLog /var/log/httpd/alfpru-error_log
        CustomLog /var/log/httpd/alfpru-access_log common
 

En este caso, no hay que olvidarse, que también habrá que configurar Tomcat para que se ajuste a las «rutas» del balanceo, en este caso en el fichero tomcat/conf/server.xml:

y en el segundo nodo:

También podría configurarse mediante mod_jk en lugar de mod_proxy/mod_proxy_balancer.

En ambos escenarios hay que reconfigurar los puertos SMB/CIFS para Alfresco (en este caso solo se usa el 445TCP del SMB ya que las instalaciones están realizadas en Linux CentOS 5) en el fichero ${ALFRESCO_HOME}/tomcat/shared/classes/shared/classes/alfresco/extension/subsystems/fileServers/default/default/custom-file-servers.properties:

cifs.tcpipSMB.port=10445
cifs.netBIOSSMB.sessionPort=10139
cifs.netBIOSSMB.namePort=10137
cifs.netBIOSSMB.datagramPort=10138

Estos son dos ejemplos de balanceo de tráfico para escenarios en alta disponibilidad, además de esta existen multitud de arquitecturas, p.e. un HAProxy que balancee a un Apache que balancee hacia los Tomcat/Alfresco, usar el mismo HAProxy para balancear tráfico TCP para MySQL o para Oracle, etc.

Datos sobre los nodos/hosts:

192.168.56.150  alfpruha
192.168.56.101  alfpru1
192.168.56.102  alfpru2

Donde 192.168.56.150 es la IP flotante o virtual.

HAProxy puede obtenerse de http://haproxy.1wt.eu/ así como toda la documentación para su correcta instalación y todas las opciones de configuración que no son pocas.

Apache mod_proxy_balancer puede descargarse y leer su documentación en el proyecto apache, en concreto en http://httpd.apache.org/docs/2.2/mod/mod_proxy_balancer.html

Calculando métricas en Alfresco mediante scripts

Para el cálculo de métricas en las búsquedas, subidas de ficheros, etc. podemos usar alguno de los programas que existen para estas tareas como es JMeter.

JMeter es un programa en Java, del proyecto Apache, que permite testear aplicaciones web. Es una aplicación de escritorio y muy usada en los entornos en los que se utilizan servidores de aplicaciones, sobre todo Tomcat.

Para más información podemos ir a la URL del proyecto: http://jakarta.apache.org/jmeter/

Si no tenemos tiempo de crear una batería de pruebas siempre podemos recurrir al intérprete BASH de Linux, Unix, MacOS, etc. que puede facilitarnos esta tarea.

Haciendo uso de algún WebScript ya implementado en Alfresco o modificando alguno de estos podemos usar las funciones y comandos de BASH para tomar tiempos.

Búsqueda aleatoria:

Una de las pruebas más importantes es el de las búsquedas en Alfresco. En este caso vamos a usar un WebScript de la parte OpenSearch que tiene Alfresco. El problema de este sistema es que solo devuelve los resultados en 3 formatos, HTML, RSS y ATOM, y en nuestro caso necesitamos que los devuelva en formato texto (TEXT) para poder tratarlo. Para esto, solo tenemos que modificar el descriptor para incluir en el contexto la llamada a una plantilla FreeMarker que devuelva texto plano e incluir esta plantilla. Para no «ensuciar» el despliegue lo haremos creando el directorio en alfresco/extension de forma que además podamos conservarlo entre distintas actualizaciones del producto. El sitio para introducir los dos ficheros será: /alfresco/extension/templates/webscripts/org/alfresco/repository/

Los dos ficheros serán los siguientes:

Fichero: keywordsearch.get.desc.xml


  Alfresco Keyword Search (OpenSearch Enabled)
  Execute Keyword Search against Alfresco Repository (Company Home and below)
  /api/search/keyword.html?q={searchTerms}&p={startPage?}&c={count?}&l={language?}
  /search/keyword.html?q={searchTerms}&p={startPage?}&c={count?}&l={language?}
  /api/search/keyword.texp?q={searchTerms}&p={startPage?}&c={count?}&l={language?}
  /search/keyword.text?q={searchTerms}&p={startPage?}&c={count?}&l={language?}
  /api/search/keyword.atom?q={searchTerms}&p={startPage?}&c={count?}&l={language?}
  /search/keyword.atom?q={searchTerms}&p={startPage?}&c={count?}&l={language?}
  /api/search/keyword.rss?q={searchTerms}&p={startPage?}&c={count?}&l={language?}
  /search/keyword.rss?q={searchTerms}&p={startPage?}&c={count?}&l={language?}
  /api/search/keyword.portlet?q={searchTerms}&p={startPage?}&c={count?}&l={language?}
  guest
  required

Fichero: keywordsearch.get.text.ftl 

${row.name}

Una vez introducidos los ficheros en el sitio correspondiente solo queda ir a la URL http://servidoralfresco:8080/alfresco/service/index y pulsar el botón de refresco de los WebScripts.

Ahora podemos ejecutar el script creado para las búsquedas. Este script lo que hace es una búsqueda por una palabra o KEYWORD, guardar los resultados en un fichero y después realizar el número de búsquedas solicitadas de forma automática guardando los tiempo y redirigiéndolos a un fichero para poder editar  posteriormente los resultados.

La sintaxis del script es:

./random_search usuario password keyword núm_iteracciones url_alfresco

Fichero: random_search

#!/bin/bash

# Pruebas de busquedas en Alfresco usando el webscript «search»
# www.fegor.com

if [ ! $# -eq 5 ]
then
        echo Sintaxis: random_search user passwd keyword num_randoms alfresco_url
        exit 1
fi

echo Realizando consulta completa…
IFSPREV=$IFS
IFS=$’x0A’$’x0D’
curl –user «$1:$2» «$5/service/api/search/keyword.text?q=$3&p=Company%20Home&c=10000&l=es» > random_search_result.txt

echo Comenzando las busquedas…
LINEAS=`cat random_search_result.txt | wc -l`
echo -e «Results of random_search.sh» > random_search_times.csv SG_FOR_I=`date +%s`
for n in $(seq 1 $4);
do
        RNM=$RANDOM
        let «RNM %= $LINEAS»
        let «RNM += 1»
        KEYWORD=`head -n $RNM random_search_result.txt | tail -1 | tr -d ‘r’`
        NS_CURL_I=`date +%s%N`
        curl –user «$1:$2» «$5/service/api/search/keyword.text?q=${KEYWORD}&p=Company%20Home&c=1&l=es»
        NS_CURL_F=`date +%s%N`
        let TOTAL_NS_CURL=$NS_CURL_F-$NS_CURL_I
        let TOTAL_MS_CURL=TOTAL_NS_CURL/1000000
        echo -e «`date`t$KEYWORDt$TOTAL_NS_CURLt$TOTAL_MS_CURL» >> random_search_times.csv 

done
SG_FOR_F=`date +%s`
let TOTAL_SG_FOR=$SG_FOR_F-$SG_FOR_I
echo -e «rrTotal time» >> random_search_times.csv
echo -e «`date`t$TOTAL_SG_FOR» >> random_search_times.csv
IFS=$IFSPREV

Un ejemplo de ejecución del comando sería:

[root@alfpru1 scripts]# ./random_search admin admin «*ftl» 5 http://192.168.56.1:8080/alfresco
Realizando consulta completa…
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
100   671    0   671    0     0   7910      0 –:–:– –:–:– –:–:–     0
Comenzando las busquedas…
categorysearch.get.atom.404.ftl
show_audit.ftl
categorysearch.get.atom.ftl
my_docs.ftl
general_example.ftl

Y posteriormente en la hoja de cálculo:

Subidas masivas:

Otra de las pruebas es la de realizar subidas masivas y en profundidad de un número de ficheros y comprobar los tiempos de estas subidas. El script es bastante parecido al anterior y hace uso de un WebScript que también está incluido en Alfresco. En este caso hay que crear un «site» llamado «tests» para poder subir los ficheros a dicho espacio.

Fichero: directory_upload
#!/bin/bash

# Pruebas de subidas en Alfresco usando el webscript «upload»
# www.fegor.com

if [ ! $# -eq 5 ]
then
        echo Sintaxis: directory_upload user passwd path ext alfresco_url
        exit 1
fi

echo «Subiendo…»
IFSPREV=$IFS
IFS=$’x0A’$’x0D’

echo -e «Results of directory_upload.sh» > directory_upload_times.csv
SG_FOR_I=`date +%s`
for f in $(find $3 ( -name *.$4 ));
do
        NS_CURL_I=`date +%s%N`
        curl -k -X POST –user «$1″:»$2″ -F filedata=@$f -F siteid=»tests» -F containerid=»documentLibrary» -F uploaddirectory=»testsDir» -F filename=»`basename $f`» -F contenttype=»`file –brief –mime $f`» «$5/service/api/upload» | grep ‘description’ | cut -d ‘:’ -f 2 | tr -d ‘»‘
        NS_CURL_F=`date +%s%N`
        let TOTAL_NS_CURL=$NS_CURL_F-$NS_CURL_I
        let TOTAL_MS_CURL=TOTAL_NS_CURL/1000000
        echo -e «`date`t$ft$TOTAL_NS_CURLt$TOTAL_MS_CURL» >> directory_upload_times.csv
done
SG_FOR_F=`date +%s`
let TOTAL_SG_FOR=$SG_FOR_F-$SG_FOR_I
echo -e «rrTotal time» >> directory_upload_times.csv
echo -e «`date`t$TOTAL_SG_FOR» >> directory_upload_times.csv
IFS=$IFSPREV

Este script también devuelve un fichero (directory_upload_times.csv) para su edición y estudio mediante cualquier sistema de hoja de cálculo como MS-Excel o OpenOffice.org

Un ejemplo de ejecución podría ser el siguiente:

[root@alfpru1 scripts]# ./directory_upload admin admin AMCM2011/ pdf http://192.168.56.1:8080/alfresco
Subiendo…
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
100 3252k  100   278  100 3252k    253  2968k  0:00:01  0:00:01 –:–:– 3014k
 File uploaded successfully
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
100  772k  100   253  100  772k    424  1295k –:–:– –:–:– –:–:– 1435k
 File uploaded successfully
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
100  311k  100   257  100  311k    414   502k –:–:– –:–:– –:–:–  510k
 File uploaded successfully
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
100 2485k  100   251  100 2485k    385  3814k –:–:– –:–:– –:–:– 3976k
 File uploaded successfully
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
100  415k  100   251  100  415k    245   406k  0:00:01  0:00:01 –:–:–  429k
 File uploaded successfully
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
100  481k  100   255  100  481k    443   836k –:–:– –:–:– –:–:–  859k
 File uploaded successfully
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
100 2471k  100   249  100 2471k    242  2402k  0:00:01  0:00:01 –:–:– 2444k
 File uploaded successfully

… procesando los datos: