Publications

Thesis

"Unification of Lightweight Thread Solutions and their Application in High-Performance Programming Models". PhD Dissertation advised by Rafael Mayo Gual (UJI) and Antonio J. Peña (BSC). 2015-2018.

Journals (30)

A. Tomás, H. Martínez, S. Catalán, P. Siwinska, A. Castelló, M. Casas, E. S. Quintana-Ortí. "Sparse Matrix-Vector Product on RISC-V Processors with SIMD units". Computing, Springer. ISSN: 0010-485X. Accepted. JCR: 3.6 (JCR 2025)(Q2). 2026. Open-access.
P. Siwinska, J. Lei, A. Castelló, P. Alonso-Jordá, E. S. Quintana-Ortí. "Enhancing Transformer Performance and Portability through Auto-tuning Frameworks". Journal of Supercomputing, Vol. 82 (206), pp. XX. ISSN: 1573-0484. DOI:https://doi.org/10.1007/s11227-026-08327-6 JCR: 3.5 (JCR 2025)(Q2). 2026. Open-access
H. Martínez, A. Castelló, F. D. Igual, E. S. Quintana. "The Cambrian explosion of mixed-precision matrix multiplication for quantized deep learning inference". Future Generation Computer Systems, Vol. 177. pp. 108231. DOI: https://doi.org/10.1016/j.future.2025.108231. ISSN: 0167-739X. JCR: 5.9 (Q1). 2025. Open-access
H. Martínez, S. Catalán, A. Castelló, E. S. Quintana-Ortí. "Characterization of quantized inference with transformer encoders on low power CPUs". Int. J. of High Performance Computing Applications,0 (0) DOI: https://doi.org/10.1177/10943420251355115. ISSN: 1094-3420. JCR: 2.4 (Q3) 2025 Open-access
H. Martínez, S. Catalán, A. Castelló, Jose I. Mestre, E. S. Quintana-Ortí. "Latency-Critical Quantized Inference With Transformer Decoders on ARM and RISC-V CPUs". IEEE Internet of Things Journal, Vol. X (X), pp. 1-1. ISSN: 2327-4662. DOI: 10.1109/JIOT.2025.3560382 JCR: 8.7 (Q1). 2025 Open-access
A. Castelló, H. Martínez, S. Catalán, F. D. Igual, E. S. Quintana-Ortí. "Experience-guided, Mixed-precision Matrix Multiplication with Apache TVM for ARM processors". Journal of Supercomputing, Vol. 81 (1), pp. 1-22. ISSN: 1573-0484. DOI: https://doi.org/10.1007/s11227-024-06720-7 JCR: 3.5(Q2). 2025. Open-access.
M. Gomez et al. "RED-SEA Project: Towards a new-generation european interconnect", Microprocessors and Microsystems. ISSN: 0141-9331 DOI:10.1016/j.micpro.2024.105102. JCR: 2.6 (Q2) 2024
C. Ramírez, A. Castelló, H. Martínez, E. S. Quintana. "Communication-avoiding fusion of GEMM-based convolutions for deep learning in the RISC-V GAP8 MCU". IEEE Internet of Things Journal, Vol 11 (21). pages 35640-35653 ISSN: 2327-4662. DOI:10.1109/JIOT.2024.3436937 JCR: 8.9 (Q1). 2024. Open-access
H. Martínez, S. Catalán, A. Castelló, E. S. Quintana-Ortí. "Parallel GEMM-based convolutions for deep learning on multicore ARM and RISC-V architectures". J. Systems Architecture, (aceptado y pdte. de publicación). ISSN: 1383-7621. JCR: 4.1 (Q1) 2024.
G. Alaejos, H. Martínez, A. Castelló, M. F. Dolz, F. D. Igual, P. Alonso, E. S. Quintana-Ortí. "Automatic Generation of ARM NEON Micro-Kernels for Matrix Multiplication". Journal of Supercomputing, Vol. XX, pp. XXXX. ISSN: 1573-0484. DOI: 10.1007/s11227-024-05955-8 JCR: 2.7 (Q2). 2024. Open-access.
C. Ramírez, A. Castelló, H. Martínez, E. S. Quintana-Ortí. "Parallel GEMM-based Convolution for Deep Learning on Multicore RISC-V Processors". Journal of Supercomputing, Vol. XX, pp. XXXX. ISSN: 1573-0484. DOI: 10.1007/s11227-024-05927-y JCR: 2.7 (Q2). 2024. Open-access.
G. Alaejos, A. Castelló, P. Alonso, F. D. Igual, H. Martínez, E. S. Quintana-Ortí. "Algorithm 1039: Automatic Generators for a Family of Matrix Multiplication Routines with Apache TVM". ACM Trans. Math. Softw. Vol 50(1). DOI: 10.1145/3638532 JCR: 3.2 (Q1). 2024. Open-access.
M. F. Dolz, H. Martínez, A. Castelló, P Alonso-Jordá, ES Quintana-Ortí. "Efficient and Portable Winograd Convolutions for Multi-core Processors". Journal of Supercomputing. ISSN: 0920-8542. DOI: 10.1007/s11227-023-05088-4 JCR: 2.5 (Q2). 2023. Open-access.
R. Rodríguez-Sánchez, A. Castelló, S. Catalán, F. D. Igual, E. S. Quintana-Ortí. "Experiences with Nested Parallelism in Task-Parallel Applications using Malleable BLAS on Multicore Processors". International Journal of High Performance Computing Applications. ISSN: 1094-3420. DOI::10.1177/10943420231157653 JCR: 3.5 (Q1). 2023.
M. F. Dolz, S.Barrachina, H. Martínez, A. Castelló, A. Maciá, G. Fabregat, A. E. Tomás. "Performance–energy trade-offs of deep learning convolution algorithms on ARM processors". Journal of Supercomputing. ISSN: 0920-8542. DOI: 10.1007/s11227-023-05050-4 JCR: 2.5 (Q2). 2023. Open-access.
G. Alaejos, A. Castelló, H. Martínez, P. Alonso, F. D. Igual, E. S. Quintana-Ortí. "Micro-kernels for portable and efficient matrix multiplication in deep learning". Journal of Supercomputing, vol 79, pages 8124–8147. ISSN: 0920-8542. DOI: 10.1007/s11227-022-05003-3 JCR: 2.5 (Q2). 2023. Open-access.
S. Barrachina, A. Castelló, M. F. Dolz, T. M. Low, H. Martínez, E. S. Quintana-Ortí, U. Sridhar, A. E. Tomás. "Reformulating the direct convolution for high-performance deep learning inference on ARM processors". J. Systems Architecture, Vol 135. pages 102806.ISSN: 1383-7621. 2023. DOI: 10.1016/j.sysarc.2022.102806. JCR: 3.7 (Q1). 2023. Open-access.
C. Ramírez, A. Castelló, E. S. Quintana-Ortí. "A BLIS-like matrix multiplication for machine learning in the RISC-V ISA-based GAP8 processor". Journal of Supercomputing, Vol. 78, pp. 18051-18060. ISSN: 0920-8542. DOI: 10.1007/s11227-022-04581-6 JCR: 3.3 (Q2) 2022. Open-access.
S.Barrachina, A.Castelló, M.F. Dolz, A.E. Tomás. "BestOf: an online implementation selector for the training and inference of deep neural networks". Journal of Supercomputing, Vol 78, pp17543–17558. Springer DOI: 10.1007/s11227-022-04577-2. 2022. JCR: 3.3 (Q2) Open-access
A. Castelló, S. Barrachina, M. F. Dolz, E. S. Quintana-Ortí, P. San Juan, A. E. Tomás. "High performance and energy efficient inference for deep learning on multicore ARM processors using general optimization techniques and BLIS". J. Systems Architecture, Vol. 125, pp. 102459:1-9, ISSN: 1383-7621. DOI: 10.1016/j.sysarc.2022.102459. 2022. JCR: 4.3 (Q1). 2022. Open-access
A. Castelló, M. Catalán, M. F. Dolz, E. S. Quintana-Ortí, J. Duato. "Analyzing the impact of the MPI Allreduce in distributed training of convolutional neural networks". Computing, Springer. ISSN: 0098-3500. 2021. On-line. DOI: 10.1007/s00607-021-01029-2. 2021. JCR: 2.420 (Q2).
A. Castelló, E. S. Quintana-Ortí, J. Duato. "Accelerating distributed deep neural network training with pipelined MPI Allreduce". Cluster Computing, Springer. Vol 24, pp 3797–3813. ISSN: 1386-7857 DOI: 10.1007/s10586-021-03370-9. 2021. JCR: 2.303 (Q2). Open-access.
S. Barrachina, A. Castelló, M. Catalán, M. F. Dolz, J. I. Mestre. "Using machine learning to model the training scalability of convolutional neural networks on clusters of GPUs". Computing, Springer ISSN: 1436-5057. 2021. DOI: 10.1007/s00607-021-00997-9 On-line. JCR: 2.420 (Q2). Open-access.
S. Barrachina, A. Castelló, M. Catalán, M. F. Dolz, J. I. Mestre. "PyDTNN: A user-friendly and extensible framework for distributed deep learning". Journal of Supercomputing, Springer Vol. 77, pp 9971-9987. ISSN:0920-8542 On-line. DOI; 10.1007/s11227-021-03673-z 2021. JCR: 2.557 (Q2).
A. Castelló, R. Mayo, S. Seo, P. Balaji, E. S. Quintana-Ortí, A. J. Peña. "Analysis of threading libraries for high performance computing". IEEE Trans. on Computers, Vol. 69(9), pp 1279-1292. ISSN: 0018-934. DOI: 10.1109/TC.2020.2970706 2020. JCR: 2.663 (Q2).
S. Catalán, A. Castelló, F. D. Igual, R. Rodríguez-Sánchez, E. S. Quintana-Ortí. "Programming parallel dense matrix factorizations with look-ahead and OpenMP". Cluster Computing, Vol. 23(1), pp. 359-375. ISSN: 1386-7857. DOI: 10.1007/s10586-019-02927-z 2020 JCR: 1.808 (Q2).
A. Castelló, R. Mayo, K. Salas, V. Beltran, P. Balaji. A. J. Peña. "On the Adequacy of Lightweight Thread Approaches for High-Level Parallel Programming Models". Future Generation Computer Systems, Elsevier. Vol 84. ISSN: 0167-739X, pp: 22-31. DOI: 10.1016/j.future.2018.02.016 2018. JCR: 4.639 (Q1)
S. Seo, A. Amer, P. Balaji, C. Bordage, G. Bosilca, A. Brooks, P. Carns, A. Castello, D. Genet, T. Herault, S. Iwasaki, P. Jindal, S. Kale, S. Krishnamoorthy, J. Lifflander, H. Lu, E. Meneses, M. Snir, Y. Sun, K. Taura, P. Beckman. "Argobots: A Lightweight Low-Level Threading and Tasking Framework". IEEE Transactions on Parallel and Distributed Systems, IEEE. Vol 29 pp: 512-526. DOI: 10.1109/TPDS.2017.2766062. 2018. JCR: 3.971 (Q1)
A. Castelló, A. J. Peña, R. Mayo, J. Planas, E. S. Quintana-Ortí, P. Balaji. "Exploring the Interoperability of Remote GPGPU Virtualization Using rCUDA and Directive-Based Programming Models". Journal of Supercomputing, Springer. Vol 74. ISSN: 0920-8542. pp: 5628-5642. DOI: 10.1007/s11227-016-1791-y 2018. JCR: 0.538 (Q2)
C. Reaño, F. Silla, A. Castelló, A. J. Peña, R. Mayo, E. S. Quintana-Ortí, J. Duato. "Improving the User Experience of the rCUDA Remote GPU Virtualization Framework". Concurrency and Computation: Practice and Experience (CCPE), ISSN: 1532-0626. pp: 3746-3770. DOI: 10.1002/cpe.3409 2015. JCR: 0.338 (Q3)

International Conferences (35)

P. Siwinska, A. Castelló, H. Martínez, A. E. Tomás, E. S. Quintana-Ortí "Highway for Sparse Linear Algebra? Performance and Portability Across Cases". 16th International Conference on Parallel Processing & Applied Mathematics (PPAM). Accepted. Poznań, Poland. 2026
P. Siwinska, A. Castelló, H. Martínez, A. E. Tomás, E. S. Quintana-Ortí, H. Anzt. "Acceleration of Ginkgo’s CG Solver on RISC-V CPUs with SIMD Units". Second PPAM Workshop on RISC-V. Accepted. Poznań, Poland. 2026
P. Siwinska, H. Martínez, A. Castelló. "Migration of Ginkgo's Jacobi-Preconditioned CG Solver to Vector RISC-V". International workshop on RISC-V for HPC at SC/HPCAsiaWS'26 Proceedings of the Supercomputing Asia and International Conference on High Performance Computing in Asia Pacific Region Workshops Region Workshops. pp 239-246. Osaka, Japan, 2026. ISBN: 979-8-400-72328-5. DOI: 10.1145/3784828.3785402
A. Castelló, H. Martínez, S. Catalán, F. D. Igual, E. S. Quintana. "RVV-enabled COTS platforms with matrix multiplication and Exo". International workshop on RISC-V for HPC at ISC, High Performance Computing. ISC High Performance 2025. Lecture Notes in Computer Science, vol 16091. Hamburg, Germany, June 10–13, 2025. ISBN: 978-3-032-07611-3. DOI: 10.1007/978-3-032-07612-0_41
A. Castelló, H. Martínez, F. D. Igual, E. S. Quintana-Ortí. "Generation of mixed-precision kernels for quantized transformer encoders with Exo". High Performance Computing. ISC High Performance 2025. Lecture Notes in Computer Science, vol 16091. Hamburg, Germany, June 10–13, 2025. ISBN: 978-3-032-07611-3. DOI: 10.1007/978-3-032-07612-0_33
A. Castelló, H. Martínez, S. Catalán, J. Lie, Y. Ikarashi, G. Dinh, F. D. Igual, E. S. Quintana-Ortí "Portable, High Performance Matrix Multiplication Micro-Kernels for RISC-V with EXO". 33rd Euromicro Workshop on Parallel and Distributed Processing - PDP 2025, pp. 25-32. Turin (Italy). 2025. ISBN: 979-8-3315-2493-7 DOI: 10.1109/PDP66500.2025.00013.
J. Duro, A. Castelló, M. E. Gómez, J. Sahuquillo, E. S. Quintana-Ortí. "Optimization of One-to-Many Communication Primitives for Dragonfly Topologies". 2024 IEEE 30th International Conference on Parallel and Distributed Systems (ICPADS), Belgrade, Serbia, 2024, pp. 675-683, doi: 10.1109/ICPADS63350.2024.00093 2024
H. Martínez, F. D. Igual, R. Rodríguez-Sánchez, S. Catalán, A. Castelló, E. S. Quintana-Ortí. "Inference with transformer encoders on ARM and RISC-V multicore processors". Lecture Notes in Computer Science, 14802, Euro-Par 2024, pp. 317-392, 2024. Madrid (España). 2024. ISBN: 978-3-031-69765-4. Open-access.
J. Duro, A. Castelló, M. E. Gómez, J. Sahuquillo, E. S. Quintana-Ortí. "One-to-many communication primitives in Dragonfly networks with scientific workloads". Lecture Notes in Computer Science,Euro-Par 2024, (aceptado y pdte. de publicación). Madrid (España). 2024. ISBN: --.
P. Kluska, A. Castelló, F. Scheidegger, A. C. I. Malossi, E.S. Quintana-Ortí. "QAttn: Efficient GPU Kernels for mixed-precision Vision Transformers". Workshop on Efficient Large Vision Models (eLVM 2024), pp. 3648-3657, 2024. Seattle (EE.UU.). 2024. ISBN: 2160-7516.
H. Martínez, S. Catalán, C. García, F. D. Igual, R. Rodríguez-Sánchez, A. Castelló, E. S. Quintana "Performance analysis of BERT on RISC-V processors with SIMD units". Lecture Notes in Computer Sciences 15058, 4th International Workshop on RISC-V for HPC (RISC-V HPC), pp. 325-338, 2024. Hamburgo (Alemania). 2024. ISBN: 978-3-031-73716-9_23.
A. Castelló, J. Bellavita, G. Dinh, Y. Ikarashi, H. Martínez. "Tackling the Matrix Multiplication Micro-kernel Generation with EXO". The International Symposium on Code Generation and Optimization - CGO 24. pp 182-193. DOI: 10.1109/CGO57630.2024.10444883. 2024
F. D. Igual, L. Piñuel, S. Catalán, H. Martínez, A. Castelló, E.S. Quintana-Ortí. "Automatic Generation of Micro-kernels for Performance Portability of Matrix Multiplication on RISC-V Vector Processors". Proceedings of the SC'23 Workshops of The International Conference on High Performance Computing, Network, Storage, and Analysis. ISBN: 9798400707858-. DOI: 10.1145/3624062.3624229 2023.
M. Dolz, H. Martínez, P Alonso-Jordá, A Castelló, E.S. Quintana-Ortí,. "Parallel and Vectorised Winograd Convolutions for Multi-core Processors". 5th AccML: Accelerated Machine Learning Workshop. AccML 2023. Tolouse (France)
C. Ramírez, A. Castelló, H. Martínez, E. S. Quintana-Ortí "Performance analysis of matrix multiplication for deep learning on the Edge". HPC on Heterogeneous Hardware Workshop - H3 2022. Hamburgo (Alemania). 2023. ISBN: 978-3-031-23220-6. DOI: 10.1007/978-3-031-23220-6_5
A. Castelló, S. Catalán, F. D. Igual, E. S. Quintana-Ortí, R. Rodríguez-Sánchez. "QR factorization using malleable BLAS on multicore processors". Malleability Techniques Applications in High-Performance Computing - HPMALL 2023, (aceptado y pdte. de publicación). Hamburgo (Alemania). 2022. ISBN: -.
A. Biagioni et al., "RED-SEA: Network Solution for Exascale Architectures," 2022 25th Euromicro Conference on Digital System Design (DSD), Maspalomas, Spain, 2022, pp. 712-719, doi: 10.1109/DSD57027.2022.00100.
A. Castelló, F. D. Igual, E. S. Quintana-Ortí. "Anatomy of the BLIS family of algorithms for matrix multiplication". 30th Euromicro Workshop on Parallel and Distributed Processing - PDP 2022, pp. 92-99. Valladolid (España). 2022. ISBN: 978-1-6654-6958-6. DOI: 10.1109/PDP55904.2022.00023
A. Castelló, M. F. Dolz, E. S. Quintana-Ortí. "Towards portable realizations of Winograd-based convolution with vector intrinsics and OpenMP". 30th Euromicro Workshop on Parallel and Distributed Processing - PDP 2022, pp. 39-46. Valladolid (España). 2022. ISBN: 978-1-6654-6958-6. DOI: 10.1109/PDP55904.2022.00015
G Alaejos, A Castelló, P Alonso-Jordá, ES Quintana-Ortí, FD Igual. "Convolution Operators for Deep Learning Inference: Libraries or Automatic Generation?". 4th AccML: Accelerated Machine Learning Workshop. AccML 2022. Budapest (Hungary)
S. Barrachina, A. Castelló, M. Catalán, M. F. Dolz, J. I. Mestre. "A Flexible Research-Oriented Framework for Distributed Training of Deep Neural Networks". IEEE International Parallel and Distributed Processing Symposium Workshops -- IPDPSW21, pp 730-739, 2021. Lyon (France). ISBN: XXXXX. DOI: 10.1109/IPDPSW52791.2021.00110 (CORE C) (GSS WIP)
A. Castelló, M. Catalán, M. F. Dolz, J. I. Mestre, E. S. Quintana-Ortí, J. Duato. "Evaluation of MPI Allreduce for distributed training of convolutional neural networks". 29th Euromicro Workshop on Parallel and Distributed Processing -- PDP 2021, pp. 119-116, 2021. Valladolid (Spain). 2021. ISBN: 978-1-6654-1455-5/21. DOI: 10.1109/PDP52278.2021.00025 (CORE C) (GSS WIP)
A. Castelló, M. Catalán, M. F. Dolz, J. I. Mestre, E. S. Quintana-Ortí, J. Duato. "Performance modeling for distributed training of convolutional neural networks". 29th Euromicro Workshop on Parallel and Distributed Processing -- PDP 2021, pp. 99-108, 2021. Valladolid (Spain). 2021. ISBN: 978-1-6654-1455-5/21. DOI: 10.1109/PDP52278.2021.00024 (CORE C) (GSS WIP)
P. San Juan, A. Castelló, M. F. Dolz, P. Alonso, E. S. Quintana-Ortí. "High performance and portable convolution operators for multicore processors". 29th Int. Symposium on Computer Architecture and High Performance Computing-- SBAC-PAD 2020. Oporto (Portugal). 2020. ISBN: 978-1-7281-9924-5. DOI: 10.1109/SBAC-PAD49847.2020.00023 (CORE B) (GSS WIP)
A. Castelló, M. F. Dolz, E. S. Quintana-Ortí, and J. Duato. "Analysis of model parallelism for distributed neural networks" Proceedings of the 26th European MPI Users' Group Meeting (Euro-MPI) 2019, 7:1-7:10. Zürich (Switzerland). 2019. ISBN: 978-1-4503-7175-9. DOI: 10.1145/3343211.3343218 (CORE C) (GSS WIP)
A. Castelló, M. F. Dolz, E. S. Quintana-Ortí, and J. Duato "Theoretical Scalability Analysis of Distributed Deep Convolutional Neural Networks" 2nd High Performance Machine Learning Workshop -- HPML 2019 (CCGRID), pp. 534-541. Larnaca (Cyprus). 2019. ISBN: 978-1-7281-0912-1/19 DOI: 10.1109/CCGRID.2019.00068. (CORE A) (GSS Class 2)
A. Castelló, S. Seo, R. Mayo, P. Balaji, E. S. Quintana-Ortí, and A. J. Peña. "GLT: A Unified API for Lightweight Thread Libraries". Lecture Notes in Computer Science 10417, Euro-Par 2017, pp. 470-481, (Eds. F. F. Rivera, T. F. Pena, J. C. Cabaleiro. Santiago de Compostela (Spain). 2017. ISBN: 978-3-319-64203-1. DOI: 10.1007/978-3-319-64203-1_34 (CORE A) (GSS Class 2)
A. Castelló, S. Seo, R. Mayo, P. Balaji, E. S. Quintana-Ortí, and A. J. Peña. "GLTO: On the Adequacy of Lightweight Thread Approaches for OpenMP Implementations". International Conference on Parallel Processing -- ICPP 2017,pp. 60-69. Bristol (UK). 2017. ISBN: 2332-5690. DOI: 10.1109/ICPP.2017.15 (CORE A) (GSS Class 2)
A. Castelló, A. J. Peña, S. Seo, R. Mayo, P. Balaji, and E. S. Quintana-Ortí. "A Review of Lightweight Thread Approaches for High Performance Computing". EEE Cluster 2016, pp. 471-480. Taipei (Taiwan). 2016. ISBN: 2168-9253. DOI: 10.1109/CLUSTER.2016.12 (CORE A) (GSS Class 2)
S. Iserte, F.J. Clemente-Castelló, A. Castelló, R. Mayo, and E. S. Quintana-Ortí. "Enabling GPU Virtualization in Cloud Environments". 6th Int. Conference on Cloud Computing and Services Sciences -- CLOSER 2016,pp. 249-256. Rome (Italy). 2016. ISBN: 978-989-758-182-3. DOI: 10.5220/0005780502490256 (GSS WIP)
A. Castelló, A. J. Peña, R. Mayo, P. Balaji, and E. S. Quintana-Ortí. "Exploring the Suitability of Remote GPGPU Virtualization for the OpenACC Programming Model Using rCUDA". IEEE International Conference on Cluster Computing (CLUSTER 2015). Chicago, IL (USA), Sept. 2015. ISBN: 978-1-4673-6598-7. DOI: 10.1109/CLUSTER.2015.23 (CORE A) (GSS Class 2)
A. Castelló, R. Mayo, J. Planas, and E. S. Quintana-Ortí. "Exploiting Task-Parallelism on GPU Clusters via OmpSs and rCUDA Virtualization". IEEE Trustcom/BigDataSE/ISPA 2015, pp. 160-165. Helsinki (Finland). 2015. ISBN: 978-1-4673-7952-6/15. DOI: 10.1109/Trustcom.2015.626 (GSS WIP)
A. Castelló, J. Duato, R. Mayo, A. J. Peña, E. S. Quintana-Ortí, V. Roca, and F. Silla. "On the Use of Remote GPUs and Low-Power Processors for the Acceleration of Scientific Applications." The Fourth International Conference on Smart Grids, Green Communications and IT Energy-aware Technologies (ENERGY 2014) pp. 57-62. Chamonix (France), Apr. 2014. ISBN: 978-1-61208-332-2.
S. Iserte, A. Castelló, R. Mayo, E. S. Quintana-Ortí, F. Silla, J., C. Reaño, J. Prades. "SLURM Support for Remote GPU Virtualization: Implementation and Performance Study". IEEE International Symposium on Computer Architecture and High Performance Computing (SBAC-PAD) pp. 318-325. Paris (France). 2014. ISBN: 1550-6533/14. DOI: 10.1109/SBAC-PAD.2014.49 (CORE B) (GSS WIP)
C. Reaño, F. Silla, A. J. Peña, G. Shainer, S. Schultz, A. Castelló, E. S. Quintana-Ortí, and J. Duato. "Boosting the Performance of Remote GPU Virtualization Using InfiniBand Connect-IB and PCIe 3.0." IEEE Cluster 2014, pp. 266-267. Madrid (Spain). 2014. ISBN: 978-1-4799-5548-0/14. DOI: 10.1109/CLUSTER.2014.6968737 (CORE A) (GSS Class 2)

Education (1)

A. Castelló, S. Iserte, and A. J. Belloch. "Accessible C-programming course from scratch using a MOOC platform without limitations" 4th International Conference on Higher Education Advances (HEAD) Valencia (Spain), Jun. 2018 - ISBN: 978-84-9048-690-0 DOI: 0.4995/HEAd18.2018.8176

National Conferences (20)

P. Siwinska, A. Castelló, H. Martínez, A.E. Tomás, E.S. Quintana-Ortí. "¿Highway para álgebra lineal dispersa? Estudio de Rendimiento y Portabilidad" XXXVI Jornadas de Paralelismo (JP2026), Madrid (España). 2026.
J. Lei, H. Martínez, A. Castelló. "Generación de Código RISC-V Optimizado con MLIR y xDSL" XXXVI Jornadas de Paralelismo (JP2026), Madrid (España). 2026.
G. Alaejos, P. Alonso-Jordá, A. Castelló, E.S. Quintana-Ortí, F. D. Igual, M. F. Dolz, and H. Martínez "Generación Automática de Micro-kernels ARM NEON para la Multiplicación de Matrices" XXXIV Jornadas de Paralelismo (JP2024), A Coruña (España). 2024.
J. Duro, A. Castelló, M.E. Gómez, J. Sahuquillo and E.S. Quintana-Ortí "Análisis de prestaciones de primitivas colectiva de uno a varios en redes DragonFly con cargas de trabajo de exaescala". XXXIV Jornadas de Paralelismo (JP2024), A Coruña (España). 2024.
A. Castelló, J. Bellavita, G. Dinh, Y. Ikarashi and H. Martínez. "Genración de Micro-kernels para Multiplicación de Matrices con Exo". XXXIII Jornadas de Paralelismo (JP2023), Ciudad Real (España). 2023.
S. Catalan, R. Rodríguez-Sánchez, A. Castelló, E. S. Quintana-Orti, F. D. Igual. "Paralelismo anidado utilizando BLAS maleable en procesadores multinúcleo". XXXIII Jornadas de Paralelismo (JP2023), Ciudad Real (España). 2023.
J. Duro, A. Castelló, M. E. Gómez, J. Sahuquillo, E. S. Quintana-Ortí, G. Gomez, M. Sánchez, J. Escudero-Sahuquillo, P. J. Garcia, F. Alfaro, J. L. Sanchez, F. J. Quiles. "Proyecto RED-SEA: Resultados Intermedios". XXXIII Jornadas de Paralelismo (JP2023), Ciudad Real (España). 2023.
C. Ramírez, A. Castelló, E. S. Quintana-Ortí. "Multiplicación de matrices para Aprendizaje Automático en procesadores RISC-V". XXXII Jornadas de Paralelismo (JP2022), Alicante (España). 2022.
G. Alaejos, A. Castelló, P. Alonso-Jordá, E. S. Quintana-Ortí, F. D. Igual. "Operadores de Convolución para la Inferencia en Deep Learning: Bibliotecas o Generación Automática de Código". XXXII Jornadas de Paralelismo (JP2022), Alicante (España). 2022.
E. Stabile, A. Castelló, E. S. Quintana-Ortí. "Evaluación de las Políticas de Mapeado de Procesos para MPI_Iallreduce". XXXII Jornadas de Paralelismo (JP2022), Alicante (España). 2022.
S. Barrachina, A. Castelló, M. Catalán, M. F. Dolz, J. I. Mestre, C. Ramírez, D. Rodríguez. "PyDTNN: Entorno para Entrenamiento e Inferencia con Redes Neuronales Profundas". XXXI Jornadas de Paralelismo (JP2021), Málaga (España). 2021.
M. Catalán, A. Castelló, E. S. Quintana, M. F. Dolz, J. Duato. "Mejora de los modelos predictivos para la comunicación colectiva MPI Allreduce". XXXI Jornadas de Paralelismo (JP2021), Málaga (España). 2021.
A. Castelló, M. F. Dolz, E. S. Quintana-Ortí, J. Duato. "Un simulador de paralelismo de modelo para redes neuronales". XXX Jornadas de Paralelismo (JP2019), Cáceres (Spain), 2019.
A. Castelló, R. Mayo, S. Seo, P. Balaji, E. S. Quintana-Ortí, A. J. Peña. "GLTO: una Implementación de OpenMP sobre Hilos Ligeros" XXIX Jornadas de Paralelismo (JP2018), Teruel (Spain), 2018.
S. Iserte, A. Castelló, R. Mayo, E. S. Quintana-Ortí, J. Prades, C. Reaño, F. Silla, and J. Duato. "Comparativa de Políticas de Selección de GPUs Remotas en Clusters HPC". XXVI Jornadas de Paralelismo (JP2015), Córdoba (Spain), 2015.
A. Castelló, J. Duato, R. Mayo, A. J. Peña, E. S. Quintana-Ortí, V. Roca, and F. Silla. "Acelerando Aplicaciones Científicas con GPUs Remotas y Procesadores de Bajo Consumo". XXV Jornadas de Paralelismo (JP2014), Valladolid (Spain), 2014.
S. Iserte, A. Castelló, A. J. Peña, C. Reaño, J. Prades, F. Silla, R. Mayo, E. S. Quintana-Ortí, and J. Duato. "Extendiendo SLURM con Soporte para el Uso de GPUs Remotas". XXV Jornadas de Paralelismo (JP2014), Valladolid (Spain), 2014.
C. Reaño, A. Castelló, S. Iserte, A. J. Peña, F. Silla, R. Mayo, E. S. Quintana- Ortí, and J. Duato. "Virtualización Remota de GPUs: Evaluación de Soluciones Disponibles para CUDA". XXIV Jornadas de Paralelismo (JP2013). Madrid (Spain). 2013.
S. Iserte, A. Castelló, C. Reaño, A. J. Peña, F. Silla, R. Mayo, E. S. Quintana-Ortí, and J. Duato. "Un Planificador de GPUs Remotas para Clusters HPC". XXIV Jornadas de Paralelismo (JP2013). Madrid (Spain). 2013.
S. Barrachina, M. I. Castillo, A. Castelló, R. Mayo, J. Ortells, and E. S. Quintana-Ortí. "GPUBenchmark: un Banco de Pruebas para GPUs". XXIII Jornadas de Paralelismo (JP2012). Elche (Spain). 2012.

Page updated

Google Sites

Report abuse