Manfred logoManfred logo
Manfred logo
Manfred en redes:
CentricSoftware
25/06/13/2e0ecdb7-52b0-4706-9f44-75b8243191fc_Team2xcentric.jpg
CentricSoftware

Senior Data Collection Engineer

Variable+7,6K
Remoto100%
🌎 Remoto 100% en España🕐 Horario Flexible🌎 Equipo internacional🎯 Producto

Hablemos de la plataforma más avanzada para transformar el ciclo de vida de productos en el retail. Están buscando una persona que se una a su equipo de Data Collection a quien le entusiasmen los desafíos técnicos de verdad: scraping a gran escala, spiders inteligentes y sistemas que no se rompan.

Si Python es tu hábitat natural y sabes lo que es burlar un captcha sin pestañear… este equipo te va a querer cerca.

💻 Siéntate, que esto se pone interesante. 👀

¿Qué harás?

Desde su sede en Silicon Valley, Centric Software® ofrece una  plataforma de concepto a reposición de productos basada en IA para minoristas, marcas y fabricantes de todos los tamaños. Ofrece las mejores soluciones para planificar, diseñar, desarrollar, obtener, comprar, fabricar, fijar precios, asignar, vender y reponer productos.

Dentro de Centric Software encontramos varias verticales:

  • Centric PLM™ la solución PLM líder para bienes de consumo, optimiza la ejecución del producto desde la ideación hasta el desarrollo, abastecimiento y fabricación, consiguiendo una mejora de la productividad de hasta el 50%.
  • Centric Planning™ es una innovadora solución de IA nativa en la nube que ofrece capacidades de planificación de extremo a extremo para maximizar el rendimiento del negocio minorista y mayorista, lo que se traduce en un aumento del margen del 110 %.
  • Centric Pricing & Inventory™ aprovecha la IA para impulsar los márgenes y aumentar los ingresos hasta un 18% mediante la optimización de precios e inventarios desde la pretemporada hasta la finalización de la temporada.
  • Centric Market Intelligence™ (antes StyleSage) es una plataforma de conocimiento del mercado basada en IA que permite tomar decisiones basadas en datos sobre las ofertas y los precios de la competencia, así como sobre las tendencias y el comportamiento de compra de los consumidores. Donde trabajarás.
  • Centric Visual Boards™ hace pivotar los datos procesables en una orientación visual para garantizar surtidos y ofertas de productos sólidos y adecuados para el consumidor.

Para que te hagas una idea de la plataforma:

  • Analiza la información de más de 1.000 retailers de moda.
  • Procesa datos de 600.000 marcas.
  • Trackea al milímetro la actividad y fluctuaciones de más de 500 millones (sí, sí, MILLONES) de productos.

Y esta actividad la mantienen a diario. ¡Alucinante! 😵 

Como Senior Data Collection Engineer, serás una pieza clave en la construcción de sistemas de recolección de datos escalables y de alta calidad. Estarás colaborando con distintos equipos para mantener la solidez de su infraestructura de datos.

Vamos allá con la lógica de la plataforma. Déjame que te la cuente en pequeñas píldoras de información:

  1. La plataforma se alimenta de lo que recogen los spiders, que principalmente hacen scrapping de sitios ecommerce de moda, (aunque también trabajan con otros sectores 😉).
  2. De cada producto se recoge toda la información disponible (fotos, título, descripción, materiales, tallas, precio, descuentos, etc.) y se normaliza para que la plataforma pueda consumirla y analizarla de forma consistente.
  3. A cada producto se le aplican una serie de algoritmos de ML para clasificarlos en categorías (vestidos de noche, prendas de trabajar…) y extraer atributos (tipos de cuello: cuello de pico, cuello redondo, etc. ¿Sabías que hay hasta 9 tipos de cuello? 🤯).
  4. Tienen una base de datos monstruosa a la que han bautizado como "Hulk" y se une a todo el histórico del resto de productos.
  5. Hay otros proyectos secundarios, aunque igual de interesantes: redes sociales, análisis de búsqueda y tendencias, cupones de descuento, newsletters… Evidentemente, cada flujo de información tiene sus particularidades 🤪.

🎯 El principal reto al que te enfrentarás dentro del equipo de data collection es construir y mantener un sistema con miles de spiders que sea altamente escalable, fiable y resistente a bloqueos, capaz de recolectar datos de millones de productos en cientos de sitios web diferentes. 

No se trata solo de programar spiders 🕷️, sino de diseñar una infraestructura robusta que funcione de forma continua en la nube, supere barreras anti-bot (como captchas o fingerprints) y garantice la calidad y consistencia de los datos recolectados. Además, tendrás que coordinarte con equipos de producto y datos para asegurar que todo lo que se captura sea realmente útil para el negocio. 🤝

Tu evolución

CentricSoftware
Tu primer día

En 1 mes

Para empezar, te familiarizarás con sus herramientas principales y frameworks, entendiendo a nivel general cómo funcionan y cómo encajan dentro de su ecosistema tecnológico. Comenzarás a dominar los conceptos clave de su arquitectura, y ya estarás en condiciones de completar tus primeras tareas desarrollando spiders básicos.

Será tu primera toma de contacto con su enfoque de scraping a gran escala.

Tus responsabilidades

  • Diseñar y mantener spiders web escalables utilizando Scrapy, aplicando principios de modularidad (loaders, middlewares, pipelines) para asegurar un desarrollo sostenible y fácil mantenimiento.

  • Aplicar técnicas avanzadas para sortear bloqueos anti-bot, incluyendo rotación de proxies, resolución automática de captchas y fingerprinting.

  • Desarrollar pipelines CI/CD eficientes que automaticen las pruebas, el despliegue y el monitoreo continuo de los spiders, garantizando entregas fiables y rápidas.

  • Asegurar que todo funcione correctamente, aplicando técnicas de monitorización, observabilidad y reability.

  • Optimización de la infraestructura, con despliegues en la nube, ejecución paralela y mejora del uso del framework Scrapyd para la orquestación y gestión centralizada de spiders.

  • Garantizar calidad del código y precisión de los datos, realizando revisiones técnicas, aplicando estándares de clean code y desarrollando validaciones que aseguren datos completos y consistentes.

  • Colaborar con equipos de producto, ingeniería y datos, fomentando la documentación, el intercambio de conocimientos y la formación continua en técnicas de scraping y arquitectura de sistemas.

¿Cómo lo harás?

El equipo de Centric Market Intelligence™ es muy compacto y versátil. Se espera que cada persona aporte con su trabajo, con su conocimiento y también con su iniciativa. Aquí no hay silos ni individualismos. Se persigue que el equipo esté cohesionado y que reme junto. ¡Importantísima esta visión de conjunto!

Su marco de trabajo está basado en metodologías ágiles, aunque buscan huir del purismo y quedarse con lo útil y lo que funciona. Tienen identificados unos principios de desarrollo de software muy claros:

  • Dividir el trabajo en pequeñas piececitas para conseguir incrementos cortos, pero entregas muy frecuentes (casi diarias).
  • Las Pull-Requests son importantes. Todo el código se revisa por 2 o 3 personas antes de mergear.
  • Entregar solo y siempre código de calidad.
  • Les gusta hacer Spikes y PoC, ¡El camino se hace caminando!

Cada semana participarás en un “Monday Bananas” (aunque se hacen los jueves 🤣) para promover el aprendizaje interno. Tiene su historia: inicialmente estas charlas eran los lunes y se acompañaban de galletas y croissants. Pasaron luego a algo un poquito más healthy (parece que gustan los plátanos 🍌🍌). Por cosas de la vida, estas sesiones se movieron a los jueves y el resto, es historia.

¿Cuándo trabajarás?

La jornada es flexible. Se espera de ti que estés online durante las horas principales del día.

 ¿Tienes que salir al médico? No problema, ¿Al cole? No problema. Siempre con responsabilidad y estando en las horas centrales del día para coincidir con el equipo.

Confían en que seas una persona autocrítica, analítica, responsable y que hagas entregas de calidad dentro de tus cuarenta horas semanales.

Día laborable

Jornada completa

Vacaciones

23 días

Jornada laboral

Flexible

¿Dónde trabajarás?

Remoto

100%

La posición es 100% remota, así que mientras navegues a máxima velocidad, podrás trabajar desde el rincón que más te guste de España.

¿Con quién trabajarás?

  • Juanma Pérez (Data Collection Team Lead): Juanma es un líder tecnológico con más de 15 años de experiencia en IT. Actualmente lidera el equipo de web scraping en Centric Software, centrado en la creación de pipelines de datos a gran escala. Ha trabajado en más ciudades que un grupo de flamenco en plena gira💃: Sevilla, Barcelona, Málaga... siempre con roles ligados a la calidad y la fiabilidad técnica. Le apasiona crear equipos sólidos, cuidar los detalles y encontrar soluciones prácticas incluso en los momentos más exigentes.
  • Robert Figiel (Ex-Founder & CTO of Centric Market Intelligence ): estudió Ingeniería Industrial en Berlín y Atlanta con especialización en estadística, informática y administración de empresas. En su etapa de universitario, trabajó en un centro de investigación contra el cáncer, desarrollando software para detectar automáticamente estructuras cancerosas en imágenes MRI 3D. Como consultor en McKinsey, Robert trabajó en proyectos muy variados sobre procesos y logística en Europa y África. Hizo un MBA en INSEAD in Singapur, donde conoció a Jade, a quien convenció para fundar StyleSage en 2013. Le encanta viajar (ha visitado +50 países), habla 5 idiomas y ha vivido y trabajado en 9 países antes de enamorarse definitivamente de Madrid.

Además de ellos, formarás parte de un equipo amplio e internacional con decenas de personas, aunque tu día a día será especialmente cercano a cuatro de ellas, con quienes colaborarás de forma constante y directa.  💻🤝

¿Qué piden?

Requisitos básicos: Es decir, los que no hay “tutía” y debes cumplir si o si…

  • Que te encuentres cómodo/a trabajando con Git, revisiones de código y pipelines de CI/CD.
  • Experiencia con infraestructura en la nube, preferiblemente AWS (pero no obligatoriamente).
  • Manejo de sistemas de monitoreo y observabilidad como Grafana y Sentry.
  • Buen conocimiento del entorno web: modelo, estándares, DOM, requests-responses, cookies, JavaScript, navegadores, headers, XHR, etc.
  • Familiaridad con TLS/SSL, TCP/IP y redes a bajo nivel sería un plus muy bien valorado.
  • Trabajan en un entorno global, por lo que tu habilidad para comunicarte en inglés será fundamental para colaborar y documentar.

Lo que esperan de tí como senior:

  • Que seas experto/a en diseñar sistemas tolerantes a fallos y desplegarlos a gran escala.
  • Conocimiento en despliegues con contenedores (Docker, Kubernetes…).
  • Dominio en crear crawlers escalables y pipelines de datos usando Python y Scrapy.
  • Experiencia construyendo sistemas de scraping resilientes para arquitecturas web variadas.

¿Quieres ir a por el 10?

  • Experiencia previa guiando o liderando desarrolladores junior.

Tecnologías

Innegociable

  • Python icon
    Python
    Avanzado
  • Scrapy icon
    Scrapy
    Avanzado
  • Git icon
    Git
    Avanzado

Estaría bien

  • AWS icon
    AWS
    Intermedio
  • Docker icon
    Docker
    Básico
  • Kubernetes icon
    Kubernetes
    Básico

Otras habilidades

Innegociable

  • Aprendizaje Continuo
  • Atención al detalle
  • Capacidad de escucha
  • Trabajo en equipo
  • Proactividad
  • Visión estratégica

Estaría bien

  • Capacidad de autogestión
  • Comunicación verbal

Idiomas

Inglés
Fluido

¿Qué ofrecen?

Salario

Hasta 65K

Variable

+7,6K

Horario

Flexible

Remoto

100%

💰 Además del fijo, tienen un variable en función de objetivos con el que puedes sumar entre 5000 y 7600€ más al año.

💶 1000 € de presupuesto anual para cursos, formación y asistencia a conferencias.

👩‍🚀 3.5 días al año para que asistas a charlas y conferencias de tu elección.

🙌 Ambiente diverso e inclusivo.

Beneficios

Presupuesto para formación
Presupuesto para Conferencias
Seguro de salud
Eventos de formación internos
Seguro de vida
Dinámicas y eventos de teambuilding
Pack de bienvenida
Apoyo con tu plan de pensiones
Posibilidad de elegir equipo

What the FAQ?

No, por razones administrativas los contratos son para trabajar en España desde España.

Les gusta hacer las cosas con agilidad y no alargar los tiempos innecesariamente.

Normalmente, su proceso de selección consta de 3 fases: entrevista inicial, prueba técnica y entrevista con el equipo.

Es remoto 100% y tienen el equipo repartido por todo el país.

Eso sí, tienen varias ocasiones al año donde el pico de trabajo es más alto y prefieren juntar al equipo en Madrid (como por ejemplo, para el black friday). No serán más de 2 o 3 veces al año.

También hay puestos fijos en un coworking en Madrid que podrás utilizar si quieres pasar un tiempo con algunos de tus compañeros.

Algunos equipos quedan para trabajar juntos un día por semana (y otros no quedan nunca).

Cada equipo organiza  de vez en cuando (cada 2 meses aprox) eventos para verse las caras: una actividad en un parque de tirolinas, un paseo a caballo… y por supuesto comida.

CentricSoftware
Senior Data Collection Engineer100% remoto
SalarioHasta 65K
Variable+7,6K