Manfred logoManfred logo
Manfred logo
Manfred en redes:
CentricSoftware
25/06/13/2e0ecdb7-52b0-4706-9f44-75b8243191fc_Team2xcentric.jpg
CentricSoftware
Oferta cerrada el 11/06/2026

Data Collection Engineer

Variable+5K
Remoto100%
🌎 Equipo internacional🕐 Horario Flexible🎯 Producto🌎 Remoto 100% en España

⚠️ Nos sentimos abrumados por la cantidad de interesados/as que hemos tenido con esta posición. Queremos daros respuesta a todos y cada uno de vosotros/as y revisar la experiencia de cada persona con el mimo y el cariño que merece. Por lo tanto, paramos de momento la oferta, para poder responderos asap . Gracias por la paciencia y la confianza que depositáis en nosotros. ⚠️

Hablemos de una de las plataformas de recopilación y análisis de datos de mercado más avanzadas del mundo. Su tecnología permite monitorizar en tiempo real precios, tendencias y competencia a gran escala para algunas de las marcas más importantes del mercado.

Ahora buscan incorporar a una persona a su equipo de Data Collection con mentalidad muy hands-on y pasión por resolver problemas complejos relacionados con crawling, observabilidad, automatización y sistemas distribuidos.

Si Python es tu hábitat natural y te motivan los retos relacionados con sistemas complejos, medidas antibot y seguridad web… este equipo te va a querer cerca.

💻 Siéntate, que esto se pone interesante. 👀

¿Qué harás?

Centric Software® fue fundada en California y mantiene su sede histórica dentro del área de Silicon Valley. Hoy desarrollan soluciones basadas en IA y market intelligence para algunas de las mayores marcas del mundo, ayudándoles a monitorizar precios, tendencias y comportamientos de mercado a gran escala.

Dentro del ecosistema de Centric Software se encuentra Centric Market Intelligence™ (antes StyleSage), el equipo donde trabajarás: una plataforma que monitoriza en tiempo real precios, tendencias y competencia a escala global procesando cantidades enormes de datos. El equipo opera de forma remota desde España, aunque también disponen de coworking en Madrid.

Para que te hagas una idea del tamaño del reto:

  • Más de 4.000 crawlers funcionando sin parar
  • Más de 1.000 empresas monitorizadas en tiempo real.
  • Millones de productos, precios y tendencias analizados cada día
  • Un ecosistema enorme de spiders, observabilidad, tooling y sistemas internos funcionando 24/7

Sí, es tan bestia como parece. 😵

Como Data Collection Engineer, serás una pieza clave en la construcción de sistemas de recolección de datos, de forma escalable y siempre buscando la calidad en los resultados. Estarás colaborando con distintos equipos para mantener la solidez de su infraestructura de datos.

Vamos allá con la lógica de la plataforma. Déjame que te la cuente en pequeñas píldoras de información:

  • La plataforma se alimenta de lo que recogen los spiders, que principalmente hacen scrapping de sitios web, incluyendo retail, marketplaces, alimentación, luxury…
  • De cada producto se recoge toda la información disponible (fotos, título, descripción, materiales, tallas, precio, descuentos, etc.) y se normaliza para que la plataforma pueda consumirla y analizarla de forma consistente.
  • A cada producto se le aplican una serie de algoritmos de ML para clasificarlos en categorías (vestidos de noche, prendas de trabajar…) y extraer atributos (tipos de cuello: cuello de pico, cuello redondo, etc. ¿Sabías que hay hasta 9 tipos de cuello? 🤯).
  • Tienen una base de datos monstruosa a la que han bautizado como "Hulk" y se une a todo el histórico del resto de productos.
  • Hay otros proyectos secundarios, aunque igual de interesantes: redes sociales, análisis de búsqueda y tendencias, cupones de descuento, newsletters… Evidentemente, cada flujo de información tiene sus particularidades 🤪.

🎯 El principal reto al que te enfrentarás dentro del equipo de data collection es construir y mantener un sistema altamente escalable, fiable y resistente a bloqueos, capaz de recolectar datos de millones de productos en cientos de sitios web diferentes.

Trabajarás en un ecosistema con miles de crawlers/spiders y servicios que operan contínuamente sobre cientos de sitios web distintos, donde los retos van desde crawling y automatización hasta observabilidad, tooling interno, monitorización o mejora de frameworks y sistemas que utilizan otros engineers del equipo.

No es un puesto donde busquemos "developer" tradicional ni un devops o un sysadmin en sentido estricto (aunque tener experiencia en ambos ayuda). Lo que de verdad importa aquí no es saber seguir especificaciones al pie de la letra, sino tener mentalidad de hacker: curiosidad por desmontar cómo funciona la web, ganas de experimentar, y habilidad para encontrar soluciones ingeniosas cuando todo está contra ti (captchas, bloqueos, cambios de DOM, fingerprinting…).

No esperan necesariamente que vengas de años haciendo spiders. Lo más importante es tener una base sólida en Python y muchas ganas de aprender y meterte en sistemas complejos.

Sí, vas a programar (y bastante), pero tambien a pensar en escalabilidad, fiabilidad, automatización y experiencia de desarrollo para el resto del equipo. Desde mejorar quality gates o herramientas internas hasta construir servicios desde cero para resolver problemas muy concretos.

No se trata solo de programar spiders 🕷️, sino de desarrollar sistemas robustos que funcionen de forma continua en la nube, superen barreras anti-bot (como captchas o fingerprints) y garanticen la calidad y consistencia de los datos recolectados.

¿Te mola el rollo de investigar hasta que algo funciona… romper y reconstruir cosas? Entonces te esperamos 😜.

Tu evolución

CentricSoftware
Tu primer día

En 1 mes

Para empezar, te familiarizarás con sus herramientas principales y frameworks, entendiendo a nivel general cómo funcionan y cómo encajan dentro de su ecosistema tecnológico. Comenzarás a dominar los conceptos clave de su arquitectura, y ya estarás en condiciones de completar las primeras tareas básicas relacionadas con los spiders

Será tu primera toma de contacto con su enfoque de scraping a gran escala.

Tus responsabilidades

  • Diseñar y mantener spiders web escalables, deseablemente utilizando Scrapy, un framework open-source enfocado en web-crawling y extracción de datos con Python,  aplicando principios de modularidad (loaders, middlewares, pipelines) para asegurar un desarrollo sostenible y fácil mantenimiento.

  • Aplicar técnicas avanzadas para sortear sistemas anti-bot, incluyendo rotación de proxies, resolución automática de captchas 🤖 y fingerprinting. 🧬

  • Asegurar que todo funcione correctamente, aplicando técnicas y mejoras en la monitorización, observabilidad, desarrollo de CI/CD, nuevas alertas y nuevos quality gates.

  • Optimización de la infraestructura, con despliegues en la nube, ejecución paralela y mejora del uso del framework para la orquestación y gestión centralizada de spiders

  • Garantizar la calidad del código, realizando revisiones técnicas, aplicando estándares y desarrollando validaciones automáticas que aseguren la consistencia de los datos.

  • Colaborar con equipos de producto, ingeniería y datos, fomentando la documentación, el intercambio de conocimientos y nuevas iniciativas relacionadas con automatizaciones e IA.

¿Cómo lo harás?

El equipo de Centric Market Intelligence™ es muy compacto y versátil. Se espera que cada persona aporte con su trabajo, con su conocimiento y también con su iniciativa. Aquí no hay silos ni individualismos. Se persigue que el equipo esté cohesionado y que reme junto. ¡Importantísima esta visión de conjunto!

Su marco de trabajo está basado en metodologías ágiles, aunque buscan huir del purismo y quedarse con lo útil y lo que funciona. Tienen identificados unos principios de desarrollo de software muy claros:

  • Dividir el trabajo en pequeñas piececitas para conseguir incrementos cortos, pero entregas muy frecuentes (casi diarias).
  • Las Pull-Requests son importantes. Todo el código se revisa por 2 o 3 personas antes de mergear.
  • Les gusta hacer Spikes y PoC, ¡El camino se hace caminando!

Cada semana participarás en un “Monday Bananas” (aunque se hacen los jueves 🤣) para promover el aprendizaje interno. Tiene su historia: inicialmente estas charlas eran los lunes y se acompañaban de galletas y croissants. Pasaron luego a algo un poquito más healthy (parece que gustan los plátanos 🍌🍌). Por cosas de la vida, estas sesiones se movieron a los jueves y el resto, es historia.

¿Cuándo trabajarás?

La jornada es flexible. Se espera de ti que estés online durante las horas principales del día.

 ¿Tienes que salir al médico? No problema, ¿Al cole? No problema. Siempre con responsabilidad y estando en las horas centrales del día para coincidir con el equipo en algunas de sus dinámicas.

Confían en que seas una persona autocrítica, analítica, responsable y que hagas entregas de calidad dentro de tus cuarenta horas semanales.

Día laborable

Jornada completa

Vacaciones

23 días

Jornada laboral

Flexible

¿Dónde trabajarás?

Remoto

100%

La posición es 100% remota, así que mientras navegues a máxima velocidad, podrás trabajar desde el rincón que más te guste de España.

¿Con quién trabajarás?

  • Juanma Pérez (Data Collection Team Lead): Juanma es un líder tecnológico con más de 15 años de experiencia en IT. Actualmente lidera el equipo de web scraping en Centric Software. Ha trabajado en más ciudades que un grupo de flamenco en plena gira💃: Sevilla, Barcelona, Málaga... siempre con roles ligados a la calidad y la fiabilidad técnica. Le apasiona crear equipos sólidos, cuidar los detalles y encontrar soluciones prácticas incluso en los momentos más exigentes.
  • Robert Figiel (Ex-Founder & CTO of Centric Market Intelligence ): estudió Ingeniería Industrial en Berlín y Atlanta con especialización en estadística, informática y administración de empresas. En su etapa de universitario, trabajó en un centro de investigación contra el cáncer, desarrollando software para detectar automáticamente estructuras cancerosas en imágenes MRI 3D. Como consultor en McKinsey, Robert trabajó en proyectos muy variados sobre procesos y logística en Europa y África. Hizo un MBA en INSEAD in Singapur, donde conoció a Jade, a quien convenció para fundar StyleSage en 2013. Le encanta viajar (ha visitado +50 países), habla 5 idiomas y ha vivido y trabajado en 9 países antes de enamorarse definitivamente de Madrid.

Además de ellos, formarás parte de un equipo amplio e internacional con decenas de personas, aunque tu día a día será especialmente cercano a cuatro de ellas, con quienes colaborarás de forma constante y directa.  💻🤝

¿Qué piden?

Requisitos básicos: Es decir, los que no hay “tutía” y debes cumplir si o si…

  • Buena base en Python y ganas de trabajar sobre sistemas complejos y entornos de crawling/data collection a gran escala.
  • Que te encuentres cómodo/a trabajando con Git.
  • Experiencia o interés en observabilidad, monitoreo y debugging de sistemas (Grafana, Sentry o similares).
  • Buen conocimiento del entorno web: modelo, estándares, DOM, requests-responses, cookies, JavaScript, navegadores, headers, XHR, etc.
  • Capacidad para moverte entre distintas áreas técnicas según las necesidades del equipo: crawling, tooling interno, automatización, monitorización o servicios auxiliares. la industria está en contínua evolución. 🔄
  • Trabajan en un entorno global, por lo que tu habilidad para comunicarte en inglés será fundamental para colaborar.

Muy valorable:

  • Experiencia previa en crawling/scraping utilizando frameworks como Scrapy.
  • Experiencia con entornos en la nube (AWS preferiblemente).
  • Experiencia trabajando con sistemas distribuidos, automatización o tooling interno.
  • Familiaridad con proxies, captchas, fingerprinting y sistemas anti-bot.
  • Conocimientos de networking/web internals (TLS/SSL, TCP/IP, etc.).
  • Experiencia construyendo sistemas robustos y escalables.

Tecnologías

Innegociable

  • Python icon
    Python
    Avanzado

Estaría bien

  • AWS icon
    AWS
    Intermedio
  • Scrapy icon
    Scrapy
    Avanzado
  • Docker icon
    Docker
    Intermedio
  • Kubernetes icon
    Kubernetes
    Intermedio

Otras habilidades

Innegociable

  • Aprendizaje Continuo
  • Atención al detalle
  • Trabajo en equipo
  • Proactividad
  • Visión estratégica
  • Adaptabilidad al cambio

Estaría bien

  • Capacidad de autogestión
  • Comunicación verbal
  • Autonomía en el aprendizaje

Suma puntos

  • Liderazgo

Idiomas

Inglés
Fluido

¿Qué ofrecen?

Salario

Hasta 55K

Variable

+5K

Horario

Flexible

Remoto

100%

💰 Además del fijo, tienen un variable en función de objetivos con el que puedes sumar entre 3000 y 7600€ más al año.

💶 1000 € de presupuesto anual para cursos, formación y asistencia a conferencias.

👩‍🚀 3.5 días al año para que asistas a charlas y conferencias de tu elección.

🙌 Ambiente diverso e inclusivo.

Beneficios

Presupuesto para formación
Presupuesto para Conferencias
Seguro de salud
Eventos de formación internos
Seguro de vida
Dinámicas y eventos de teambuilding
Presupuesto para coworking
Pack de bienvenida
Apoyo con tu plan de pensiones
Posibilidad de elegir equipo

What the FAQ?

No, por razones administrativas los contratos son para trabajar en España desde España.

Les gusta hacer las cosas con agilidad y no alargar los tiempos innecesariamente.

Normalmente, su proceso de selección consta de 4 fases: entrevista inicial, prueba técnica, defensa de la prueba técnica con el equipo y ultima charla con VP ingeniería.

Es remoto 100% y tienen el equipo repartido por todo el país.

Eso sí, tienen varias ocasiones al año donde el pico de trabajo es más alto y prefieren juntar al equipo en Madrid (como por ejemplo, para el black friday). No serán más de 2 o 3 veces al año.

También hay puestos fijos en un coworking en Madrid que podrás utilizar si quieres pasar un tiempo con algunos de tus compañeros.

Algunos equipos quedan para trabajar juntos un día por semana (y otros no quedan nunca).

CentricSoftware
Data Collection Engineer100% remoto
SalarioHasta 55K
Variable+5K
Oferta cerrada