Технічний контекст
Я люблю такі новини не за вау-ефект, а за те, що тут нарешті з'являється чіткий міст між дослідженнями та реальним впровадженням ШІ (AI implementation). Google розвиває пасивний моніторинг серцевого ритму (Passive Heart Rate Monitoring): смартфон знімає коротке відео з фронтальної камери під час звичайного використання та оцінює пульс без окремого датчика.
По суті, це rPPG, дистанційна фотоплетизмографія. Камера фіксує мікроскопічні зміни кольору шкіри через кровотік, а модель витягує з цього серцевий ритм. Google пише про обробку на пристрої (on-device), приблизно 8 секунд відео та точність, яка в тестах тримається на рівні споживчих стандартів.
Я окремо звернув увагу на PhysFormer, оскільки це вже не просто евристика за колірними каналами, а трансформерний підхід до rPPG. І ось тут мені стало цікаво: якщо Google робить ставку на продуктовий пайплайн та приватність, то PhysFormer демонструє, яким може бути backbone для більш потужного вилучення сигналу в шумних умовах.
Паралельно з'явилося дослідження про біль, де за мікрорухами обличчя та трансферною ентропією (Transfer Entropy) пов'язують міміку з порушенням серцевої регуляції. Звучить сміливо, але логіка мені зрозуміла: людина може контролювати вираз обличчя, а от мікрозміни в області очей та загальну хаотичність рухів приховати значно важче.
І тут є важливе роздоріжжя. Виміряти пульс за відео вже виглядає цілком інженерним завданням. Оцінювати за тією ж камерою стрес, біль чи настрій, особливо вдома чи на роботі, можна лише як мультимодальну ймовірність, а не як магічний детектор внутрішнього стану.
Що це змінює для продуктів та автоматизації
По-перше: поріг входу знижується. Якщо автоматизацію ШІ (AI automation) в health-tech можна будувати на звичайній камері, продукту не потрібно залучати користувача у світ носимих датчиків та додаткового обладнання.
По-друге: архітектура стає цікавішою. Я б збирав такі системи щонайменше з шару фільтрації якості (quality-gating), гілки rPPG, гілки мікрорухів обличчя та шару об'єднання (fusion layer), який уже вирішує, чи є ознаки втоми, болю чи стресу. Без цього вийде гарне демо, але слабкий продукт.
По-третє: виграють ті, хто вміє враховувати приватність (privacy) та можливі збої (failure modes) з першого дня. Програють команди, які намагатимуться продавати "розпізнавання емоцій" без коригування на освітлення, рух, тон шкіри, мовлення та згоду користувача.
Ми в Nahornyi AI Lab саме вирішуємо такі завдання для клієнтів: не просто підключаємо модель, а розробляємо архітектуру рішень ШІ (AI solutions architecture) так, щоб вона працювала в реальних процесах, а не в презентаціях. Якщо у вас є продукт, де камера вже спрямована на користувача, можна акуратно перетворити це на корисну автоматизацію з ШІ без зайвого заліза та сумнівних обіцянок. Напишіть, і я з командою допоможу розкласти це на робочий пайплайн.