Apple объявила Siri на презентации iPhone 4S 4 октября 2011 года. Через один день умер Стив Джобс. Освещение смерти Джобса затмило запуск Siri, но в последующие недели Siri стала самой обсуждаемой функцией в технологиях.
Не потому что она была технически беспрецедентной - распознавание голоса существовало в автомобилях, в корпоративных call-центрах. Но потому что она была в потребительском устройстве, которое купили 30 миллионов человек за первый месяц, и потому что модель взаимодействия была реально другой.
«Какая завтра погода?» Вопрос на естественном языке. Ответ на естественном языке. Никакого меню, никакой области нажатия, никакого поля поиска. Просто разговор.
Что такое Siri технически
Siri была приобретена Apple у SRI International в апреле 2010, за 18 месяцев до запуска. Технология:
- Захват звука: записываем речь, отправляем аудио на серверы Apple
- Распознавание речи: конвертируем аудио в текст (серверы Apple, не устройство)
- Natural Language Understanding (NLU): анализируем текст для определения намерения и сущностей
- Диспетчеризация действий: маршрутизируем намерение к нужному сервису (погода, календарь, телефон)
- Генерация ответа: генерируем ответ на естественном языке
Шаг 3 был сложным. NLU в 2011 году был основан на правилах и статистике: сопоставление с большим набором обученных паттернов, со значениями уверенности и запасными вариантами:
# Концептуальный парсер намерений (не реальная реализация Siri)
def parse_intent(utterance):
utterance = utterance.lower().strip()
weather_patterns = [
r"(какая|что) (погода|температура) (сегодня|завтра|сейчас)?",
r"(будет ли|пойдёт ли) (дождь|снег) (сегодня|завтра)?",
]
for pattern in weather_patterns:
if re.search(pattern, utterance):
return Intent(
name='get_weather',
confidence=0.92,
entities={'time': extract_time_reference(utterance)}
)
return Intent(name='unknown', confidence=0.1)
Точность была достаточной для демонстрационных категорий (погода, календарь, напоминания, музыка, звонки), но быстро снижалась вне них.
Что реально изменилось в UX-дизайне
Мы опрашивали пользователей о Siri в начале 2012 года. Выводы были тоньше, чем пресс-освещение.
Открываемость была другой. С визуальным UI открываемость - это навигация: мог ли пользователь найти функцию в структуре меню? С голосовым UI открываемость - это словарный запас: знает ли пользователь правильные слова?
Пользователи, обнаружившие, что «Поставь таймер на 10 минут» работает, были удивлены и восхищены. Пользователи, попробовавшие «Отмени мою встречу в 15:00», и потерпевшие неудачу (Siri не могла изменять события календаря в 2011), расстроились и перестали использовать голос для задач с календарём.
Задержка переоценивалась. Голосовое взаимодействие требовало серверного round-trip. Задержка 500мс была резкой; задержка 2 секунды казалась сломанной. После Siri мы начали относиться к времени ответа бэкенда как к первоклассному требованию продукта.
Прощение ошибок важнее. В нажатии - неправильный тап - обратимо. В голосе - непонятая реплика требовала от пользователя осознания, переформулировки и повторного произнесения. Стоимость ошибки была выше.
Что отрасль узнала от Siri
Контекст - это король. Лучшие функции Siri были контекстуально осведомлены: «напомни мне об этом, когда я приду домой» использовала местоположение. Каждая голосовая система, последовавшая после, серьёзно вложилась в построение контекстных графов.
Голос не заменяет визуальное - дополняет. Пользователи, больше всего любившие Siri, не заменяли навигацию по телефону голосом - они использовали голос в ситуациях, когда прикасаться к экрану было неудобно (за рулём, во время готовки, когда заняты руки). Это верно до сих пор: Alexa дома, Siri за рулём, нажатие за рабочим столом.
Планка точности беспощадна. Нажатие кнопки бинарно: успех или неудача. Голосовая команда имеет оценку качества. 80% точность неприемлема, когда 20% отказов - это «позвони жене», набирающий случайный контакт.
Эффект Siri на нашу работу был тонким, но постоянным: он заставил нас думать о модальностях ввода (прикосновение, клавиатура, голос) как об оси дизайна. Это мышление повлияло на дизайн мобильных приложений, интерфейсов для киосков, и в конечном счёте - на дизайн чат-ботов за годы до того, как LLM сделали их повсеместными.