19.12.2011 - 01:19
Siri

Про новый iPhone 4S решил не писать, потому что все и так все про него знают. Но вот про Siri я таки надумал сказать пару слов, потому что большинство из моих знакомых, даже знающих что это такое, никогда ее в глаза не видели и лично не общались. Их (как и мой) кругозор ограничивался парой роликов от Apple, где напудренные актеры изображали успешных людей, всем своим видом показывающих как они жить не могут без Siri. Эти ролики производят впечатление даже на давно избалованного "голосовыми технологиями" пользователя, что уж говорить о неискушенных техническим прогрессом людях. Например, мой отец, когда я показал ему эти ролики, сразу же спросил сколько стоит и где купить. Значит реклама работает. Кстати, вот тот ролик.

Все, показанное в ролике работает именно так, как и показано, нигде не наврано и не преукрашено, такие запросы я проверил сразу. Точно так же как и в этом пародийном ролике, что не может не радовать, правда с небольшими оговорками, о которых дальше.

Если говорить о Siri как о системе вообще. Распознавалка голоса вещь далеко не новая, даже на моей черно-белой Nokia 3310 был набор номера по записанному семплу. Правда мне никогда не удавалось повторить записанный семпл кроме как сразу после его записи, даже если это просто имя, а говорить о различении "папа" и "мама" вообще не стоит. Еще все помнят Шindoшs Vista, в котором голосовое управление было "классной фичей" и все бежали за пиратскими CD в киоски чтобы посмотреть на "вот я говорю компьютеру, а он делает, гыгы". Та распознавалка как раз и показывала то, на чем остановились технологии. Они научились достаточно средне распознавать голос, при определенной сноровке переводить его в текст. С появлением смартфонов практически сразу появились классные программы, знающие парочку паттернов команд типа "отправить смс валерий" и запускающие нужные программы в зависимости от сказанного. Даже в iPhone 3GS встроили настолько нужный Voice Control, что никто им никогда не пользовался. Идея Siri давно лежит на поверхности, только никто не мог ее нормально реализовать. Все ограничивались какими-то списками синонимов, поиска только по значимым словам, короче подходили к проблеме количественно - чем больше слов знает наша программа, тем лучше она. Обычно для этого бралась уже знакомая технология и надрачивалась на 100500 одинаковых фраз. Такой вот чисто школостуденческий подход к разработке. Apple пошла другим путем. Со свойственным ей максимализмом она сказала, что все, что сейчас есть на рынке - убогое говно, и... ну будем говорить честно - купила амбициозную команду, как раз занимающуюся подобной прорывной технологией (со смешным русскому уху названием SRI International). Программа Siri, кстати, была в AppStore еще с незапамятных времен и работала на всех версиях iPhone (пруф). Выглядела убого, интеграция с ОС была минимальной, но некоторые правда любили ее. После анонса iPhone 4S с интегрированной и переделанной Siri приложение было удалено из AppStore, а СЕО SRI International уволился по собственному желанию. Явно Apple устроила им там анальные войны чтобы завладеть технологией. Но оставим эту тему на рассусоливание "интернет-онолитегам" с хабра.

Если мы перейдем на официальный сайт, кроме как обычно зашкаливающего объема красивой гейской верстки и фоточек, мы увидим плашечку BETA, которая как бы намекает. Фанаты Google, должно быть, давно привыкли, что у них вся жизнь - BETA, а вот с продуктами Apple, ЕМНИП, это редкость. Этим они оправдывают беспомощность Siri в некоторых вопросах, случавшиеся падения серверов и ограничения запросов по времени (задав около 40-50 вопросов за 10 минут, Siri попросила меня "немного потерпеть", через 10 минут я попробовал снова и все стало нормально). В общем вы уже поняли, что BETA - это официальная отмазка от всего сразу, но мы же понимаем :3 Как говорят Настоящие Линуксоиды по такому поводу: КОКОКО НУБ НИАСИЛИЛ.

Начнем с того, что Siri умеет. Под крылышком Apple она получила полную интеграцию с ОС, недоступную другим пользователям Public API, так же Siri интегрирована с любимым сервисом всех первокурсников - Wolfram Alpha, который сам по себе мегапиздатый и умеет отвечать на многие вопросы. Где-то треть магии Siri как раз из-за ее интеграции с вольфрамом (от решения квадратных уравнений, до сравнения акций по годам), вторая треть - из-за интеграции в ОС, так непривычной анально огражденным пользователям iOS. Ну и оставшуюся треть оставлю под ее собственный функционал, который я даже после двух дней плотной игры с ней скорее всего не познал и на половину. Видимо из-за скудной фантазии и чересчур программерского мозга. Большинство моих запросов почти не отличаются от тех олдскульных "отправить смс Валерий" или "нагуглить сиськи", но хотя бы то, что она различает склонения слов в таких простых запросах - радует. Ведь главная проблема олдскульных запросов как раз и была в том, что они забывались. "Отправить смс" или "Текстовое сообщение"? "Позвонить" или "Набрать"? Подобная путаница тут решена на отлично. Ну а так же есть гайд по самым популярным командам - нужно спросить "What can you do?". В нем примерно обозначен весь спектр того, что сейчас официально (!) может Siri. Он, как выяснилось, не большой и в основном очевидный. Заметно, что значек Beta висит там не просто так. На данный момент это интересная и работающая технология, которой действительно можно гордиться и по качеству распознавания именно живой речи побившая всех, но к которой пока не прикрутили большой функционал.

Где-то половина официального гайда. Кроме этих запросов есть еще свободные, но ответы на них не обещают.

Ну это фейл, конечно =/

Я не буду, как хотел, расписывать отдельно плюсы и минусы, потому что Siri - это тот тип продуктов, у которого нельзя точно разделить их. Это не китайский ноутбук ASUS, о котором можно написать что-то типа "Плюсы: дешево, минусы: не работает". Siri - это концепция взаимодействия с пользователем, концепция достаточно хорошая, но при этом имеющая косяки реализации. Вот о них и можно рассказать подробнее. А дальше уже каждый сам решает - перевешивают ли эти недостатки саму задумку или нет.

Первый минус, о котором вы просто обязаны знать - отсутствие русского языка. Но это еще не полная картина, ведь отсутствие русского на уровне распознавания простить можно, но вот то, что она не может даже читать по-русски - уже фейл побольше. Это шаг назад, ведь даже Voice Countrol знал русский и мог понимать простейшие команды. И если "входящий" английский для меня не является сильным ограничением, уровень английского у меня хороший, а проблемы с акцентом решаемы небольшой практикой, но вот отсутствие хотя бы чтения по-русски уже проблема. Ведь она убивает такой чудесный юзкейс как чтение входящих сообщений (даже не только смс, а любых). Представьте как удобно было бы ехать на том же велосипеде, когда телефон спрятан подальше от непредвиденных ситуаций, да и вообще по трассе еще ладно, а вот в городе руки часто заняты (да то же самое можно перенести на автомобилистов, хотя им с руками проще) и сказать Siri "прочитай смски" было бы круто даже без обратной связи. Просто чтобы я смог определить это что-то важное или просто спам, и там решить остановиться и ответить или вообще сказать "позвони ему" и пообщаться. Та же ситуация на морозе, когда не хочется доставать руки из карманов.

Кстати решение проблемы с контактами я таки нашел: набирать можно по нику, типа "Call to zenz", либо прописать лично каждому контакту специально поле под названием "произношение имени" на английском. Так что голосовой набор не страдает.

Второй главный минус - на любые геозапросы она выдает отмазку, что не может искать места в России. Понятно, что путь Apple: не умеешь - не делай, в отличии от сервисов других компаний, которые при запросе "ближайшие рестораны" с гордостью выдают что ближайший от меня находится "всего в 6000 км" где-то в Дубаи (именно этот ответ давали ovi-карты на моей предыдущей Nokia), что тоже обладает сомнительной полезностью. Но все же мы понимаем, что это не очень по человечески. Раз уж используются гуглокарты, ну хотя бы поиск по улицам и другие возможности гугла могли бы разрешить. Разрешить ручное добавление меток - был бы отличный навигатор в машину еще и с голосовым управлением. Побоялись, что будет плохо работать, анально огородили - плохо. Таким образом нас лишили второй главной фичи Siri - поиска мест поблизости ("где мне закопать тело", "хочу въебать говна" и другие). Тут я уже на секундочку даже задумался, что хорошо было бы, если бы она была OpenSource, я бы за вечер прикрутил туда API ДубльГиса или Foursquare и вообще получилось бы идеально! Но я быстро отмахнулся от этих мыслей, не-не, opensource на телефоне у меня уже был, хватит мне :) А ДубльГис для iOS выходит совсем скоро, так что дождемся.

Оставшиеся минусы уже не такие большие как предыдущие два. Третий минус - она не умеет обучаться. Даже не совсем минус, а такой задел на будущее. Система такого уровня должна иметь личные метрики для каждого пользователя, а не единый сервер "вопросов и ответов". Я не говорю о такой вещи, как обучение акценту пользователя (хотя почему бы и нет), я понимаю, сейчас пока что всем не до этого. Но сделали ведь в контактах поле "произношение имени", так почему бы не сделать так, чтобы я мог сказать "открой мой блог" или что-то подобное персонализированное? Каждый из вас навскидку придумает десяток таких примеров: "позвони теще", "как отсюда добраться до дома", и.т.д.

Вот это не очень

Четвертый минус - не понимает длинных фраз. Я понимаю, это технически сложная вещь, на которую есть два варианта реакции - сказать пользователю, что он несет хуйню, либо попытаться понять, разбить фразу на части, соотнести со своими возможностями и спросить пользователя что он действительно хотел. Разработчики Siri пошли по первому пути. Поэтому фразу "Sorry, I don't understand..." вы будете слышать часто. Очень часто. Хотя по идее путь, по которую пошла Siri предполагает, что эту фразу вы слышите очень редко. Как в реальной жизни: вас попросят повторить только если вы действительно сказали бессвязную хуйню. И тут хотелось бы упомянуть то, что сказанную фразу нельзя исправить голосом (только руками отредактировать), то есть если вы залажали одно слово, то в реальной жизни вам достаточно сказать "ой, я имел ввиду %word%", а тут придется повторить все предложение. Или достать телефон и отредактировать ее руками. Конечно же, этот вариант является крайним для подобного интерфейса.

Еще в минусы можно упомянуть какие-то мелочи типа "работает только через интернет", которыми любят пощеголять пользователи Android (хотя все клоны Siri на их девайсах ВНЕЗАПНО тоже почему-то работают через интернет), но ведь во времена, когда анлим на моем телефоне стоит 100 рублей в месяц, это не такая уж и проблема. Я вообще не понимаю людей, которые покупают современный телефон, не важно iPhone или на базе Android, и не подключают сразу себе анлим у оператора, пускай даже с анальным ограничением в сутки, но анлим. Очень странные товарищи.

Подводя итоги сегодняшнего конкурса в твиттере, когда я просил пользователей задавать вопросы Siri. Вижу, что многим пришлось по душе эта развлекуха, итого мне пришло около 20 вопросов, 90% из которых на русском, поэтому мне приходилось переводить их и часто не с первого раза Siri понимала мой французский (кстати иногда английскую фразу она как раз распознавала как франзузскую, смешно). Победителем по количеству вопросов с самыми забавными ответами стал @Psyhister, который, кстати, один из немногих, кто задавал их сразу на англиском. Видимо Siri действительно нацелена на мозг англоговорящих людей. Ну и немного скриншотов вопросов твиттерян:

Psyhister бьет сразу тремя вопросами подряд

Ну кто-то должен был это спросить. И нет, 42 - один из вариантов ответа, их много. Мне попался про шоколад

Siri - это забавная игрушка, я понимал это до покупки, я подтверждаю это сейчас. Она не являлась даже одной из причин покупки 4S, она стала просто приятным дополнением и интересна мне с технической точки зрения. Не зря еще на собеседовании в ДубльГис половина разговора была про Data Mining, машинное обучение, и.т.д., эта тема - одна из самых интересных для меня и наблюдать за прогрессом в этой области я просто обязан. Если говорит о Siri как о технологии - у нее есть потенциал и только от Apple зависит будет ли она его развивать или снова скажет, мол, мы ошиблись - это никому не нужно и случится то же, что с Google Wave, который просто появился слишком рано. Он опередил свое время и люди, и технологии, и даже браузеры просто не были к нему готовы. Нет, конечно, сказался еще неадекватный ебанутый маркетинг Google по отношении к Wave, у Apple с этим получше. (К сожалению сейчас многие испытали лютый баттхерт непонимания пары предыдущих предложений, об этом я бы мог написать целый пост, так что давайте не будет обсуждать это сейчас, это итог достаточно долгих моих и не только логических изысканий). Подобная Siri технология - достаточно хороший путь развития интерфейсов взаимодействия. Я не верю в то, что в скором такие интерфейсы ЗАМЕНЯТ ВСЁ или УБЬЮТ ВСЕХ, но свою нишу они займут. Но сейчас они глупы и тупы и даже распиаренная Siri на самом деле такая же. Просто она умеет понимать вас чуть лучше остальных.

А закончить я хотел бы процитировав саму Siri: All you need is love. And your iPhone. Тролфейс :3

да я это — 19.12.2011 - 02:07 [89.189.191.19] Windows
>"где мне закопать тело"
Я подожду iOS 6 с этой фичей.
V@s3K — 19.12.2011 - 02:09 [178.49.15.6] Mac OS
да я это, если ты посмотриь пародийное видео, ссылк на котороя я дал в начале - эта шутка как раз из него и она есть сейчас.
The Master — 19.12.2011 - 03:13 [46.73.223.151] Mac OS
Вась, кстати, а что по-поводу серверов и проксей? Где-то слышал что если подключится к wi-fi сетке и задавать вопросы Siri через пиндосский сервак она больше креатива в ответах выдаёт и вообще круче отвечает на разные рандомные вопросы. Не слышал о таком?
Можешь проверить, если на впадлу.
Rogue — 19.12.2011 - 08:16 [109.191.182.247] Linux
Реклама хороша, а вот сама технология все-таки сырая. Могли бы и обучение прикрутить
ReDetection — 19.12.2011 - 10:30 [89.189.191.13] Linux
> она различает склонения слов
ой, да какие в английском языке склонения, не смеши меня. она охуеет от наших шести
> ДубльГис для iOS выходит совсем скоро
уже ведь, вчера весь твиттер трезвонил.

кстати, распознавание речи в нокии реализовано без соединения с сервером, хотя это негативно влияет на качество. тем не менее, тут простые команды, типа "прочитай новые сообщения" действительно работают, причем на русском языке. и читает оно на русском языке. а вот отвечать пока не может. хотелось бы еще "запусти приложение hear and write" , которое нормально набирает смс, распознавая речь через гуглосервис, а то как-то незавершенным все смотрится.
это опять я — 19.12.2011 - 10:31 [85.26.164.4] Mac OS
где мой вопрос блять
ReDetection — 19.12.2011 - 10:44 [89.189.191.13] Linux
Ах,да. возможность переопределять метки тут есть, и первое, что я переназначил - "плеер", а не "музыкальный проигрыватель" =\
но, конечно, это все хуйня по сравнению с "разбуди меня через 6 часов", вот это мне очень надо бы
НуКакТоВотТакВот — 19.12.2011 - 23:15 [10.197.34.132] Mac OS
Довольно странным решением, на мой взгляд, было позиционировать Siri как основную фишку 4S. Хотя брать 4S все же стоит по-моему.
V@s3K — 19.12.2011 - 23:22 [178.49.15.6] Mac OS
НуКакТоВотТакВот, действительно так, поэтому я и упомянул, что для меня Siri не является одной из причин покупки 4S. А рекламные ролики напоминают мне трейлеры к российским фильмам: смотришь трейлер - охуенно, идешь на фильм и понимаешь, что трейлер - это реально все хорошие моменты фильма, а остальное - так себе. Так же и Siri. В роликах нам показали крутую штучку, которая якобы может распознавать вообще любые команды, а на деле...
НуКакТоВотТакВот — 21.12.2011 - 00:46 [10.197.34.132] Mac OS
V@s3K, кстати обзор самого айфона будет?
V@s3K — 21.12.2011 - 00:56 [178.49.15.6] Mac OS
НуКакТоВотТакВот, неа, не думаю, что кто-то что-то про него еще не знает. Да и не такие уж пока значительные изменения по сравнению с предыдущей версией.
The Master — 22.12.2011 - 02:04 [46.73.206.142] Mac OS
Может хоть попозже опыт использования напишешь? Обзор в принципе не особо нужен да, а вот опыт использования по прошествии какого-то времени был бы интересен.)
refresh

(не заполняйте это поле)

i