Conversational Interfaces in iOS

“Conversation as a Platform”

What are conversational interfaces? տ扖ࣳαЀόЄϢδαφ;΅Ҙ

Onus on the software, not the user ϳЄσЄ΁ͽ΅΀̵ͥ ϊϢϕγδί΁揗೅Ψͧ͡͵

iOS Speech Recognition API Amazon Lex Google Speech API OpenEars
Nuance

Speech Recognition API ᶪ्扯挷API

Server-side recognition

Free, but not unlimited

Pre-recorded or live audio

Over 50 languages and dialects 50զӤ΄ࢵ;ො᥺

iOS 10+ Internet connection required

func recognizeRecording() { guard let url = Bundle.main.url(forResource: "hi", withExtension:
"m4a") else { return } guard let recognizer = SFSpeechRecognizer() else { // Device or locale not supported return } if !recognizer.isAvailable { // Internet connection may not be available return } let request = SFSpeechURLRecognitionRequest(url: url) recognizer.recognitionTask(with: request) { (result, error) in guard let result = result else { return } print("result: \(result.bestTranscription.formattedString)") if result.isFinal { print("final result: \(result.bestTranscription.formattedString)") } } }

let audioEngine = AVAudioEngine() let speechRecognizer = SFSpeechRecognizer() let request
= SFSpeechAudioBufferRecognitionRequest() func startRecording() throws { let node = audioEngine.inputNode let recordingFormat = node.outputFormat(forBus: 0) node.installTap(onBus: 0, bufferSize: 1024, format: recordingFormat) { [weak self] (buffer, _) in self?.request.append(buffer) } audioEngine.prepare() try audioEngine.start() speechRecognizer?.recognitionTask(with: request, resultHandler: { (result, error) in guard let result = result else { return } print("result: \(result.bestTranscription.formattedString)") }) } func stopRecording() { audioEngine.stop() request.endAudio() }

Google Speech API Bing Speech API OpenEars Nuance Amazon Lex

Cost Free tier + paid

func application(_ application: UIApplication, didFinishLaunchingWithOptions launchOptions: [UIApplicationLaunchOptionsKey: Any]?) -> Bool
{ let credentialsProvider = AWSCognitoCredentialsProvider(regionType: AWSRegionType.USEast1, identityPoolId:"your-pool-id") let serviceConfiguration = AWSServiceConfiguration(region: AWSRegionType.USEast1, credentialsProvider:credentialsProvider) AWSServiceManager.default().defaultServiceConfiguration = serviceConfiguration let config = AWSLexInteractionKitConfig.defaultInteractionKitConfig(withBotName: "RecipeBot", botAlias:"Prod") // 5000 seconds before timeout config.noSpeechTimeoutInterval = 5000 config.maxSpeechTimeoutInterval = 5000 // We will use this key to retrieve the interaction kit in our view controller AWSLexInteractionKit.register(with: serviceConfiguration!, interactionKitConfiguration: config, forKey:"USEast1InteractionKit") return true }

Listen for input

let interactionKit = AWSLexInteractionKit(forKey: "USEast1InteractionKit") interactionKit.audioInAudioOut()

interactionKit.audioInTextOut() interactionKit.textInTextOut() interactionKit.textInAudioOut()

private func interactionKit(_ interactionKit: AWSLexInteractionKit, onDialogReadyForFulfillmentForIntent intent: String, slots: Dictionary<String,
Any>) { print("Intent fulfilled: \(intent)") }

internal func interactionKit(onAudioPlaybackStarted _ : AWSLexInteractionKit) { spinner.startAnimating() } internal
func interactionKit(onAudioPlaybackFinished _ : AWSLexInteractionKit) { spinner.stopAnimating() }

func interactionKit(_ interactionKit: AWSLexInteractionKit, onError error: Error) { interactionKit.audioInAudioOut() }

•Completely free, but not unlimited Speech Recognition API •Built right
into iOS

•Higher-level abstraction (text parsing, error handling) Lex •Broad match of
phrases to intents

Information •Cross Platform Lex •Not free past first 5000 requests/month

Best Practices

Transparency! ᭐ก௔Ѻ

Sensitive information 䱛ੂఘ䁭

Be creative!

Thanks! Wendy Lu @wendyluwho

Conversational Interfaces in iOS - Try Swift! T...

Conversational Interfaces in iOS - Try Swift! Tokyo 2018

Wendy Lu

More Decks by Wendy Lu

Other Decks in Technology

Featured

Transcript