820 Views
August 08, 24
スライド概要
海外のプログラマーと会話する ための翻訳アプリ(仮) 2024-08-08 coji
自己紹介: 溝口浩二 coji プログラマー。数人規模で作られてるめっちゃ便利なものが好き。 Remix Tokyo Meetupのオーガナイザー React のフルスタックフレームワーク ”Remix" を使う開発者同士のミートアップ。 世界各国にそれぞれオーガナイザーがいて Discord でやりとりがある。 みんな日本に興味津津。「訪日するかもしれないからそのときはミートアップに呼んでよ」と言われてる。 楽しそう。だけど私は英語は全然喋れない。仕事でも関西弁のノリとジェスチャーで乗り切ってきました。 好きなものが同じプログラマー同士なので、せっかくなら技術的なおしゃべりをしたい。 → Apple Vision Pro + LLM でどこまでできるかな?
買ってしまったので作るしかない ノリで登壇駆動。Swift / iOS 開発未経験なのに LT まで 1ヶ月。 1ヶ月あれば、なんとかなるだろ、と思ってた。ChatGPT あるしな! 甘かった。 Swift / SwiftUI / 各種フレームワークの学習 Swift Concurrency? Observation Framework??? 「@なんとか」を書いて動かしては、翌日忘れる毎日。 ARKit や RealityKit は断念。無理! アプリ中核の技術的な要素自体はそんなに難しくなかったので、Apple のサンプルアプリを参考にしたった。 アルタイム音声認識と文字起こしは AVFoundation と Speech Framework で。 gpt-4o-mini で 翻訳 (MacPaw/OpenAI)
デモ とりあえず YouTube にあった Steve Jobs のスピーチを使用 デモ動画@YouTube
今後も趣味的にほそぼそやっていきたい Apple Vision Pro を買ってしまったので仕方ない。サンクコストの誤謬を活用するぞ! ネイティブのトークスピードにも対応したい (今は75%再生じゃないとダメ) 日本語・英語の自動判別切り替えしたい 話者識別もしたいな! Google Meets や Discord でも使いたい 字幕を常に見てる下あたりに固定したい UX の向上 (もろもろ細かいやつ)
Thank You ソースコード: https://github.com/coji/visionos-example X: @techtalkjp