Whisperの人気記事 97件 - はてなブックマーク

1 - 40 件けん / 97件けん

絞しぼり込こみ

検索けんさく対象たいしょう
ブックマーク数すう
期間きかん
セーフサーチ

Whisperの検索けんさく結果けっか1 - 40 件けん / 97件けん

Whisperに関かんするエントリは97件けんあります。 AI、人工じんこう知能ちのう、 OpenAI などが関連かんれんタグです。人気にんきエントリには『AI 激動げきどうの年とし！2022年ねんの人工じんこう知能ちのう10大だいトレンドと必読ひつどく論文ろんぶん』などがあります。

AI 激動げきどうの年とし！2022年ねんの人工じんこう知能ちのう10大だいトレンドと必読ひつどく論文ろんぶん
- 522 users
- ja.stateofaiguides.com
- テクノロジー
- 2023/01/02
文字もじ起おこしAI「Whisper」を誰だれでも簡単かんたんに使つかえるようにした超ちょう高こう精度せいど文字もじ起おこしアプリ「writeout.ai」使つかい方かたまとめ、オープンソースでローカルでも動作どうさOK
- 520 users
- gigazine.net
- テクノロジー
- 2023/03/09
会議かいぎの議事ぎじ録ろくやムービーの作成さくせいなど、文字もじ起おこしが必要ひつような場面ばめんは多おおくありますが、手動しゅどうでの文字もじ起おこしは非常ひじょうに面倒めんどうです。また、OpenAI製せい文字もじ起おこしAI「Whisper」を用もちいて文字もじ起おこしする方法ほうほうもありますが、初期しょき設定せっていが難むずかしいという問題もんだいも存在そんざいします。Whisperをメチャクチャ使つかいやすくした無料むりょう文字もじ起おこしサービス「writeout.ai」なら、超ちょう簡単かんたんかつ短時間たんじかんで高こう精度せいどな文字もじ起おこしを実現じつげんできるとのことなので、実際じっさいに使つかってみました。 writeout.ai – Transcribe and translate any audio file https://writeout.ai/ 上記じょうきのリンクからwriteout.aiにアクセスすると、以下いかのような画面がめんが表示ひょうじされます。文字もじ起おこしを行おこなうには「Transcribes for free」をクリック。すると、GitHubアカウントでのサインインを求もとめられます
超ちょう高こう精度せいどで商用しょうよう利用りよう可能かのうな純じゅん国産こくさんの日本語にほんご音声おんせい認識にんしきモデル「ReazonSpeech」を無償むしょう公開こうかい
- 449 users
- prtimes.jp
- テクノロジー
- 2023/01/19
株式会社かぶしきがいしゃレアゾン・ホールディングス(本社ほんしゃ：東京とうきょう都と新宿しんじゅく区く、代表だいひょう取締役とりしまりやく：渡邉わたなべ真しん)は世界せかい最高さいこうレベルの高こう精度せいど日本語にほんご音声おんせい認識にんしきモデルおよび世界せかい最大さいだい19,000時じ間あいだの日本語にほんご音声おんせいコーパス※「ReazonSpeech」を公開こうかいいたしました。 2023年ねん1月がつ18日にち株式会社かぶしきがいしゃレアゾン・ホールディングス(本社ほんしゃ：東京とうきょう都と新宿しんじゅく区く、代表だいひょう取締役とりしまりやく：渡邉わたなべ真しん)は世界せかい最高さいこうレベルの高こう精度せいど日本語にほんご音声おんせい認識にんしきモデルおよび世界せかい最大さいだい19,000時じ間あいだの日本語にほんご音声おんせいコーパス※「ReazonSpeech」を公開こうかいいたしました。 ※音声おんせいコーパス: 音声おんせいデータとテキストデータを発話はつわ単位たんいで対応付たいおうづけて集あつめたもの。音声おんせい認識にんしきモデルを作成さくせいする材料ざいりょうとして使用しようされ、その規模きぼと品質ひんしつが音声おんせい認識にんしきの精度せいどを大おおきく左右さゆうする。 ※2「ReazonSpeech」を用もちいた文字もじ起おこしサービスをプロジェクトwebサイトにて実際じっさいに試ためすことができます。プロジェクトwebサイト：https://
文字もじ起おこしAIで誰だれでも無料むりょうでYoutubeの字幕じまくファイルを作つくる方法ほうほう - ニートの言葉ことば
- 396 users
- blog.takuya-andou.com
- テクノロジー
- 2022/10/02
どうもこんにちは、あんどう（@t_andou）です。前回ぜんかい宣言せんげんした通とおりに誰だれでも簡単かんたんにYoutubeの字幕じまくファイルを作つくる方法ほうほうを書かきます。「Youtubeの」と書かいていますが、実際じっさいはどの動画どうがでも対応たいおうしてます。前回ぜんかいの記事きじ blog.takuya-andou.com まずはGoogleColabの共有きょうゆう colab.research.google.com 使つかい方かた GoogleColabに記載きさいしていますが 1.GPUを使用しようするように切きり替かえ上じょうの「ランタイム」→「ランタイムのタイプを変更へんこう」からからGPUを選択せんたく 2.右みぎ上じょうの接続せつぞく下かのセルを実行じっこうすると自動的じどうてきに接続せつぞくされるので省略しょうりゃく可能かのうです 3.動画どうがをアップロードここにドラッグ＆ドロップでアップできます大だい容量ようりょうのデータの場合ばあい、GoogleDriveと連携れんけいした方ほうが効率こうりつ的てきです 4.入出力にゅうしゅつりょくのパスの変更へんこうファイル名めいに合あわせて変更へんこうしてください 5.全ぜんセルを実行じっこうあと

OpenAIが高性能こうせいのう文字もじ起おこしAI「Whisper」を発表はっぴょう、日本語にほんごにも対応たいおうし早口はやくち言葉ことばや歌詞かしも高こう精度せいどに文字もじ起おこし可能かのう
- 333 users
- gigazine.net
- テクノロジー
- 2022/09/22
画像がぞう生成せいせいAI「DALL・E 2」や文章ぶんしょう生成せいせいAI「GPT-3」といった高性能こうせいのうAIを開発かいはつしてきたAI開発かいはつ組織そしきのOpenAIが、新あらたに音声おんせいを超ちょう高こう精度せいどで認識にんしきして文章ぶんしょうに書かき起おこせるAI「Whisper」を発表はっぴょうしました。発表はっぴょうと同時どうじに公開こうかいされたサンプルでは「早口はやくちのセールストーク」や「ハイテンポな曲きょくの歌詞かし」などの音声おんせいでも問題もんだいなく文字もじ起おこしできる性能せいのうの高たかさが示しめされています。 Introducing Whisper https://openai.com/blog/whisper/ GitHub - openai/whisper https://github.com/openai/whisper Whisperはインターネット上じょうから収集しゅうしゅうされた合計ごうけい68万まん時じ間あいだにおよぶ音声おんせいデータでトレーニングされた文字もじ起おこしAIです。OpenAIのブログ記事きじには「早口はやくちのセールストーク」「K-POPの曲きょく」「フランス語ふらんすご」「独特どくとくなアクセン
Whisper、ChatGPTを活用かつようした、テキスト入力にゅうりょく不要ふような新しん感覚かんかくメモ日記にっきアプリの紹介しょうかいと、開発かいはつにおける学まなび｜にょす
- 332 users
- note.com/nyosubro
- テクノロジー
- 2023/08/19
日常にちじょう生活せいかつの中なかで生うまれた「できごと」や「思おもったこと」を、楽たのしく記録きろくできるメモ日記にっきアプリを開発かいはつしました！しゃべったら、あとは丸まる投なげして良よい感かんじにメモを残のこしてくれる「シャべマル」です！（笑）シャべマルの紹介しょうかい具体ぐたい的てきには、、絵文字えもじで見返みかえせるメモアプリあんまりないですが、良よいですよ…！音声おんせい入力にゅうりょくでメモ内容ないようを作成さくせい。かなり高こう精度せいどな音声おんせい認識にんしきモデル（Whisper）を用もちいているので、想像そうぞう以上いじょうにちゃんと文字もじ起おこししてくれます！「今日きょうあったこと」など、日記にっきとして利用りようするのもオススメです。1日にちを振ふり返かえる機会きかいになって、それが後こうから振ふり返かえりできるので、あの時ときこんなこと考かんがえていたなー、といった発見はっけんにつながるはずです！そして個人こじん的てきにここが目玉めだまなのですが、文字もじ起おこしされたメモには、「タイトル」「絵文字えもじアイコン」「感情かんじょうアイコン」「カテゴリ」が自動じどうで紐ひもづきます！これ何なにが良よいかというと、圧倒的あっとうてきに見返みかえしやすくなるんですよね
超ちょう高こう精度せいどな国産こくさん音声おんせい認識にんしきAI「ReazonSpeech」が無償むしょう公開こうかいされたので文字もじ起おこし機能きのうを使つかってみた
- 322 users
- gigazine.net
- テクノロジー
- 2023/01/20
東京とうきょうに拠点きょてんを置おくテクノロジー企業きぎょう「レアゾン・ホールディングス」が、1万まん9000時じ間あいだに及およぶ国内こくない最大さいだい級きゅうの日本語にほんご音声おんせいコーパス「ReazonSpeech」を無償むしょう公開こうかいしました。同時どうじに、OpenAIが開発かいはつした超ちょう高性能こうせいのう音声おんせい認識にんしきAI「Whisper」に匹敵ひってきする性能せいのうをアピールする文字もじ起おこしサービスも公開こうかいされていたので、実際じっさいに使つかってみました。超ちょう高こう精度せいどで商用しょうよう利用りよう可能かのうな純じゅん国産こくさんの日本語にほんご音声おんせい認識にんしきモデル「ReazonSpeech」を無償むしょう公開こうかい - Reazon Human Interaction Lab https://research.reazon.jp/news/reazonspeech.html ReazonSpeech - Reazon Human Interaction Lab https://research.reazon.jp/projects/ReazonSpeech/ レアゾン・ホールディングスは「R
自分じぶんの行動こうどうを毎日まいにち24時じ間あいだ録音ろくおんしてWhisperで文字もじ起おこしする「全ぜん自動じどう口述こうじゅつ日記にっき」を1週間しゅうかんつけつづけたエンジニアの報告ほうこく
- 286 users
- gigazine.net
- テクノロジー
- 2022/11/17
AI研究けんきゅう団体だんたいのOpenAIが開発かいはつした「Whisper」は非常ひじょうに高たかい精度せいどで録音ろくおんから文字もじ起おこしを行おこなうAIモデルで、オープンソースで無料むりょう公開こうかいされています。エンジニアのロバー・ダム氏しが自身じしんのブログで、毎日まいにちスマートフォンに行動こうどうを逐一ちくいち吹ふき込こみ、その録音ろくおんをWhisperで文字もじ起おこしすることで「全ぜん自動じどう口述こうじゅつ日記にっき」を残のこすことができるシステムを試ためした結果けっかについて報告ほうこくしています。 I record myself on audio 24x7 and use an AI to process the information. Is this the future? https://roberdam.com/en/wisper.html ダム氏しが全ぜん自動じどう口述こうじゅつ日記にっきを思おもいついたのは、以前いぜんから「1TB超こえのストレージを内蔵ないぞうしたスマートフォンが登場とうじょうすれば、24時じ間あいだ365日にち録音ろくおんし続つづけることが可能かのうなのではないか」と考かんがえていたことから
https://twitter.com/hiraoka_dx/status/1638658560170274818
- 284 users
- twitter.com/hiraoka_dx
- テクノロジー
- 2023/03/23
https://twitter.com/buffett_code/status/1605488460659392514
- 281 users
- twitter.com/buffett_code
- テクノロジー
- 2022/12/21
PCで再生さいせい中ちゅうの音声おんせいをWhisperでリアルタイムに文字もじ起おこしする - TadaoYamaokaの開発かいはつ日記にっき
- 272 users
- tadaoyamaoka.hatenablog.com
- テクノロジー
- 2022/10/16
PCで再生さいせい中ちゅうの音声おんせいをリアルタイムで文字もじ起おこしできると、字幕じまく機能きのうがない動画どうがの再生さいせいや、外国がいこくとのオンライン会議かいぎで便利べんりである。先日せんじつ、OpenAIが公開こうかいしたWhisperは、音声おんせいファイルから文字もじ起おこしするするツールが提供ていきょうされているが、リアルタイムで処理しょりするツールは提供ていきょうされていない。そこで、Pythonスクリプトで、リアルタイムで文字もじ起おこしするツールを作成さくせいした。ループバック録音ろくおん SoundCardを使つかうと、PCで再生さいせいされている音声おんせいを録音ろくおんすることができる。 pip install SoundCardでインストールする。 import soundcard as sc with sc.get_microphone(id=str(sc.default_speaker().name), include_loopback=True).recorder(samplerate=SAMPLE_RATE, chan
「無料むりょうでも結構けっこうスゴい!! 文字もじ起おこしAIに録画ろくがしたWeb会議かいぎのテキスト化かをさせてみた！」――急遽きゅうきょテレワークを導入どうにゅうした中小ちゅうしょう企業きぎょうの顛末てんまつ記き（118）【急遽きゅうきょテレワーク導入どうにゅう！の顛末てんまつ記き】
- 270 users
- internet.watch.impress.co.jp
- テクノロジー
- 2022/11/07
OpenAI DevDay で発表はっぴょうされた新しんモデルと新しん開発かいはつツールまとめ｜npaka
- 269 users
- note.com/npaka
- テクノロジー
- 2023/11/07
以下いかの記事きじが面白おもしろかったので、かるくまとめました。・New models and developer products announced at DevDay 1. GPT-4 Turbo「GPT-4 Turbo」は、「GPT-4」より高性能こうせいのうです。2023年ねん4月がつまでの知識ちしきと128kのコンテキストウィンドウを持もちます。さらに、「GPT-4」と比較ひかくして入力にゅうりょくは1/3、出力しゅつりょくは1/2の安やすい価格かかくで提供ていきょうします。開発かいはつ者しゃはモデルID「gpt-4-1106-preview」で試ためすことができます。今後こんご数すう週間しゅうかん以内いないに、安定あんていした実じつ稼働かどうモデルをリリースする予定よていです。 1-1. Function Calling の更新こうしん「Function Calling」に、単一たんいつメッセージから複数ふくすうのFunction (「車くるまの窓まどを開あけてエアコンをオフにする」など) を呼よび出だす機能きのうなどが追加ついかされました。精度せいども向上こうじょうしています。 1-2. 構造こうぞう
- ChatGPT
- あとで読よむ
- AI
- OpenAI
- GPT
- 開発かいはつ
- 人工じんこう知能ちのう
- API
- LLM
- まとめ
ChatGPT APIとWhisper APIで議事ぎじ録ろく文字もじ起おこしアプリを作つくり、Hugging Face Spacesで公開こうかいする | gihyo.jp
- 218 users
- gihyo.jp
- テクノロジー
- 2023/04/06
ChatGPT APIの使つかい方かた実際じっさいにChatGPT APIを使つかってみましょう。 openai-pythonのインストール今回こんかいはOpenAIのPython用ようライブラリであるopenai-pythonを使つかいます。pipを用もちいて、openai-pythonをインストールしましょう。 pip install openai APIリクエスト ChatCompletion.createで対話たいわを生成せいせいできます。たとえば、以下いかのようなコードになります。 import openai openai.api_key = "sk-..." # APIキー completion = openai.ChatCompletion.create( model="gpt-3.5-turbo", messages=[{"role": "user", "content": "こんにちは！"}] ) print(complet
- ChatGPT
- Whisper
- あとで読よむ
- AI
- API
- OpenAI
- Python
- アプリ
- プログラミング
- Hugging Face
自動じどう文字もじ起おこしサービスである、OpenAIの「Whisper API」とAWSの「Amazon Transcribe」の精度せいどを比較ひかくしてみた | DevelopersIO
- 207 users
- dev.classmethod.jp
- テクノロジー
- 2023/10/20
自動じどう文字もじ起おこしサービスである、OpenAIの「Whisper API」とAWSの「Amazon Transcribe」の精度せいどを比較ひかくしてみたはじめに今回こんかいは、OpenAIのWhisper APIとAmazon Transcribeという2つの音声おんせい文字もじ起おこしサービスを試ためし、それぞれの精度せいどを比較ひかくしてみました。 Amazon Transcribeは、音声おんせいをテキストに変換へんかんする自動じどう音声おんせい認識にんしきサービスです。ストリーミングとバッチ処理しょりのどちらでも文字もじ起おこしが可能かのうです。攻撃こうげき的てきな言葉ことばを指定していすると、Amazon Transcribeがそれらの言葉ことばを文字もじ起おこしから自動的じどうてきに削除さくじょする語彙ごいフィルタリングなどの機能きのうもあります。 Amazon Transcribeの詳細しょうさいは、下記かきの記事きじをご参考さんこうください。 OpenAIには音声おんせいをテキストに変換へんかんする「Whisper」という音声おんせい認識にんしきモデルがあり、WhisperをAPIの形かたちで呼よび
Introducing ChatGPT and Whisper APIs
- 189 users
- openai.com
- テクノロジー
- 2023/03/02
Developers can now integrate ChatGPT and Whisper models into their apps and products through our API. ChatGPT and Whisper models are now available on our API, giving developers access to cutting-edge language (not just chat!) and speech-to-text capabilities. Through a series of system-wide optimizations, we’ve achieved 90% cost reduction for ChatGPT since December; we’re now passing through those
2022年ねんの深層しんそう学習がくしゅうハイライト - Qiita
- 188 users
- qiita.com/shionhonda
- テクノロジー
- 2023/02/12
はじめに 2023年ねんになって日ひが経たってしまいましたが、今年ことしも深層しんそう学習がくしゅうの個人こじん的てきハイライトをまとめたいと思おもいます。今回こんかいは研究けんきゅう論文ろんぶん5本ほんと応用おうよう事例じれい4つを紹介しょうかいします。他たにおもしろいトピックがあれば、ぜひコメントなどで教おしえて下ください。 AIの研究けんきゅう動向どうこうに関心かんしんのある方ほうには、ステート・オブ・AIガイドの素晴すばらしい年間ねんかんレビューもおすすめします。また、私わたしが過去かこに書かいた記事きじ（2021年ねん、2020年ねん、2019年ねん）もよろしければご覧らんください。 * 本ほん記事きじは、私わたしのブログにて英語えいごで書かいた記事きじを翻訳ほんやくし、適宜てきぎ加筆かひつ修正しゅうせいしたものです。元もと記事きじの方ほうも拡散かくさんいただけると励はげみになります。 ** 記事きじ中ちゅうの画像がぞうは、ことわりのない限かぎり対象たいしょう論文ろんぶんからの引用いんようです。研究けんきゅう論文ろんぶん Block-NeRF: Scalable Large Scene Neural View Synthesis 著者ちょしゃ: Matthew Tancik, Vincent Casser,
WhisperとChatGPTで文字もじ起おこし | ドクセル
- 177 users
- www.docswell.com
- テクノロジー
- 2023/06/25
闇やみのエンジニア/変へんなデジカメ開発かいはつ中ちゅう/ディープラーニング芸人げいにん/Raspberry Piとからあげ大好だいすき/はてなブログ書かいてます
OpenAI API で提供ていきょうされているモデルまとめ｜npaka
- 173 users
- note.com/npaka
- テクノロジー
- 2023/03/04
1. OpenAI APIのモデル「OpenAI API」は、用途ようとに応おうじて「GPT-3.5」をはじめとする様々さまざまなモデルを提供ていきょうしています。・GPT-3.5 : 自然しぜん言語げんごとコードを理解りかいおよび生成せいせいする最新さいしんモデル。・DALL-E : 自然しぜん言語げんごから画像がぞうを生成せいせい・編集へんしゅうするモデル・Whisper : 音声おんせいをテキストに変換へんかんするモデル・Embeddings : 埋うめ込こみ (ベクトル表現ひょうげん) を生成せいせいするモデル・Codex : コードを理解りかいおよび生成せいせいするモデル・Moderation : センシティブおよび安全あんぜんでない文章ぶんしょうを検出けんしゅつするモデル・GPT-3 : 自然しぜん言語げんごを理解りかいおよび生成せいせいする旧きゅうモデル 2. GPT-3.5「GPT-3.5」は、自然しぜん言語げんごとコードを理解りかいおよび生成せいせいする最新さいしんモデルです。最もっとも高性能こうせいのうで費用ひよう対たい効果こうかの高たかいモデルは、チャット用ように最適さいてき化かされていますが、既存きそんタスクにも適てきしている「gpt-3.5-tu
writeout.ai
- 172 users
- writeout.ai
- テクノロジー
- 2023/03/09
Transcribe and translate any audio file. Upload your audio file and get a transcript in seconds. Writeout.ai is a free online transcription service.
無料むりょうで始はじめるAmazon CodeWhisperer on VSCode（Github Copilotと同等どうとうの性能せいのう？） - Qiita
- 151 users
- qiita.com/masakinihirota
- テクノロジー
- 2023/04/16
無料むりょうで始はじめるAmazon CodeWhisperer on VSCode（Github Copilotと同等どうとうの性能せいのう？）AmazoncopilotCodeWhisperer 現在げんざいの AIを一言ひとことで説明せつめいすると・・・フミコ・フミオさんはTwitterを使つかっています: 「ほぼ全員ぜんいんがご高齢こうれい者しゃの会社かいしゃ上層じょうそう部ぶからの「対話たいわ型がたAI とは何なにかその功罪こうざいについて簡潔かんけつに分わかりやすく出来できたら一言ひとことで説明せつめいしろ」という難題なんだいにヤケクソで「ドラえもんです」と答こたえたら「便利べんりだけど取扱とりあつかい注意ちゅういということだな」とほぼ正解せいかいな認識にんしきをしてくれたので藤子とうこ・F・不二雄ふじお先生せんせいは偉大いだいすぎる。」 / Twitter Github Copilot と Amazon CodeWhisperer の比較ひかく現時点げんじてんでは Github Copilot の方ほうが使つかいやすい。単純たんじゅんな機能きのうだと同おなじくらいだが、 Github Copilot は、コマンドパレットがあるので、その
OpenAIがリリースした高こう精度せいどな音声おんせい認識にんしきモデル”Whisper”を使つかって、オンライン会議かいぎの音声おんせいを書かき起おこししてみた | DevelopersIO
- 124 users
- dev.classmethod.jp
- テクノロジー
- 2022/09/23
こんちには。データアナリティクス事業じぎょう本部ほんぶ機械きかい学習がくしゅうチームの中村なかむらです。 2022/09/22の夕方ゆうがたごろ、OpenAIが音声おんせい認識にんしきですごいものを出だしたらしいというニュースが社内しゃないのSlackをにぎわせていました。個人こじん的てきには、いくら認識にんしきが凄すごいって言いっても、実際じっさい日本語にほんごは微妙びみょうなんじゃないかな…？と思おもっていたのですが… ですが… … … … おお！？(上記じょうきはGitHubにあるWER: Word Error Rateのグラフです) これは！？これは結構けっこう良よさげな数値すうちを出だしている！？(たぶん) ってことで元もと音声おんせい屋やさんとしては、これは試ためすしかない！ということで動うごかしてみました！(投稿とうこうは翌日よくじつになってしまいましたが…) なお、本ほん記事きじでは論文ろんぶん内容ないようの詳細しょうさいなどには触ふれませんのでご了承りょうしょうください。(後日ごじつできたらがんばります) いますぐ使つかいたい人ひと向むけ今いますぐ使つかいたい方ほうは、Hugging Faceでブラウザから書がき起おこしを試こころみ
OpenAIのSpeech-To-Text AI「Whisper」をM1 Macで試ためしてみる
- 120 users
- inoccu.com
- テクノロジー
- 2022/09/26
OpenAIがSpeech-To-Text AIのWhisperを発表はっぴょうしました。Githubからpipでインストールすれば簡単かんたんに使つかえます。私わたしのM1 Max MacBook Proでも動作どうさしましたので、作業さぎょう内容ないようを書かいておきます。 GitHub – openai/whisper: Robust Speech Recognition via Large-Scale Weak Supervision Robust Speech Recognition via Large-Scale Weak Supervision – GitHub – openai/whisper: Robust Speech Recognition via Large-Scale Weak Supervision Python仮想かそう環境かんきょうを作つくる Python自体じたいのインストールは既すでに終おわっているところから書かくことにします。私わたしの環境かんきょうは
- python
- whisper
- あとで読よむ
- mac
- AI
- インストール
- github
無料むりょうでOpenAIの「Whisper」を使つかって録音ろくおんファイルから音声おんせい認識にんしきで文字もじおこしする方法ほうほうまとめ
- 104 users
- gigazine.net
- テクノロジー
- 2022/09/29
画像がぞう生成せいせいAI「DALL・E2」や文章ぶんしょう生成せいせいAI「GPT-3」「InstructGPT」などを開発かいはつするAI研究けんきゅう団体だんたいのOpenAIが、2022年ねん9月がつに高性能こうせいのうな文字もじ起おこしAI「Whisper」を発表はっぴょうしました。オープンソースのWhisperはリポジトリが一般いっぱん公開こうかいされており、日本語にほんごにも対応たいおうしているとのことで、オンライン実行じっこう環境かんきょうのGoogle Colaboratory(Google Colab)やローカルのWindows環境かんきょうに導入どうにゅうして使つかってみました。 Introducing Whisper https://openai.com/blog/whisper/ GitHub - openai/whisper https://github.com/openai/whisper ○目次もくじ ◆Hugging Faceの体験たいけん版ばんを使つかってみる ◆Google Colabに導入どうにゅうして使つかってみる ◆Windows環境かんきょうに導入どうにゅうしてみ
LISTEN
- 79 users
- listen.style
- テクノロジー
- 2023/04/16
アートビジネスコメディ教育きょういく小説しょうせつ行政ぎょうせい歴史れきし健康けんこう／フィットネスキッズ／ファミリーレジャー音楽おんがくニュース宗教しゅうきょう／スピリチュアル科学かがく社会しゃかい／文化ぶんかスポーツテクノロジー事件じけん／犯罪はんざいテレビ & 映画えいが $wire.selectEpisode(episodes[index].id) ); $watch('currentTime', time => { if (time > 0 && (Math.floor(time / 10) != Math.floor(lastPosition / 10))) { lastPosition = time; $wire.updatePosition(time); } }); "> { return fileType.startsWith(acceptedType); }); if (!matched) { valid = false; break;
ReazonSpeech - Reazon Human Interaction Lab
- 73 users
- research.reazon.jp
- テクノロジー
- 2023/01/19
ReazonSpeech¶ ReazonSpeechは、世界せかい最大さいだいのオープン日本語にほんご音声おんせいコーパスを構築こうちくするプロジェクトです。日本語にほんご音声おんせい技術ぎじゅつの推進すいしんを目的もくてきとして、35,000時じ間あいだの日本語にほんご音声おんせいコーパスを公開こうかいしています。音声おんせい認識にんしきモデル・コーパス作成さくせいライブラリをオープンソースライセンスで配布はいふしています。
superwhisperでの音声おんせい入力にゅうりょくを試ためす
- 72 users
- efcl.info
- テクノロジー
- 2024/01/17
superwhisperという、whisper.cppを使つかった音声おんせい入力にゅうりょくができるmacOSアプリケーションを最近さいきん使つかっています。基本きほん的てきにはggerganov/whisper.cppのモデルを使つかって、音声おんせい認識にんしきしながら文字もじ入力にゅうりょくができるアプリケーションです。特徴とくちょう Whisperの認識にんしき精度せいどが高たかいかなり早はやく喋しゃべっても認識にんしきしてくれる日本語にほんごも認識にんしきしてくれるモデルがある日本語にほんごで喋しゃべって英語えいごに翻訳ほんやくしてくれる機能きのうもあるオフライン対応たいおう有料ゆうりょう: サブスクと買かい切きりの2種類しゅるいのプランがある無料むりょうで15分ぶんのトライアル、その後ごは選えらべるモデルが制限せいげんされる公式こうしきサイトのデモをみると、かなり早はやく喋しゃべっても認識にんしきしてくれるのがわかります。大抵たいていの人ひとにとっては、多分たぶん文字もじ入力にゅうりょくするよりしゃべったほうが早はやいぐらいの入力にゅうりょく速度そくどが出でると思おもいます。 superwhisper 長文ちょうぶんはそこまで得意とくいじゃないけど、1行ぎょうとか2行ぎょうぐらいの文章ぶんしょうはかなり
OpenAI、「GPT-4」「DALL・E」「Whisper」などのAPIを一般いっぱん提供ていきょう
- 72 users
- japan.zdnet.com
- テクノロジー
- 2023/07/07
印刷いんさつするメールで送おくるテキスト HTML 電子でんし書籍しょせき PDF ダウンロードテキスト電子でんし書籍しょせき PDF クリップした記事きじをMyページから読よむことができます OpenAIは米国べいこく時間じかん7月がつ6日にち、有料ゆうりょう版ばん「ChatGPT API」の全ぜんユーザーに「GPT-4」へのアクセスを提供ていきょうすると発表はっぴょうした。同社どうしゃは3月がつにChatGPT APIをリリースし、6月がつにアップデートを提供ていきょうしていた。また、「Completions API」の旧きゅうモデルを非ひ推奨すいしょう（deprecation）とする計画けいかくも発表はっぴょうし、「Chat Completions API」への移行いこうを推奨すいしょうするという。同社どうしゃによると、GPT-4は最もっとも高機能こうきのうなモデルとなり、GPT-4を活用かつようした革新かくしん的てき製品せいひんが日ひを追おうごとに増ふえている。6日にちより、有料ゆうりょう版ばんの支払しはらい履歴りれきがある開発かいはつ者しゃは、8kのコンテキスト長ちょうでGPT-4 APIを利用りようできる。新あたらしい開発かいはつ者しゃには7月がつ末まつまでにアクセスを提供ていきょうし、その後ご
Whisper + GPT-3 で会議かいぎ音声おんせいからの議事ぎじ録ろく書かき出だし&サマリ自動じどう生成せいせいをやってみる！ - Qiita
- 71 users
- qiita.com/sakasegawa
- テクノロジー
- 2023/02/15
こんにちは！逆瀬川さかせがわ (https://twitter.com/gyakuse)です！今日きょうは議事ぎじ録ろくの音声おんせいからの書かき出だしとサマリの自動じどう生成せいせいを行おこないます。概要がいよう会議かいぎ音声おんせい(wavとかmp3ファイル)からWhisperを用もちいて書かき出だしを行おこない、GPT-3.5でサマリを自動じどう生成せいせいします。会議かいぎ音声おんせいとしていますが、べつにどんな音声おんせいでも大丈夫だいじょうぶです。 Colab whisper.cpp版ばん(処理しょりに動画どうが秒びょう数すう×10倍ばい程度ていどの時間じかんがかかりますがGPU不要ふようです) whisper.fp16版はん(処理しょりは動画どうが秒びょう数すう/4程度ていどの時間じかんで済すみますがGPU必須ひっすです) 使つかい方かた OpenAIのAPIキーを貼はり付づけランタイム > すべてのセルを実行じっこうから実行じっこうし、最初さいしょの処理しょりの下したに出でてくるファイル選択せんたくで録音ろくおんファイルを選択せんたくしますひたすら待まちます実装じっそう Whisperの軽量けいりょう化か Whisperの軽量けいりょう化かとしては、cpp実装じっそうのwhisper.cppがあります
- AI
- 音声おんせい
- whisper
- python
- qiita
- GPT
- ML
- あとで読よむ
- GPU
- 人工じんこう知能ちのう
話題わだいの文字もじ起おこしAI「Whisper」、ニュース記事きじを読よみ上あげて試ためしたら驚おどろきの精度せいどだった
- 58 users
- xtech.nikkei.com
- テクノロジー
- 2023/01/06
インタビューや会議かいぎの際さいに発言はつげん内容ないようをメモしながら、後あとで間違まちがえないよう録音ろくおんもする人ひとは少すくなくないだろう。だが、録音ろくおんした音声おんせいを聞きいてテキストに起おこす作業さぎょうはかなりの手間てまがかかる。筆者ひっしゃの場合ばあいはき取きとりづらい箇所かしょを繰くり返かえし再生さいせいしたり、パソコンに文字もじを打うち込こむ操作そうさが遅おくれて音声おんせいの再生さいせいを一時いちじ停止ていししたりしているうちに、実際じっさいの録音ろくおん時間じかんの何なん倍ばいもかかってしまう。作業さぎょうが終おわるころには疲つかれてうんざりしていることもある。筆者ひっしゃと同おなじように「骨ほねの折おれる文字もじ起おこし作業さぎょうを何なにとか楽らくにこなしたい」と考かんがえる人ひとは、洋ようの東西とうざいを問とわず多おおいのかもしれない。最近さいきんはAI（人工じんこう知能ちのう）によって音声おんせいを解析かいせきして自動的じどうてきに文字もじ起おこしするツールが国内外こくないがいで増ふえてきた。中なかでも大おおきな注目ちゅうもくを集あつめているのは、米べいOpenAI（オープンAI）の音声おんせい認識にんしきAI「Whisper」だ。同社どうしゃは米べいテスラ創業そうぎょう者しゃのイーロン・マスク氏しらが設立せつりつしたAIの研究けんきゅう開発かいはつ企業きぎょうで、2020年ねんに発表はっぴょうした言げん
Whisperで文字もじ起おこしをした議事ぎじ録ろくの発話はつわ者しゃの名前なまえを自動的じどうてきに判定はんていする！ - Qiita
- 58 users
- qiita.com/sakasegawa
- テクノロジー
- 2023/04/07
こんにちは！逆瀬川さかせがわ ( @gyakuse ) です！今日きょうは最近さいきん作つくった議事ぎじ録ろく文字もじ起おこしアプリに話者わしゃ分離ぶんり機能きのうをくっつけたものを作つくっていきたいと思おもいます。 ChatGPT APIの使つかい方かた、Whisper APIの使つかい方かた、Hugging Face Spacesへのデプロイ方法ほうほう等とうを知しりたい場合ばあいは以下いかの記事きじをぜひ！できたもの openai_keyにOpenAIのAPIキーを入いれるメイン音声おんせいファイルに会話かいわ音声おんせい (wav, 25MB以内いない) を入いれる話者わしゃ (1) 参考さんこう音声おんせいファイルに話者わしゃ (1) の参考さんこう音声おんせい (wav) を入いれる話者わしゃ (1) の名前なまえを入いれる話者わしゃ (2) 参考さんこう音声おんせいファイルに話者わしゃ (1) の参考さんこう音声おんせい (wav) を入いれる話者わしゃ (2) の名前なまえを入いれる上記じょうきを行おこなって送信そうしんボタンを押おすと処理しょりが開始かいしされます。なお、参考さんこう音声おんせいは10秒びょう程度ていどで大丈夫だいじょうぶです。実装じっそう全体ぜんたいは以下いかで確認かくにんできます。話者わしゃ分離ぶんり (S
ChatGPT, Python, Whisper APIを活用かつようし、動画どうがファイルから議事ぎじ録ろくを自動じどう生成せいせい - Qiita
- 58 users
- qiita.com/haku_104
- テクノロジー
- 2023/04/27
はじめに現在げんざいのデジタル社会しゃかいでは、Teamsなどのオンライン会議かいぎが日常にちじょう的てきに行おこなわれています。しかし、その議事ぎじ録ろくを取とるのは容易よういではありません。そこで、OpenAIのChatGPTとWhisperを使つかって、動画どうがファイルから議事ぎじ録ろくを自動じどう生成せいせいする方法ほうほうをご紹介しょうかいします。補足ほそく説明せつめい：ChatGPTについて ChatGPTは、OpenAIが開発かいはつした自然しぜん言語げんご処理しょりAIで、人間にんげんと自然しぜんに会話かいわすることが可能かのうです。GPT-3、GPT-4という大だい規模きぼな言語げんごモデルをベースにしており、様々さまざまな文脈ぶんみゃくでの文章ぶんしょう生成せいせいが得意とくいです。補足ほそく説明せつめい：Whisperについて Whisperは、OpenAIが開発かいはつした自動じどう音声おんせい認識にんしき(ASR)システムです。大量たいりょうの音声おんせいとテキストデータで訓練くんれんされており、音声おんせいをテキストに変換へんかんするタスクを効率こうりつ的てきに行おこないます。処理しょりの流ながれここから、具体ぐたい的てきに動画どうがファイルから議事ぎじ録ろくを生成せいせいするための具体ぐたい的てきな手順てじゅんを説明せつめいします。 1.
- ChatGPT
- API
- あとで読よむ
- 音声おんせい
- Python
- AI
GitHub - openai/whisper: Robust Speech Recognition via Large-Scale Weak Supervision
- 56 users
- github.com/openai
- 学まなび
- 2022/09/17
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
- OpenAI
- Whisper
- translate
- voice
- audio
- 機械きかい学習がくしゅう
- AI
- Tech
ChatGPT・Whisper・Otter・DeepLのすごい「英語えいご力りょく」、海外かいがい取材しゅざいで効果こうか絶大ぜつだいだった
- 55 users
- xtech.nikkei.com
- テクノロジー
- 2023/03/24
米べいOpenAI（オープンAI）の「ChatGPT」をはじめとする高度こうどな言語げんごAI（人工じんこう知能ちのう）が国内外こくないがいで大おおきな話題わだいとなっている。英語えいご、日本語にほんご、中国ちゅうごく語ごなど多た言語げんごを操あやつり、人ひとが話はなした言葉ことばをき取きとったり、こなれた文章ぶんしょうを書かいたり、翻訳ほんやくしたりする。近ちかごろは毎日まいにちのようにテレビやインターネットでニュースを見みかけるほどだ。様々さまざまな言語げんごAIを試ためしながら、自分じぶんなりの活用かつよう法ほうを探さぐっている読者どくしゃの方ほうは少すくなくないだろう。筆者ひっしゃも最近さいきん、取材しゅざい活動かつどうにChatGPTなどの言語げんごAIがどれだけ役立やくだつのかを検証けんしょうする機会きかいがあった。スペイン・バルセロナで2023年ねん2月がつ27日にちから3月がつ2日にちまで開催かいさいされたモバイル業界ぎょうかい最大さいだい級きゅうの展示てんじ会かい「MWC Barcelona 2023」に初はじめて参加さんかした。世界せかい202の国くにと地域ちいきから8万まん8500人にん以上いじょうが参加さんかしたという同どうイベントは、基本きほん的てきに英語えいごが使つかわれる。カンファレンス、メディア向むけの展示てんじブースツアー、1対たい1のインタビューの
iOS版ばん「OpenAI ChatGPT」アプリ、まずは米国べいこくで公開こうかい　音声おんせい入力にゅうりょくも可能かのう
- 54 users
- www.itmedia.co.jp
- テクノロジー
- 2023/05/19
Web版ばんと同様どうようにログインして使つかう。有料ゆうりょう版ばん「ChatGPT Plus」ユーザーであれば、Web版ばんと同様どうようにGPT-4へのアクセスや新しん機能きのうの早期そうき利用りようなどが可能かのうだ。また、昨年さくねん9月がつに発表はっぴょうしたオープンソースの音声おんせいテキスト変換へんかんAI「Whisper」により、音声おんせいでのプロンプト入力にゅうりょくも可能かのうだ。米べいMicrosoftは2月がつに「新あたらしいBing」のモバイルアプリ版ばんをiOSおよびAndroid向むけにリリースした。こちらは既すでに日本にっぽんでも利用りよう可能かのうで、日本語にほんごでの音声おんせい入力にゅうりょくもできる。現在げんざいApp Storeで「ChatGPT」を検索けんさくすると、OpenAIのロゴに似にたロゴを冠かんした類似るいじアプリが多数たすう表示ひょうじされる。OpenAI ChatGPTは日本にっぽんではまだ公開こうかいされていないので、注意ちゅういが必要ひつようだ。関連かんれん記事きじ ChatGPT Plusのプラグインを使つかってみた　「食たべログ」連携れんけいで実在じつざい店舗てんぽも案内あんない可能かのうに OpenAIは「ChatGPT Plus」のサー
whisper.cppのCore ML版ばんをM1 MacBook Proで動うごかす
- 53 users
- zenn.dev/shu223
- テクノロジー
- 2023/05/03
OpenAIの音声おんせい認識にんしきモデルであるWhisperの高速こうそく推論すいろん版ばんであるwhisper.cppが、いつのまにか [1] Core ML対応たいおうしていた。 Core ML対応たいおうしたということは、macOS/iOSデバイス（Mac, iPhone, etc...）に搭載とうさいされているNeural Engine、GPUを利用りようして推論すいろん処理しょりを行おこなうようになった、ということを意味いみする。[2] さっそくREADMEの手順てじゅんをなぞりつつ手元てもとのMBPで動うごかしてみたメモ。なお、実行じっこう環境かんきょうは以下いかの通とおり： MacBook Pro M1 Max 64GB macOS Ventura 13.3.1 Core MLモデルの生成せいせい手順てじゅん依存いぞんパッケージのインストール whisper.cppのCore MLモデルの作成さくせいに必要ひつようなパッケージをインストールする。
- Whisper
- AI
- GPU
- あとで読よむ
- Mac
- コンピュータ
OpenAI Whisper に追加ついか学習がくしゅうをさせる試こころみ | IIJ Engineers Blog
- 53 users
- eng-blog.iij.ad.jp
- テクノロジー
- 2022/12/08
地方ちほう拠点きょてんの一ひとつ、九州きゅうしゅう支社ししゃに所属しょぞくしています。サーバ・ストレージを中心ちゅうしんとしたSI業務ぎょうむに携たずさわってましたが、現在げんざいは技術ぎじゅつ探索たんさく・深堀ふかほり業務ぎょうむを中心ちゅうしんに対応たいおうしています。 2018年ねんに難病なんびょうを患わずらったことにより、定期ていき的てきに入退院にゅうたいいんを繰くり返かえしつつ、2023年ねんには男性だんせい更年期こうねんき障害しょうがいの発症はっしょうをきっかけに、トランスジェンダーとしての道みちを歩あゆみ始はじめてます。【IIJ 2022 TECHアドベントカレンダー 12/8（木き）の記事きじです】 Whisperの追加ついか学習がくしゅうに挑いどむ2022年ねんの冬ふゆ 2022年ねんアドベントカレンダー企画きかくだそうです。いかがお過すごしでしょうか。私わたしはもう興味きょうみを引ひくものに没頭ぼっとうするしか楽たのしみがないもんで、PCに向むかってぼんやり面白おもしろいネタはないかなーと探さがす日々ひびです。最近さいきんはすっかりディープラーニングにズブズブで、とうとう数式すうしきかくのが面倒めんどうなあまり手書てがき入力にゅうりょくのためのペンタブレットを買かいました。てへ。今回こんかいは9月から10月がつにかけてStabl
Amazon Connectでお問とい合あわせ内容ないようをWhisper APIで文字もじ起おこしし、ChatGPTで要約ようやくして音声おんせい出力しゅつりょくしてみた（一いち次じ対応たいおうの無人むじん化か） | DevelopersIO
- 51 users
- dev.classmethod.jp
- テクノロジー
- 2023/11/09
Amazon Connectでお問とい合あわせ内容ないようをWhisper APIで文字もじ起おこしし、ChatGPTで要約ようやくして音声おんせい出力しゅつりょくしてみた（一いち次じ対応たいおうの無人むじん化か）はじめに Amazon Connectを使用しようして、お問とい合あわせ内容ないようをOpenAIのWhisper APIで文字もじ起おこしとChatGPTで要約ようやくし、通話つうわ中ちゅうに音声おんせい出力しゅつりょくする方法ほうほうをまとめました。 Connectで無人むじん対応たいおうの場合ばあい、顧客こきゃくからの発話はつわをき取きとる方法ほうほうとしては、チャットボットサービスであるAmazon Lexもしくは、Kinesis Video Stream(KVS)で音声おんせいのストリーミングなどがあります。 Amazon Lexを利用りようする場合ばあいは、１度どに15秒びょう以上いじょうはき取きとることができない点てんや文字もじ起おこしにはAmazon Transcribeを利用りようする制約せいやくがあります。今回こんかいは、文字もじ起おこしにWhisper APIを利用りようし、ChatGPTで要約ようやくした内容ないようをConne
生成せいせいAIと音声おんせい認識にんしきを組くみ合あわせて会議かいぎアシスタントツールを作つくったら生産せいさん性せいが大幅おおはばに向上こうじょうした話はなし
- 49 users
- blog.cloudnative.co.jp
- テクノロジー
- 2023/08/30
株式会社かぶしきがいしゃクラウドネイティブは、Azure OpenAIで自じ組織そしき専用せんようのChatGPTの構築こうちくを支援しえんするサービスを展開てんかいしています。ChatGPTとAzure AD OpenAI Serviceの取とり組くみや事例じれい、支援しえん… IDチームの前田まえだです。今日きょうは生成せいせいAI(ChatGPT)と音声おんせい認識にんしきモデル(Whisper)を利用りようした会議かいぎアシスタントツールに関かんする投稿とうこうになります。 (追記ついき) 作つくったツールはGitHub上じょうで公開こうかいしており、Dockerを利用りようしてすぐに試ためせるようになってます。 https://github.com/cloudnative-co/mtg-ai-assistant 2023年ねん8月がつ30日にち現在げんざいAzure OpenAIにてWhisperが利用りよう出来できていないため、OpenAI Whisper APIを利用りようした試験しけん段階だんかいのものになります。近日きんじつ中ちゅうにAzure OpenAIにてWhisperが利用りよう出来できるとアナウ
- ChatGPT
- Azure
- AI
- OpenAI
- あとで読よむ
- ツール
ジェネレーティブAIで「文字もじ起おこし」をリライトさせるとどうなるのか。Easy-Peasy.AIを日本語にほんごで使つかってみた（西田にしだ宗そう千佳ちか） | テクノエッジ TechnoEdge
- 43 users
- www.techno-edge.net
- テクノロジー
- 2023/02/06
1971年ねん福井ふくい県けん生うまれ。得意とくいジャンルは、パソコン・デジタルAV・家電かでん、ネットワーク関連かんれんなど「電気でんきかデータが流ながれるもの全般ぜんぱん」。主おもに、取材しゅざい記事きじと個人向こじんむけ解説かいせつ記事きじを担当たんとう。音声おんせいの書がき起おこしはライターにとって夢ゆめの技術ぎじゅつだ。そのまま原稿げんこうにできるわけではないが、インタビュー原稿げんこうや取材しゅざい記事きじを執筆しっぴつする上じょうでの手間てまが劇的げきてきに減へる。筆者ひっしゃはもうずっと昔むかしから、書かき起おこし系けいの技術ぎじゅつが出でるたびに試行錯誤しこうさくごを繰くり返かえしてきた。そんな中なかに、ちょっとびっくりするようなサービスが現あらわれた。正確せいかくにいえば「使つかってみたらびっくりするようなものだった」というのが正ただしいだろうか。それはいわゆるジェネレーティブAIサービスである「Easy-Peasy.AI」だ。このうち、AIによる音声おんせい書がき起おこしサービス「AI Transcription」を日本語にほんごで使つかってみた。結果けっかとして、「非常ひじょうに使つかえるが、面白おもしろい性質せいしつがある」こともわかってきた。現在げんざいのジェネレーテ