Jelinek Summer Workshop on Speech and Language Technology (JSALT) というCSLP JHUの主催する夏季ワークショップが2025年はチェコのBrno University of Technologyで行われ、自分は2週間のサマースクールと6週間のワークショップの両方に参加しました。特に、ワークショップではEnd to End multi channel multi talker ASR (EMMA) チームの一員として音声強調・分離や目的話者抽出に取り組みました。
JSALT自体や研究内容についてはCSLPのYoutubeチャネルでライブストリーミングの録画が公開されているので、ここでは実際にワークショップが始まるまでのEMMAチームの流れと個人の体験を共有することで、JSALTに興味を持つ人が増えればと思っています。
JSALTへ名前が変わる前を含めると本ワークショップは1993年から続いており、最近はJHUと他の場所での開催が交互に繰り返されています。複数の研究チーム(今年の場合は約20人のチームが4つ)がそれぞれ事前に決めたテーマに取り組む6週間のワークショップが2週間のサマースクールに続きます。チームを構築するにあたっては前年秋ごろにテーマの公募があり、現地審査を経て採択されたテーマに関しては学生などを補充するといった流れになっていました。
自分は企業からの参加ということで渡航費や滞在費等は会社持ちでしたが(会社に感謝です)、アカデミアからの参加者(少なくとも学生)については渡航費や滞在費に関して大きな援助が出ます。
自分はチームリーダのSamueleと博士課程の頃に音声強調・分離と認識の統合に関する研究を一緒にしたことがあり、プロポーザルを出すにあたりチームに加えてもらうことができました。採択後、EMMAチームでは毎週ミーティングを行い、さらに一度JHU/BUT/USTCの中から近いところにメンバーが集まり2日間の合宿?を行いました。
大規模な研究開発は時間がかかるので、2か月を有効活用するにはある程度事前準備が必要です。実際自分の場合、コードベースをおおむね作り上げていったテーマは他のメンバーとの議論をもとに上手く拡張できた一方、もう一つのテーマについては2か月では満足のいく結果までは持っていけませんでした(もちろんそのテーマには引き続き取り組んでいます)。
2週間のサマースクール後、コンピュータルームのようなところが各チームに割り振られ、基本的には議論するかコーディングするかを毎日繰り返します。EMMAチームでは毎朝9時頃からミーティングがあり、自分は大体18時頃まで作業をしていましたがさらに残っている人も多くいました。まさに「同じ釜の飯を食う」状態で、英語が苦手ながらも新しいネットワークを構築することができました。
また、音声言語処理の中でも特定のテーマに専門性を持つ研究者が多数集まって開発できる環境は珍しく、大変貴重な経験になりました。例えば、CHiME-8 Task2の優勝チームに多話者音声認識のデータ生成のための実験設定について確認したり、Lhotseの開発者に自分が実現したい前処理をLhotseでどう実装するかなどのアドバイスをもらうことができました。メールやGitHubのissueベースでも議論は可能ですが、開発の速度が圧倒的に上がります。
国際会議でただすれ違うのとは異なり、2か月間同じ建屋で過ごすとなると英語が苦手でも研究以外のことを話す機会が多分に生まれます。また2か月でテーマが完遂されそこで関係性が終わってしまうことはほぼなく、継続的に国際共同研究を行うことができます。
他にも社会人になりインターンができなくなった今、2か月間も職場を離れてヨーロッパで夏を過ごすことができたのは人生的には貴重な経験でした。実際、週末はヨーロッパを満喫して息抜きをしていました。
公募にプロポーザルを出して自分でチームを率いるか、プロポーザルを出しそうな研究者とコネクションを作り声をかけてもらう(自分はこのパターン)しかないように思います(自分が知らないだけで他の方法もあるかもしれません)。前者は個人の意思決定でチャレンジできますが中々ハードルが高いですね...
学部生の場合、別途チームに加わるための公募が春頃にあるのでそこへ応募するのがよいでしょう。