音视频技术开发周刊 | 198

123456790 · 发表于 2022-3-26 10:21:53

每周一期，纵览音视频技术领域的干货。
新闻投稿：contribute@livevideostack.com。

小提示：链接跳转仅支持公众号相关链接

可编程的流式计算框架：YoMo
音视频领域的新技术应用非常多，但是在工业和IoT领域，新技术的应用却鲜有耳闻。本次LiveVideoStackCon 2021 上海站大会我们邀请到了熹乐科技YoMo框架负责人——洪小坚，为我们分享熹乐科技和YoMo会为工业和IoT带来哪些新鲜血液。

使用Workers, Durable Objects和Unity制作实时游戏
Durable Objective是对Workers开发生态系统的一个了不起的补充，允许您在特定的Worker中处理和工作，以提供应用程序的一致性。为了更好地理解为什么Durable Objective很重要，以及像WebSockets这样的工人生态系统中的更新公告是如何使用Durable Objective的，我转向了一个我在几个月的业余时间里一直在开发的软件类别:视频游戏。
https://blog.cloudflare.com/building-real-time-games-using-workers-durable-objects-and-unity/

WebRTC对你意味着什么
WebRTC作为一个工具箱相较于传统的视频会议关于安全性、良好的兼容性、增强网络的优势。
如何利用 AWS WebSocket API 进行无服务器 WebRTC 信号传输
在这篇文章中，Edward 展示了他们如何利用无服务器架构来设置 WebRTC 信号。他们使用 AWS 的 API Gateway WebSocket API 来终止 WebSockets 并调用 AWS 无服务器 Lambda 函数。虽然没有通用或最佳的方式来处理 WebRTC 的信令，但这是一个很好的例子。
https://webrtchacks.com/leverage-aws-websocket-api-for-webrtc-signaling/
在Facebook上实现自动化
互联网上的流量通过许多不同类型的链接传播。在不同的网络和服务提供商之间交换流量的一种快速而可靠的方法是通过对等。最初，我们通过一个耗时的手动过程来管理对等。可靠的对等网络对Facebook和所有人的互联网使用都至关重要。但是，对于如何建立一个可扩展的、自动对等管理系统，目前还没有行业标准。因此，我们开发了一种新的自动化方法，它允许更快的自助对等配置。我们正在分享我们在公共对等自动化方面学到的一些最佳实践，希望我们的方法能在互联网社区得到更广泛的采用。
https://engineering.fb.com/2021/05/20/networking-traffic/peering-automation/

AV1和开放媒体联盟(AOM)的发展、成果与未来
Alliance for Open Media（开放媒体联盟）是由亚马逊、思科、谷歌、英特尔、微软、Mozilla以及Netflix等互联网公司成立。该联盟旨在通过制定全新、开放、免版权费的视频编码标准和视频格式，为下一代多媒体体验创造新的机遇。AV1是开放媒体联盟Alliance for Open Media (AOM) 开发的第一代视频编码标准。本次分享，我们邀请到了AOM的通信和会员发展副总裁——Matt Frost先生，他向我们分享了开放媒体联盟的产生，成立六年来所取得的成就及开放媒体联盟在下一代视频编解码器方面所做的进展。
基于SVM的VVC帧内快速CU划分算法
为了降低编码复杂度，我们对VVC帧内编码提出了一种基于支持向量机（SVM）的快速 CU 划分算法，该算法通过使用纹理信息预测 CU 的划分来提前终止冗余划分。

新的Google Lyra音频编解码器对实时视频流意味着什么？
通过语言编码中的码率缩减趋势，Lyra与Opus中的区别比较，Lyra的作用，XDN平台上的高效语音编码技术几个方面探讨新的Google Lyra音频编解码器对实时视频流的意义。
三星电子发布关于语音发送/接收方法和装置发明专利
北京时间，6月1日，三星电子申请专利：《语音发送方法和装置以及语音接收方法和装置、电子设备》，正式发布！该专利的发布旨在解决现有技术中，终端发送和接收语音时进行采样率转换的效果较差，无法向用户提供优质的听觉体验。此外，此项专利的核心特点是基于神经网络的语音发送方法和装置以及语音接收方法和装置。
支持情感控制的音频驱动3D人脸动画
本文来自NVIDIA GTC21的一篇演讲，演讲者是NVIDIA Graphic-AI的高级开发技术工程师Yeongho Seol，他主要介绍了一种全新的基于深度神经网络的音频驱动3D人脸动画技术。
高性能视频推理引擎优化技术
本文整理自腾讯高级技术专家鲍金龙在LiveVideoStack线上分享上的演讲。他通过自身的实践经验，详细讲解了高性能视频推理引擎优化技术。
媒体和娱乐的云服务 - 处理、播放和分发
本文来自2021年1月27日SMPTE NY Meeting，演讲者为Evan Statton，亚马逊网络服务（AWS）首席架构师和Liam Morrison，亚马逊网络服务（AWS）机器学习首席架构师。
视频播放优化浅析
本文尝试从播放器的原理开始着手，梳理一下在Android客户端上的播放架构的演进，以及在播放体验的核心指标的优化上，针对不同场景所作出的各种优化。

全球最快AI超算Perlmutter问世，将绘制宇宙最大3D地图
5 月 27 日，位于美国劳伦斯伯克利实验室的国家能源研究科学计算中心（NERSC）正式发布其下一代超级计算机 Perlmutter（又名 NERSC-9）。Perlmutter 由 HPE 制造，同时采用 AMD CPU 和英伟达 CPU，理论上可提供接近 3.8 exaflop/s 的 AI 性能，或约 60 petaflops 的峰值双精度（标准 FP64）HPC 性能。

Google推出“文本到图像生成”的跨模态对比学习
最先进的图像合成结果通常是使用生成对抗网络(GAN) 实现的，该网络训练两个模型——一个生成器，试图创建逼真的图像，以及一个鉴别器，它试图确定图像是真实的还是捏造的。
https://ai.googleblog.com/2021/05/cross-modal-contrastive-learning-for.html
Dropbox 的图片搜索工作原理
在这篇文章中，我们将基于机器学习技术描述我们的图像内容搜索方法背后的核心思想，然后讨论我们如何在 Dropbox 现有的搜索基础架构上构建一个高性能的实现。
https://dropbox.tech/machine-learning/how-image-search-works-at-dropbox
分享有关Twitter图像裁剪算法的知识
我们的图像裁剪算法的分析是与来自ML模型、透明度和问责制 (META) 团队的Kyra Yee和Tao Tantipongpipat以及来自我们内容理解研究团队的Shubhanshu Mishra合作完成的，该团队专门改进我们的ML模型，用于推文中的内容类型。在我们的研究中，我们针对基于性别和种族的偏见测试了我们的模型，并考虑了我们的模型是否符合我们的目标，即让人们能够在我们的平台上做出自己的选择。
https://blog.twitter.com/engineering/en_us/topics/insights/2021/sharing-learnings-about-our-image-cropping-algorithm.html
深度学习在计算机视觉领域（包括图像，视频，3-D点云，深度图）的应用一览
计算机视觉不是深度学习最早看到突破的领域，真正让大家大吃一惊的颠覆传统方法的应用领域是语音识别，做出来的公司是微软，而不是当时如日中天的谷歌。计算机视觉应用深度学习堪称突破的成功点是2012年ImageNet比赛，采用的模型是CNN，而不是Hinton搞的RBM和DBN之类，就是Hinton学生做出来以他命名的AlexNet。
用不需要手工标注分割的训练数据来进行图像分割
只需要标注包围框就可以进行图像分割的训练。
Google新作 | 详细解读 Transformer那些有趣的特性
本文发现了Transformer的一些重要特性，如Transformer对严重的遮挡，扰动和域偏移具有很高的鲁棒性、与CNN相比，ViT更符合人类视觉系统，泛化性更强，等等... 代码即将开源！

为了让步行在VR中更逼真，脚部VR力回馈方案诞生
与万向跑步机相比，滑轮鞋或圆形底盘适合坐着玩VR，你通过原地踏步或原地移动脚面就能控制VR运动，适合休闲类VR应用。但是，这些足部控制器主要功能只是模拟行走的动作，无法给你带来走在地上的逼真体感，你可能感受不到阻力或是踩在地上的弹力。因此为了解决这一问题，由丰桥技术科学大学和东京大学科研人员组成的团队想出了另一种模拟真实行走的VR方案，他们结合足部震动反馈来模拟踩在地面上行走的反作用力/摩擦力，这样当你坐着玩VR的时候，也能体验到接近走路的体感。

自动驾驶的 6 个关键连接要求

虽然汽车行业的未来仍然充满未知，但我们知道：行业领导者需要掌握连接性，以实现完全自动驾驶的 V2X（Vehicle-to-everything）功能。
https://spectrum.ieee.org/transportation/advanced-cars/6-key-connectivity-requirements-of-autonomous-driving

谷歌正式发布Fuchsia操作系统，从第一代Nest hub开始
谷歌长期开发、从头开始的操作系统Fuchsia现在运行在真正的Made by谷歌设备上，即第一代Nest Hub。
https://9to5google.com/2021/05/25/google-releases-fuchsia-os-nest-hub/
HarmonyOS 2面世！是没有退路还是时机成熟？中国操作系统崛起元年或已到来
6月2日晚间，华为鸿蒙操作系统HarmonyOS迎来重要时刻，华为正式发布多款搭载HarmonyOS 2的新产品，包括HUAWEI Mate 40系列新版本、Mate X2新版本、HUAWEI WATCH 3系列、HUAWEI MatePad Pro等手机、智能手表、平板产品。同时，华为手机、平板等“百”款设备将陆续启动HarmonyOS 2升级。
OBS Studio 27发布，具有撤销/重做，支持macOS、Linux等系统下的浏览器docks访问
经过一段时间的测试，我们很高兴地宣布OBS Studio 27现在对每个人都可用!如果你已经安装了OBS，下次启动它时，你会收到一个更新提示。如果你是第一次下载在线存储服务，或者想使用便携式版本，你可以从我们的网站上下载。如果您关闭更新通知，可以从Windows和macOS上的帮助菜单手动下载。
https://obsproject.com/blog/obs-studio-27-released
Oppo 通过第三方收购为产品组合增加了 1,400 多项专利
Oppo在大约5年前开始迅速增长，在新的地区面临新的风险，比如专利纠纷。为了解决这一问题，该公司实施了一项双管齐下的战略，以增强其运营自由:一方面加强内部研发，另一方面在二级市场购买关键技术的专利。
https://www.iam-media.com/defensive-aggregation/oppo-adds-over-1400-patents-portfolio-through-third-party-acquisitions
通过 MediaPipe 手部追踪控制您的 Mirru 假肢
Mirru是一个正在开发中的免费开源Android应用程序，人们可以通过手跟踪来控制机器人假肢手。有了这款应用程序，用户可以立即将发声手的握法镜像到机器人手上，机器人可以3d打印并以低成本自行组装。通过Mirru，谷歌希望提供一种廉价、直观和开放的端到端替代现有的、昂贵的、繁琐的和专有的技术。
https://developers.googleblog.com/2021/05/control-your-mirru-prosthesis-with-mediapipe-hand-tracking.html
2021 MSU视频编解码器大赛
通过 MSU 编解码器比较，开发人员可以验证其编解码器的性能。我们共享测试序列、编码参数和编解码器版本，以便所有开发人员都可以重现比较结果。
http://www.compression.ru/video/codec_comparison/2021/call_for_codecs.html
讲师招募 LiveVideoStackCon 2021 北京站
LiveVideoStackCon 2021 北京站（9月3-4日）正在面向社会公开招募讲师，欢迎通过 speaker@livevideostack.com 提交个人及议题资料，无论你的公司大小，title高低，老鸟还是菜鸟，只要你的内容对技术人有帮助，其他都是次要的，我们将会在24小时内给予反馈。点击[阅读原文]了解大会更多内容。

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！

账号		自动登录	找回密码
密码			立即注册