音视频技术开发周刊 83期

万胜 · 发表于 2022-3-26 10:25:39

『音视频技术开发周刊』由LiveVideoStack团队出品，专注在音视频技术领域，纵览相关技术领域的干货和新闻投稿，每周一期。点击『阅读原文』，浏览第83期内容，祝您阅读愉快。


架构

基于视频流传输 — 在线教育白板技术
  在线教育不同于线下教育，内容需要经过电子白板展现给用户，如何做出优秀的在线教育白板成为研究的重点。本文来自学而思网校客户端架构负责人赵文杰在LiveVideoStackCon 2018大会上的分享，并由LiveVideoStack整理而成。

  基于WebRTC的互动直播实践
  互动直播已经逐渐成为直播的主要形式。映客直播资深音视频工程师叶峰峰在LiveVideoStackCon 2018大会的演讲中详细介绍了INKE自研连麦整体设计思路、如何基于WebRTC搭建互动直播SDK以及针对用户体验进行优化。本文由LiveVideoStack整理而成。

  熊谢刚：AI和5G让容联·云通讯弯道超车
  经过5年多的发展，容联·云通讯已经从通讯PaaS服务，演变成为融合通信运营商与互联网音视频能力的通讯云平台。未来，容联·云通讯还要在5G、AI和物联网方面突破。日前，LiveVideoStack对容联·云通讯CPO熊谢刚进行了专访，畅谈了多媒体云服务的未来。

  LinkedIn：用数据提高视频性能
  LinkedIn通过在视频播放过程中收集的大量数据，对多种视频指标进行实验以提高视频性能，改善用户体验。本文来自LinkedIn工程博客，LiveVideoStack对文章进行了翻译。

  QUIC的那些事 | 帧类型及格式
  QUIC的帧包是基于帧的。帧有1个字节的帧类型字段，类型字段后是与类型相关的帧头信息。所有的帧都被包含在单个的QUIC包中，没有帧可以跨越QUIC包的边界。

  移动端IM/推送系统的协议选型：UDP还是TCP？
  从PC时代的IM开始，IM开发者就在为数据传输协议的选型争论不休（比如：《为什么QQ用的是UDP协议而不是TCP协议？》这样的问题，隔一段时间就能在社区里看到）。到了移动互联网时代，鉴于移动网络的不可靠性等特点，再加上手机的省电策略、流量压缩等，为这个问题的回答增了更多的不确定因素。


音频/视频技术

安卓音视频播放-总体架构
  安卓上我们经常会使用MediaPlayer这个类去播放音频和视频,这篇笔记便从MediaPlayer着手,一层层分析安卓的音视频播放框架。

  Stanford CS224n 第十二讲：语音处理的端对端模型
  本文是对端到端的语音处理方法的概述，主要内容包括 1.传统的语音识别系统；2. 使用端到端（end-to-end）系统的原因；3. Connectionist Temporal Classification（CTC）；4. Listen Attend and Spell（LAS）；5. LAS的一些改进方法...

  自适应流媒体传输（五）——正确认识码率切换
  在这篇文章中，我们来探讨几个问题：什么时候需要进行码率切换，码率切换的幅度应该怎么设计，以及码率切换会对观众的感知有什么影响。相信大家看完之后会对码率切换有一个更加正确的认识。

  利用MediaMuxer从视频中提取视频音频文件和合并视频，音频文件
  前面利用MediaExtractor提取的AAC和H264文件不经过处理没办法播放，这次利用MediaExtractor和MediaMuxer配合提取合并生成可以播放的文件，PS：AAC文件和.H264需要首先利用MediaMuxer生成MP4文件，才能进行合并。


编解码

Android音视频学习： MediaCodec 硬编解码
  MediaCodec 是做硬件（GPU，充分利用GPU 的并行处理能力）编解码的。（通常结合 MediaExtractor、MediaSync、MediaMuxer、MediaCrypto、MediaDrm、Image、Surface、AudioTrack 使用）



  FFmpeg视频解码,保存原始YUV数据(使用最新FFmpeg4.1)
  本文基于FFmpeg4.1，FFmpeg视频解码,保存原始YUV数据，没有使用任何弃用的API。

  自适应流媒体传输（四）——深入理解MPD
  在这篇文章中，我们从更细节的角度，深入来看一下DASH系统中的MPD结构。


AI智能

6D目标姿态估计，李飞飞夫妇等提出DenseFusion
  根据 RGB-D 图像进行 6D 目标姿态估计的一个主要技术挑战是如何充分利用两个互补数据源——颜色和深度。为此，李飞飞夫妇等研究者提出了 DenseFusion——一种可单独处理两个数据源的异质架构。


  Mars 算法实践——人脸识别
  Mars 是一个基于矩阵的统一分布式计算框架，在之前的文章中已经介绍了 Mars 是什么，以及 Mars 分布式执行，而且 Mars 已经在 GitHub 中开源。当你看完 Mars 的介绍可能会问它能做什么，这几乎取决于你想做什么，因为 Mars 作为底层运算库，实现了 numpy 70% 的常用接口。这篇文章将会介绍如何使用 Mars 完成你想做的事情。


  一文带你读懂 WaveNet：谷歌助手的声音合成器
  机器合成拟人化语音（文语转换）的想法已经存在很长时间了。在深度学习出现之前，存在两种主流的建立语音合成系统的方式，即波音拼接合成和参数合成。


  FaceBoxes—官方开源CPU实时高精度人脸检测器
  FaceBoxes是中科院自动化所在IJCB2017上提出的面向CPU实时的高精度人脸检测算法，论文中指出其比大家所熟知的MTCNN在速度和精度上都更优秀。


图像

旷视等提出GIF2Video：首个深度学习GIF质量提升方法
  本文提出了 GIF2Video，首个基于深度学习提升自然场景下 GIF 成像质量的方法，其主要任务有两个：颜色反量化和帧插值。针对第一个任务，本文给出一个组合性网络架构 CCDNet，并通过综合损失函数训练它，颜色反量化被嵌入于 CCDNet 以指导网络学习和推理。对于第二个任务，本文采用 SuperSlomo 进行变长多帧插值以提升输入 GIF 的时序分辨率。

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！

账号		自动登录	找回密码
密码			立即注册