18c0693f

    Программирование - работа с данными

Программирование для работы с данными включает использование различных языков программирования, инструментов для обработки больших объёмов данных (Big Data) и инструментов для визуализации результатов. В этой области применяются, например, SQL, Python, а также специализированные технологии для работы с Big Data.

ctured Query Language) — декларативный язык программирования, который используют для работы с базами данных. Некоторые особенности:

Позволяет создавать, изменять и извлекать данные из баз данных, выполнять операции (выборка, вставка, обновление, удаление).

Обращается к базам данных не напрямую, а через системы управления базами данных (СУБД).

На чистом SQL нельзя написать программу — он предназначен только для взаимодействия с базами данных.

Некоторые инструменты SQL для работы с данными:

SELECT — выбор данных.

FROM — указание таблицы, из которой нужно получить информацию.

WHERE — фильтрация данных по условию.

GROUP BY — группировка данных по столбцам.

ORDER BY — сортировка результатов запроса.

  • Абстрактные типы данных (АТД)
    Особенно интересным следствием ОО-политики, в которой модули основаны на реализациях АТД (классах), является то, что она дает ясный ответ на вопрос, который остался нерешенным при обсуждении скрытия информации: как нам следует разделять общедоступные и скрытые свойства модуля - видимую и невидимую части айсберга?

  • Subtypes and Supertypes Setting the Scene
    Одной из наиболее ранних статей, если не в самой ранней, выражающей позицию POTT, была статья "Types and Persistence in Database Programming Languages" Малькольма Аткинсона (Malcolm Atkinson) и Питера Бьюнмана (Peter Buneman)

  • Абстрактные типы данных (АТД)
    Особенно интересным следствием ОО-политики, в которой модули основаны на реализациях АТД (классах), является то, что она дает ясный ответ на вопрос, который остался нерешенным при обсуждении скрытия информации: как нам следует разделять общедоступные и скрытые свойства модуля - видимую и невидимую части айсберга?

  • Алгоритмы, структуры данных
    Системы синтеза реалистических изображений должны обеспечивать передачу всех свойств моделируемого объекта: объемность, расположение, передачу полутонов, тени, освещение, текстуры поверхности. Чем выше степень реалистичности изображения, тем больше требуется вычислений для его формирования

  • Выполнение транзакций, ориентированное на данные
    В этом разделе подробно описывается выполнение в среде DORA транзакции Payment из тестового набора TPC-C. Напомним, что транзакция Payment обновляет остаток на счету клиента (Customer), отражает факт совершения платежа в статистике округа

  • Методы добычи данных при построении локальной метрики в системах вывода по прецедентам
    Русскоязычному термину "добыча данных" или "раскопка данных" в английском языке соответствует термин Data Mining. Нередко встречаются слова "обнаружение знаний в базах данных" (Knowledge Discovery in Databases) и "интеллектуальный анализ данных" (ИАД)

  • Модели и структуры данных
    Из выше приведенных формул видно, что вычисление адреса элемента многомерного массива может потребовать много времени, поскольку при этом должны выполняться операции сложения и умножения, число которых пропорционально размерности массива

  • Обзор алгоритмов MOLAP
    Под разреженной матрицей понимается такая матрица, не каждая ячейка которой содержит данные. OLAP-системы должны содержать средства хранении и обработки разреженных матриц больших объемов

  • Основы визуальной алгоритмизации
     В дальнейшем будем считать, что для двумерного массива A(N,М) в обозначении элемента А(i,j) первое значение i соответствует номеру строки и изменяется от1 до N, а  j  - номеру столбца и изменяется от 1 до М. В отличие от одномерного массива, в котором использовался только один номер для определения местоположения элемента

  • Параллельная обработка данных
    Основные причины появления массивно-параллельных компьютеров - это, во-первых, необходимость построения компьютеров с гигантской производительностью, и, во-вторых, необходимость производства компьютеров в большом диапазоне как производительности, так и стоимости

  • Серверы корпоративных баз данных
    Появление в 80-х годах персональных компьютеров (ПК) и локальных сетей ПК самым серьезным образом изменило организацию корпоративных вычислений. Однако и сегодня освоение сетевых вычислений в масштабе предприятия и Internet продолжает оставаться не простой задачей.

  • Структуры данных и модели вычислений
    Рассмотрим работу -разрядного двоичного сбрасываемого счетчика, реализованного как массив битов , хранящий двоичную запись числа . Будем считать, что — младший разряд. Пусть первоначально . Единственной операцией в нашем примере будет операция Increment, увеличивающая на 1 по модулю

  • Структуры и алгоритмы обработки данных
    КМП-поиск дает подлинный выигрыш только тогда, когда неудаче предшествовало некоторое число совпадений. Лишь в этом случае слово сдвигается более чем на единицу. К несчастью, это скорее исключение, чем правило: совпадения встречаются значительно реже, чем несовпадения. Поэтому выигрыш от использования КМП-стратегии в большинстве случаев поиска в обычных текстах весьма незначителен

  • Язык обработки данных AWK
    Средство поддержки программных проектов. По кругу решаемых задач средство близко к make, но является более развитым с точки зрения различных способов оптимизации отдельных частей проекта

  • Анализ вклада Кодда в Великий Спор
    Великий Спор являлся спором между сторонниками реляционного и сетевого подходов. Он происходил во время ACM SIGMOD Workshop on Data Description, Access, and Control в 1974 г.; основными докладчиками были Эдгар Ф. Кодд в пользу реляционного подхода (поразительно!) и Чарльз В. Бахман в пользу сетевого подхода, или подхода CODASYL

  • МОГучие способности новые приемы анализа больших данных
    Средства BI обладают довольно ограниченными статистическими функциональными возможностями. Поэтому во многих организациях стандартным приемом является извлечение частей базы данных в настольные программные пакеты: статистические пакеты типа SAS, Matlab или R, электронные таблицы наподобие Excel

  • Программная среда для динамического анализа бинарного кода
    На текущий момент среда TrEx предоставляет аналитику набор средств, позволяющий восстанавливать алгоритм в виде ассемблерного листинга, нуждающегося в дальнейшей доработке. Среда может получить развитие не только за счет улучшения качества работы уже существующих инструментов, но и решения других, смежных задач, о которых говорилось ранее

  • Сравнение подходов к крупномасштабному анализу данных
    Для изучения случаев более сложного использования систем обоих типов были разработаны четыре задачи, относящиеся к обработке HTML-документов. Сначала генерировалась коллекция случайных HTML-документов, похожих на те, которые мог бы найти поисковый робот